ChatGPT 使用指南
ChatGPT 是 OpenAI 于 2022 年 11 月发布的对话式 AI 助手,是历史上增长最快的消费级应用(2 个月用户超 1 亿)。尽管竞争对手不断涌现,ChatGPT 凭借持续的产品创新和最广泛的用户基础,仍然是 AI 助手领域的标杆产品。本章介绍 GPT-4o 时代 ChatGPT 的核心功能和高效使用方法。
GPT-4o 核心能力
多模态能力
GPT-4o("o"代表 Omni,全能)是 OpenAI 的原生多模态模型:
文本:GPT-4o 的文字能力仍是业界顶级,在写作、分析、推理、代码等任务上保持领先。
图像理解:
上传一张错误截图或代码照片 → "这段代码有什么错误?"
上传产品设计图 → "分析这个 UI 的可用性问题"
上传图表/数据可视化 → "解释这张图说明了什么趋势"
上传手写笔记 → "把这段手写内容整理为电子文档"
代码执行(Code Interpreter):见下文专项介绍。
语音实时对话:GPT-4o 支持低延迟语音对话(Advanced Voice Mode),能够感知语气、情绪,实现近乎自然的语音交互。与传统 ASR+LLM+TTS 管道不同,GPT-4o 原生处理语音,延迟极低(约 300ms)。
视频(ChatGPT macOS/iOS App):可以实时查看用户屏幕或摄像头画面,提供情境感知帮助。
推理模型 o1 / o3
OpenAI 的 o 系列模型(o1、o1-mini、o3、o3-mini)专注于需要深度推理的任务:
- 思维链:模型在给出最终答案前进行内部"思考",显示推理过程
- 数学:在 AIME(美国数学邀请赛)上大幅超越 GPT-4o
- 编程:在竞赛级算法题上表现出色(Codeforces 高分段)
- 科学:在复杂科学推理题上表现优于 GPT-4o
使用场景:需要精确推理的数学/逻辑题、复杂代码调试、科研分析。不适合:创意写作、简单对话(overkill)。
Code Interpreter(数据分析)
Code Interpreter(现称"Advanced Data Analysis")允许 ChatGPT 在沙箱环境中执行 Python 代码,是面向数据分析师的核心功能:
数据分析示例:
1. 上传 CSV/Excel 文件
2. "分析这份销售数据,找出2024年的月度趋势,并生成可视化图表"
3. ChatGPT 自动编写并执行 Pandas + Matplotlib 代码
4. 直接显示图表,提供分析结论
5. "再按产品品类分组,看看哪个品类增长最快" → 继续执行
文件处理:
- 读取 PDF、Word、Excel、CSV、JSON 等格式
- 图像处理(PIL)、音频分析(librosa)
- 数据清洗(去重、填充缺失值、格式转换)
代码执行:
"帮我写一个 Python 脚本,批量压缩目录下所有图片到 800px 宽"
→ ChatGPT 生成代码,在沙箱执行,提供可下载的压缩图片
限制:
- 网络访问受限(无法爬取外部数据)
- 每个会话有执行时间限制(约 2 分钟)
- 不支持 GPU(纯 CPU 计算)
DALL-E 3 集成图像生成
ChatGPT Plus 用户可以直接在对话中调用 DALL-E 3 生成图像:
"帮我生成一张卡通风格的猫咪坐在咖啡馆里看书的图片,温暖的色调"
→ DALL-E 3 生成,直接显示在对话中
"把这张图片的背景改为日落沙漠" → 图像编辑
DALL-E 3 的特点:
- Prompt 理解能力强(比 DALL-E 2 大幅提升)
- 文字渲染较好(但不及 FLUX.1)
- 遵守内容政策(部分创意内容被限制)
- 每次生成 1 张(不像 Midjourney 同时出 4 张)
Web 搜索
ChatGPT 集成了实时网络搜索(Bing Search),可以获取最新信息:
"今天 BTC 价格是多少?"
"React 19 有哪些新特性?"(突破模型知识截止日期)
"帮我搜索最新的 AI 编程工具评测"
触发方式:ChatGPT 会自动判断是否需要搜索(问时效性问题时自动触发),也可以手动点击搜索图标。
与 Perplexity 相比:ChatGPT 的搜索更适合作为对话的补充,Perplexity 专为搜索场景优化(引用更完整、更精确)。
Canvas 模式
Canvas(2024年推出)是 ChatGPT 的协作文档/代码编辑界面:
文档 Canvas:
- 在独立面板中展示长文本(文章、报告、邮件)
- 支持内联批注(选中段落请求修改)
- 一键调整:正式程度、长度、阅读年龄、添加表情符号
- 针对特定段落"精炼"或"扩展"
代码 Canvas:
- 代码在独立面板高亮显示
- 一键操作:添加注释、修复 Bug、添加日志、代码审查
- 指定编程语言转换(Python → JavaScript)
- 运行代码(Code Interpreter 集成)
Custom GPTs(构建和使用)
Custom GPTs 允许任何人基于 GPT-4o 创建专门用途的 AI 助手,无需编程:
创建 Custom GPT:
- 打开 ChatGPT → "Explore GPTs" → "Create"
- 在 GPT Builder 对话中描述你的助手功能
- 上传知识库文件(PDF、TXT 等,最多 20 个文件,每个 2MB)
- 配置能力(Web 搜索、代码执行、图像生成)
- 连接外部 API(Actions,类似 Plugin)
- 发布(仅自己使用 / 分享链接 / 公开到 GPTs Store)
使用场景示例:
- 公司客服 GPT(上传产品手册作为知识库)
- 个人导师(专注某个学科,有定制的教学风格)
- 代码审查助手(配置代码审查标准)
- 法律术语查询(上传相关法规文档)
GPTs 商店
OpenAI 的 GPTs Store 是 Custom GPTs 的分发平台:
热门 GPTs 类别:
- 研究 & 分析:Consensus(学术论文搜索)、ScholarAI
- 图像生成:Canva、Logo Creator
- 编程:Code Copilot、SQL Expert
- 写作:Write For Me、Humanizer Pro
- 教育:Language Tutor、Math Solver
GPTs 的局限:
- 无法访问实时数据(除非配置了 Action)
- 知识库搜索有时不准确
- 无法运行代码(除非启用 Code Interpreter)
Memory 功能
ChatGPT 的 Memory 功能允许模型跨对话记住用户信息:
# 自动记忆示例
用户说:"我是一名 Python 后端工程师,主要用 FastAPI 和 PostgreSQL"
→ ChatGPT 自动记住,未来对话直接使用此背景
# 手动管理记忆
Settings → Personalization → Memory → 查看/编辑/删除具体记忆条目
记忆内容举例:
- 用户的技术背景和编程语言偏好
- 沟通风格偏好(喜欢直接答案还是详细解释)
- 正在进行的项目背景
- 个人偏好(回答使用中文、代码例子用 Python 等)
注意:Memory 默认开启,如果不想被记住可以随时关闭或进入"临时对话"模式。
订阅计划
| 计划 | 价格 | 主要权益 |
|---|---|---|
| Free | 免费 | GPT-4o(限量)、GPT-4o mini |
| Plus | $20/月 | GPT-4o 优先访问、o1/o3 访问、5 倍 Canvas、DALL-E 3、高级语音 |
| Team | $25/用户/月(年付) | 含 Plus 所有功能 + 工作区管理 + 数据不用于训练 |
| Enterprise | 定价 | Team 所有 + 无限高级功能 + SSO + 合规控制 + 专属支持 |
API vs ChatGPT 的区别
| 维度 | ChatGPT(聊天界面) | OpenAI API |
|---|---|---|
| 用途 | 直接使用 | 集成到应用 |
| 付费方式 | 订阅制($20/月) | 按 Token 计费 |
| 成本对比 | 固定月费,高用量合算 | 低用量省钱 |
| 会话记忆 | 有(History + Memory) | 需自行管理(每次请求传历史) |
| 插件/功能 | 内置(搜索、代码执行、DALL-E) | 需自行实现 |
| 数据隐私 | Team/Enterprise 不训练 | 默认不训练(API 调用) |
| 最新功能 | 第一时间体验 | 有延迟(API 新功能晚于界面) |
提效使用技巧
角色设定:
"你是一位有 10 年经验的 Python 后端工程师,在代码审查时以严格著称,
发现问题时直接指出,不需要客套。请帮我审查这段代码:"
格式控制:
"用以下格式回答:
1. 结论(一句话)
2. 原因(3条,每条不超过20字)
3. 注意事项(如有)"
迭代精炼:
生成草稿 → "把第三段删掉,扩展第一段" → "语气改得更专业" → "转换为简报格式"
善用 Canvas:对于超过 3 段的文字创作,建议使用 Canvas 模式,可以精确选中段落进行局部修改,而不影响整体内容。
Custom Instructions(自定义指令):在 Settings → Personalization 中设置常驻指令(如"始终用中文回答"、"代码示例总用 Python"),无需每次重复说明。