ChatGPT 使用指南

ChatGPT 是 OpenAI 于 2022 年 11 月发布的对话式 AI 助手，是历史上增长最快的消费级应用（2 个月用户超 1 亿）。尽管竞争对手不断涌现，ChatGPT 凭借持续的产品创新和最广泛的用户基础，仍然是 AI 助手领域的标杆产品。本章介绍 GPT-4o 时代 ChatGPT 的核心功能和高效使用方法。

GPT-4o 核心能力

多模态能力

GPT-4o（"o"代表 Omni，全能）是 OpenAI 的原生多模态模型：

文本：GPT-4o 的文字能力仍是业界顶级，在写作、分析、推理、代码等任务上保持领先。

图像理解：

上传一张错误截图或代码照片 → "这段代码有什么错误？"
上传产品设计图 → "分析这个 UI 的可用性问题"
上传图表/数据可视化 → "解释这张图说明了什么趋势"
上传手写笔记 → "把这段手写内容整理为电子文档"

代码执行（Code Interpreter）：见下文专项介绍。

语音实时对话：GPT-4o 支持低延迟语音对话（Advanced Voice Mode），能够感知语气、情绪，实现近乎自然的语音交互。与传统 ASR+LLM+TTS 管道不同，GPT-4o 原生处理语音，延迟极低（约 300ms）。

视频（ChatGPT macOS/iOS App）：可以实时查看用户屏幕或摄像头画面，提供情境感知帮助。

推理模型 o1 / o3

OpenAI 的 o 系列模型（o1、o1-mini、o3、o3-mini）专注于需要深度推理的任务：

思维链：模型在给出最终答案前进行内部"思考"，显示推理过程
数学：在 AIME（美国数学邀请赛）上大幅超越 GPT-4o
编程：在竞赛级算法题上表现出色（Codeforces 高分段）
科学：在复杂科学推理题上表现优于 GPT-4o

使用场景：需要精确推理的数学/逻辑题、复杂代码调试、科研分析。不适合：创意写作、简单对话（overkill）。

Code Interpreter（数据分析）

Code Interpreter（现称"Advanced Data Analysis"）允许 ChatGPT 在沙箱环境中执行 Python 代码，是面向数据分析师的核心功能：

数据分析示例：

上传 CSV/Excel 文件
"分析这份销售数据，找出2024年的月度趋势，并生成可视化图表"
ChatGPT 自动编写并执行 Pandas + Matplotlib 代码
直接显示图表，提供分析结论
"再按产品品类分组，看看哪个品类增长最快" → 继续执行

文件处理：

读取 PDF、Word、Excel、CSV、JSON 等格式
图像处理（PIL）、音频分析（librosa）
数据清洗（去重、填充缺失值、格式转换）

代码执行：

"帮我写一个 Python 脚本，批量压缩目录下所有图片到 800px 宽"
→ ChatGPT 生成代码，在沙箱执行，提供可下载的压缩图片

限制：

网络访问受限（无法爬取外部数据）
每个会话有执行时间限制（约 2 分钟）
不支持 GPU（纯 CPU 计算）

DALL-E 3 集成图像生成

ChatGPT Plus 用户可以直接在对话中调用 DALL-E 3 生成图像：

"帮我生成一张卡通风格的猫咪坐在咖啡馆里看书的图片，温暖的色调"
→ DALL-E 3 生成，直接显示在对话中

"把这张图片的背景改为日落沙漠" → 图像编辑

DALL-E 3 的特点：

Prompt 理解能力强（比 DALL-E 2 大幅提升）
文字渲染较好（但不及 FLUX.1）
遵守内容政策（部分创意内容被限制）
每次生成 1 张（不像 Midjourney 同时出 4 张）

Web 搜索

ChatGPT 集成了实时网络搜索（Bing Search），可以获取最新信息：

"今天 BTC 价格是多少？"
"React 19 有哪些新特性？"（突破模型知识截止日期）
"帮我搜索最新的 AI 编程工具评测"

触发方式：ChatGPT 会自动判断是否需要搜索（问时效性问题时自动触发），也可以手动点击搜索图标。

与 Perplexity 相比：ChatGPT 的搜索更适合作为对话的补充，Perplexity 专为搜索场景优化（引用更完整、更精确）。

Canvas 模式

Canvas（2024年推出）是 ChatGPT 的协作文档/代码编辑界面：

文档 Canvas：

在独立面板中展示长文本（文章、报告、邮件）
支持内联批注（选中段落请求修改）
一键调整：正式程度、长度、阅读年龄、添加表情符号
针对特定段落"精炼"或"扩展"

代码 Canvas：

代码在独立面板高亮显示
一键操作：添加注释、修复 Bug、添加日志、代码审查
指定编程语言转换（Python → JavaScript）
运行代码（Code Interpreter 集成）

Custom GPTs（构建和使用）

Custom GPTs 允许任何人基于 GPT-4o 创建专门用途的 AI 助手，无需编程：

创建 Custom GPT：

打开 ChatGPT → "Explore GPTs" → "Create"
在 GPT Builder 对话中描述你的助手功能
上传知识库文件（PDF、TXT 等，最多 20 个文件，每个 2MB）
配置能力（Web 搜索、代码执行、图像生成）
连接外部 API（Actions，类似 Plugin）
发布（仅自己使用 / 分享链接 / 公开到 GPTs Store）

使用场景示例：

公司客服 GPT（上传产品手册作为知识库）
个人导师（专注某个学科，有定制的教学风格）
代码审查助手（配置代码审查标准）
法律术语查询（上传相关法规文档）

GPTs 商店

OpenAI 的 GPTs Store 是 Custom GPTs 的分发平台：

Memory 功能

ChatGPT 的 Memory 功能允许模型跨对话记住用户信息：

# 自动记忆示例
用户说："我是一名 Python 后端工程师，主要用 FastAPI 和 PostgreSQL"
→ ChatGPT 自动记住，未来对话直接使用此背景

# 手动管理记忆
Settings → Personalization → Memory → 查看/编辑/删除具体记忆条目

记忆内容举例：

用户的技术背景和编程语言偏好
沟通风格偏好（喜欢直接答案还是详细解释）
正在进行的项目背景
个人偏好（回答使用中文、代码例子用 Python 等）

注意：Memory 默认开启，如果不想被记住可以随时关闭或进入"临时对话"模式。

订阅计划

计划	价格	主要权益
Free	免费	GPT-4o（限量）、GPT-4o mini
Plus	$20/月	GPT-4o 优先访问、o1/o3 访问、5 倍 Canvas、DALL-E 3、高级语音
Team	$25/用户/月（年付）	含 Plus 所有功能 + 工作区管理 + 数据不用于训练
Enterprise	定价	Team 所有 + 无限高级功能 + SSO + 合规控制 + 专属支持

API vs ChatGPT 的区别

维度	ChatGPT（聊天界面）	OpenAI API
用途	直接使用	集成到应用
付费方式	订阅制（$20/月）	按 Token 计费
成本对比	固定月费，高用量合算	低用量省钱
会话记忆	有（History + Memory）	需自行管理（每次请求传历史）
插件/功能	内置（搜索、代码执行、DALL-E）	需自行实现
数据隐私	Team/Enterprise 不训练	默认不训练（API 调用）
最新功能	第一时间体验	有延迟（API 新功能晚于界面）

提效使用技巧

角色设定：

"你是一位有 10 年经验的 Python 后端工程师，在代码审查时以严格著称，
发现问题时直接指出，不需要客套。请帮我审查这段代码："

格式控制：

"用以下格式回答：
结论（一句话）
原因（3条，每条不超过20字）
注意事项（如有）"

迭代精炼：

生成草稿 → "把第三段删掉，扩展第一段" → "语气改得更专业" → "转换为简报格式"

善用 Canvas：对于超过 3 段的文字创作，建议使用 Canvas 模式，可以精确选中段落进行局部修改，而不影响整体内容。

Custom Instructions（自定义指令）：在 Settings → Personalization 中设置常驻指令（如"始终用中文回答"、"代码示例总用 Python"），无需每次重复说明。

GPT-4o 核心能力​

多模态能力​

推理模型 o1 / o3​

Code Interpreter（数据分析）​

DALL-E 3 集成图像生成​

Web 搜索​

Canvas 模式​

Custom GPTs（构建和使用）​

GPTs 商店​

Memory 功能​

订阅计划​

API vs ChatGPT 的区别​

提效使用技巧​