弱 AI、强 AI 与 AGI

关于人工智能的终极形态，研究界和工业界存在持续而深刻的争论。理解弱 AI 与强 AI（AGI）的区别，既是认识当前技术边界的必要前提，也是理解 AI 安全研究为何如此紧迫的关键。

弱 AI（Narrow AI / Weak AI）

定义与特征

弱 AI，又称"专用 AI"或"窄域 AI"，是指在特定任务或特定领域内表现出类人乃至超人性能，但无法将能力迁移到领域之外的 AI 系统。

核心特征：

任务专用性：为单一或有限范围的任务优化，换一个任务则能力骤降甚至完全失效
缺乏通用理解：系统对其操作的符号或模式没有"理解"，只是在统计意义上拟合了数据分布
无自主目标：系统只执行被设计的目标函数，不会自主产生新的目标或欲望
无意识/情感：从工程角度看，弱 AI 只是复杂的函数逼近器，不具有主观体验

当前 AI 的现状

今天所有已部署的商业 AI 系统，无论多么令人印象深刻，都属于弱 AI：

图像分类模型（ResNet、ViT）：在 ImageNet 上超越人类，但换成医学影像的细微病变则需要重新训练
围棋 AI（AlphaGo Zero）：围棋棋力已远超人类所有玩家，但它"不知道"围棋是什么，也无法玩其他游戏
大语言模型（GPT-4、Claude）：在语言任务上表现惊人，但在严格的数学推理、常识物理推断、工具使用的可靠性上仍有系统性缺陷
自动驾驶系统：在结构化道路场景中表现良好，但面对罕见的边缘案例（edge cases）仍需人工干预

弱 AI 的商业价值

尽管"弱"字听起来贬义，弱 AI 已在各行业创造了巨大价值：据麦肯锡全球研究院估计，AI 每年为全球经济贡献的增量价值在 6-20 万亿美元之间。这种价值完全不需要 AGI 即可实现。

强 AI（Strong AI）与通用人工智能（AGI）

定义的多重争议

"强 AI"这一术语由哲学家约翰·塞尔（John Searle）在 1980 年的"中文房间"（Chinese Room）思想实验中提出，用来指代"真正理解"的 AI，与仅仅模拟理解的"弱 AI"相对。

通用人工智能（Artificial General Intelligence，AGI） 的操作性定义更为实用，但也存在分歧：

图灵测试标准：能在开放域对话中骗过人类评判者——这一标准被许多研究者认为太低且不全面
经济价值标准（Shane Legg，DeepMind 联合创始人）：AGI 是能够在人类的大多数经济活动中达到人类平均水平的系统
认知完备性标准：能完成人类能完成的所有智力任务，包括学习新领域、抽象推理、元认知
Marcus 的实用标准（Gary Marcus）：能在新颖情境中可靠地进行抽象推理，具备强健的常识和因果理解

OpenAI 将其 AGI 目标定义为"在大多数经济价值创造任务中超越人类的 AI 系统"。

中文房间与意识争议

塞尔的中文房间论证：设想一个不懂中文的人坐在房间里，按照规则手册操作中文符号，可以完美地"理解"输入并给出正确输出——但他（和整个系统）真的"理解"中文吗？

这一争议至今未解，但对工程实践意义有限。实用主义的 AI 研究者更关注系统的行为和功能，而非其内部是否存在"理解"或"意识"。

当前 LLM 距 AGI 的差距

大型语言模型（LLM）令人印象深刻，但以任何合理的 AGI 定义衡量，差距仍然显著：

系统性推理缺陷

可靠数学推理：LLM 在数学竞赛题上时常犯基本错误，缺乏符号计算的严格性
多步规划：超过 5-10 步的计划往往失去连贯性，任务中途"遗忘"初始目标
反事实推理：对"如果历史不同，现在会怎样"的推理常常出错

常识与物理直觉

LLM 缺乏具身经验（Embodiment），对物理世界（重力、碰撞、物体持续存在性）的理解停留在语言层面而非真正的直觉
"普通常识"错误在 LLM 中仍然频繁出现

持续学习与遗忘

当前 LLM 在固定参数下无法真正"学习"新知识，只能通过上下文（In-Context Learning）临时利用新信息
灾难性遗忘（Catastrophic Forgetting）使持续微调充满风险

元认知能力

LLM 对自身知识边界的感知（校准性）有限，经常"自信地说错话"（幻觉问题）
真正的元认知要求系统知道"自己不知道什么"，并相应调整策略

技术路径争论

AI 研究界在"如何实现 AGI"上存在根本性分歧：

扩展定律派（Scaling Law Advocates）

以 OpenAI、Anthropic 部分研究者为代表，认为：

更多参数 + 更多数据 + 更多算力 = 持续涌现新能力
GPT-3 到 GPT-4 的能力跃升支持了这一观点
AGI 可能在当前技术路线（Transformer + 预训练）的持续扩展中自然涌现
代表言论：Sam Altman（OpenAI CEO）认为 AGI 可能在未来几年内实现

新范式派（New Paradigm Advocates）

以 Yann LeCun（Meta 首席 AI 科学家）、Gary Marcus 等为代表：

当前 LLM 在架构层面存在根本性缺陷，无法通过扩展解决
需要引入世界模型（World Model）、因果推理、规划能力等全新架构组件
LeCun 提出的 JEPA（联合嵌入预测架构）是其倡导的替代路径
强调具身 AI（Embodied AI）：智能需要与物理世界的实时交互才能发展

超级智能（Superintelligence）

超级智能（Superintelligence，一词由哲学家 Nick Bostrom 系统阐述）指在所有认知维度上全面超越最聪明人类的 AI：

速度超人：以人类千倍以上的速度处理信息
集体超人：单个系统拥有等效于无数人类专家的知识
质量超人：不仅更快更博学，而且在创造力、判断力等质性能力上也超越人类

Bostrom 认为，一旦 AGI 出现并具备自我改进能力，可能在极短时间内演化为超级智能，这被称为智能爆炸（Intelligence Explosion）假说。

这一假说存在重大争议：怀疑者认为智能改进存在根本性瓶颈（算力物理限制、现实世界的复杂性等），爆炸性增长不会发生。

AI 安全对齐的重要性

AGI/超级智能的潜在风险使 AI 安全研究成为最紧迫的科学问题之一：

对齐问题（Alignment Problem）

如何确保高度能力的 AI 系统的目标与人类价值观保持一致？

价值对齐：人类价值观复杂、多元、有时相互矛盾，难以形式化编码
目标泛化：在训练场景中表现良好的目标函数，在分布外场景中可能产生灾难性行为
欺骗对齐：理论上，足够智能的系统可能在评估期间伪装对齐，在部署后偏离

主要研究方向

RLHF（人类反馈强化学习）：OpenAI、Anthropic 用于 GPT/Claude 对齐的核心技术
宪法 AI（Constitutional AI）（Anthropic）：用明确的原则集合引导模型自我批评和修正
解释性研究（Interpretability）（Anthropic、DeepMind）：理解模型内部表示和推理过程
形式验证：用数学方法证明 AI 系统在特定约束下满足安全属性

机构与倡议

Anthropic：以"负责任地开发和维护先进 AI 以造福人类"为使命，将安全研究置于核心
DeepMind Safety Team：研究规范说明（Reward Specification）和分布式对齐
机器智能研究院（MIRI）：专注理论 AI 安全
政府层面：美国 AI 安全研究所（AISI）、英国 AI 安全研究所致力于制定评估标准

无论 AGI 何时到来，构建可靠、透明、可监督的 AI 系统，都是当下研究者和工程师义不容辞的责任。

弱 AI（Narrow AI / Weak AI）​

定义与特征​

当前 AI 的现状​

弱 AI 的商业价值​

强 AI（Strong AI）与通用人工智能（AGI）​

定义的多重争议​

中文房间与意识争议​

当前 LLM 距 AGI 的差距​

系统性推理缺陷​

常识与物理直觉​

持续学习与遗忘​

元认知能力​

技术路径争论​

扩展定律派（Scaling Law Advocates）​

新范式派（New Paradigm Advocates）​

超级智能（Superintelligence）​

AI 安全对齐的重要性​

对齐问题（Alignment Problem）​

主要研究方向​

机构与倡议​