跳到主要内容

AI 基础理论

掌握人工智能,需要建立在扎实的数学和算法基础之上。本章节为学习者提供系统的基础理论体系,从数学工具到经典机器学习算法,再到现代深度学习架构,构成完整的 AI 技术入门路径。

学习路线图

AI 的知识体系具有明确的层次结构,建议按照以下路径由浅入深地学习:

第一阶段:数学基础(4-8周)
├── 线性代数(向量、矩阵运算、SVD)
├── 概率与统计(贝叶斯、分布、信息论)
└── 微积分与优化(梯度、链式法则、优化器)

第二阶段:经典机器学习(4-8周)
├── 监督学习(回归、分类、模型评估)
├── 无监督学习(聚类、降维、异常检测)
└── 强化学习(MDP、Q-learning、Policy Gradient)

第三阶段:深度学习(6-12周)
├── 神经网络基础(感知机、反向传播、正则化)
├── 卷积神经网络(图像处理)
├── 循环神经网络(序列建模)
└── Transformer 架构(注意力机制、预训练)

第四阶段:大语言模型与前沿(持续学习)
├── 预训练与微调范式
├── RLHF 与对齐技术
└── 多模态模型

各模块关系

理解各知识模块之间的依赖关系,有助于规划学习优先级:

数学基础是一切的根基

  • 线性代数 是神经网络的语言:权重矩阵、Embedding 向量、注意力计算都是矩阵操作。不理解矩阵乘法的维度规则,就无法真正理解模型架构。
  • 概率统计 是机器学习的骨架:损失函数(交叉熵)、模型评估(精确率/召回率/ROC)、生成模型(VAE、扩散模型)都建立在概率论基础上。贝叶斯思维是 AI 研究者的基本素养。
  • 微积分与优化 是模型训练的引擎:梯度下降是所有深度学习的核心训练机制,链式法则是反向传播的数学基础,优化器(SGD/Adam)的选择直接影响训练效果。

经典 ML 是深度学习的脚手架

理解经典机器学习算法(线性回归、SVM、决策树),有助于:

  • 在数据量不足时选择合适的轻量级模型
  • 理解"过拟合/欠拟合"、"偏差-方差权衡"等核心概念
  • 为深度学习的高层次抽象提供直觉基础

深度学习是当代 AI 的核心

从 CNN(图像)→ RNN/LSTM(序列)→ Transformer(通用序列),是深度学习架构演进的主线。Transformer 不仅统一了 NLP,还延伸到 CV(ViT)、语音(Whisper)、多模态(GPT-4o),是理解现代 AI 的必学内容。

学习建议

数学薄弱者的起点

如果线性代数和微积分基础薄弱,建议先完成以下系统性补充:

  • 3Blue1Brown《线性代数的本质》系列(YouTube/Bilibili):直觉可视化,强烈推荐
  • MIT 18.06 Linear Algebra(Gilbert Strang):经典大学课程,习题扎实
  • Khan Academy 概率统计:系统覆盖基础概率论

编程实践贯穿始终

AI 学习不能只停留在理论层面,每个概念都应配合代码实现:

  • NumPy:矩阵运算的基础库,手动实现梯度下降加深理解
  • Scikit-learn:经典 ML 算法的标准实现,快速验证概念
  • PyTorch:现代深度学习框架,动态图机制便于调试和实验

避免常见学习陷阱

  • 不要跳过数学:很多初学者急于使用 Keras/Hugging Face 调用 API,但在遇到实际问题时缺乏调试能力。数学理解是不可绕过的
  • 不要只看教程:动手实现(从零实现线性回归、从零实现反向传播)比看 100 个教程更有效
  • 不要孤立学习:每学一个算法,立即找一个真实数据集(Kaggle/UCI Repository)应用它
  • 保持更新但不追逐热点:AI 领域进展极快,但基础知识的有效期是几十年,新论文的有效期可能只有几个月

推荐资源

书籍(经典)

  • 《深度学习》(Deep Learning) - Ian Goodfellow、Yoshua Bengio、Aaron Courville:理论最全面的深度学习教材,又称"花书"
  • 《机器学习》 - 周志华(西瓜书):中文 ML 教材标杆,覆盖从基础到进阶
  • 《统计学习方法》 - 李航:算法推导严谨,适合有数学背景的读者
  • 《Pattern Recognition and Machine Learning》 - Christopher Bishop(PRML):贝叶斯视角的 ML 经典

在线课程(精选)

  • CS229(Stanford):吴恩达机器学习课程,理论与实践兼顾,有中文讲义
  • CS231n(Stanford):卷积神经网络与视觉识别,深度学习视觉方向标杆课程
  • Fast.ai:自顶向下的实践导向课程,适合想快速上手的工程师
  • DeepMind x UCL Deep Learning Lecture Series:前沿深度学习课程,YouTube 免费

论文精读(入门必读)

  • Vaswani et al., 2017《Attention is All You Need》:Transformer 原始论文
  • He et al., 2016《Deep Residual Learning for Image Recognition》:ResNet,残差连接
  • Krizhevsky et al., 2012《ImageNet Classification with Deep CNNs》:AlexNet,深度学习崛起
  • Hochreiter & Schmidhuber, 1997《Long Short-Term Memory》:LSTM 原始论文

工具与平台

  • Google Colab:免费 GPU,适合快速实验
  • Kaggle:数据集、竞赛、Notebook,学以致用的最佳平台
  • Hugging Face:预训练模型库,NLP 实验的起点
  • Papers with Code:论文+代码+排行榜,追踪最新进展的高效途径

本章节内容导航

  • math/:线性代数、概率统计、微积分三大数学基础,每篇配有 AI 应用场景解析
  • ml/:监督学习、无监督学习、强化学习,含主要算法原理与对比
  • deep-learning/:从神经网络基础到 Transformer,完整的深度学习架构演进路径