AI 工程架构概述
AI 工程(AI Engineering)是将人工智能研究成果转化为可靠、可扩展的生产系统的工程学科。它不同于 AI 研究,也不同于传统软件工程,而是两者的交叉与融合。理解 AI 工程的核心挑战,是构建企业级 AI 系统的前提。
AI 工程与 AI 研究的区别
AI 研究的目标是探索新的模型架构、训练算法和理论边界。研究人员关注的是在受控实验环境中验证假设,追求论文指标(BLEU、困惑度、准确率),实验可以在小数据集上进行,失败是常态。
AI 工程的目标则截然不同:
- 可靠性优先:生产系统需要 99.9% 以上的可用性,不允许随机崩溃或输出质量大幅波动
- 延迟敏感:用户可以接受研究论文慢慢发表,但不能接受对话等待 30 秒
- 成本约束:研究可以不计成本跑实验,工程必须控制每次推理的 Token 成本
- 可维护性:代码需要多人协作长期维护,而非一次性实验脚本
- 数据治理:生产数据涉及隐私合规(GDPR/CCPA),研究数据则相对宽松
另一个关键区别是反馈周期。研究中,模型性能可以通过固定测试集离线评估。工程中,用户行为、实际使用场景和边缘情况持续变化,需要建立在线评估和持续改进机制。
工程化三大挑战
训练成本
大语言模型的训练成本是 AI 工程面临的第一道门槛。GPT-4 的训练成本估计超过 1 亿美元,即便是较小规模的 7B 参数模型,从头训练也需要数十万美元的 GPU 算力。
训练成本由以下因素决定:
- 参数规模:参数量越大,前向/反向传播的计算量越大
- 训练数据量:以 Token 数计量,通常为万亿级别
- GPU 利用率:实际算力利用率(MFU,Model FLOP Utilization)往往只有 40-60%
- 实验次数:超参数搜索、消融实验都会倍增成本
工程化的应对策略包括混合精度训练、梯度检查点、分布式训练框架,以及利用开源基础模型进行微调,而非从头训练。
推理延迟
模型训练完成后,推理延迟成为用户体验的关键瓶颈。推理延迟分为两个维度:
- 首 Token 延迟(TTFT,Time To First Token):用户发送请求到收到第一个 Token 的时间,影响交互式场景的响应感
- 每 Token 延迟(TPOT,Time Per Output Token):生成每个 Token 的时间,影响长文本生成的总耗时
影响推理延迟的核心因素是内存带宽和计算量。Transformer 的自注意力机制在推理时需要维护 KV Cache,显存容量和带宽成为瓶颈。工程优化手段包括:量化(减少显存占用)、KV Cache 共享、Continuous Batching、投机解码等。
系统可靠性
AI 系统的可靠性挑战超越传统软件系统:
- 非确定性输出:相同输入可能产生不同输出,测试难以穷举
- 幻觉问题:模型可能自信地输出错误信息,难以通过规则检测
- 输入分布漂移:用户输入的模式随时间变化,模型性能可能下降
- 依赖链路复杂:RAG、工具调用、多步骤 Agent 中任何一环失败都会影响整体
- GPU 故障:训练和推理对硬件依赖强,单卡故障需要有容错机制
可靠性工程涵盖:监控告警、降级策略、限流设计、多模型路由、输出校验等方向。
本章结构
本章将系统介绍 AI 工程的三大核心领域:
训练工程
- 数据流水线:数据采集、清洗、去重、标注、配比——高质量训练数据的完整生产链路
- 分布式训练:数据并行、模型并行、流水线并行,以及 ZeRO 优化等显存节省技术
- GPU 架构:理解 GPU 硬件是优化训练效率的基础,从 V100 到 H100 的演进与对比
- 混合精度训练:FP16/BF16/FP8 的原理与工程实践,在精度和效率间取得平衡
推理部署
- 推理优化:KV Cache、Prefix Caching、Continuous Batching、投机解码等核心优化技术
- 模型量化:GPTQ、AWQ、GGUF 等量化方法,在精度损失最小化的前提下降低推理成本
- ONNX 与 TensorRT:跨框架部署和 NVIDIA 推理加速的工程实践
- 模型服务化:vLLM、TGI、SGLang 等推理框架,以及 Kubernetes 水平扩展方案
- 边缘部署:在资源受限设备上运行大模型的技术方案
系统架构
- 流式生成:SSE 协议、Python 异步生成器、前端流式渲染的完整链路
- 多模型路由:成本与能力感知的路由策略,以及 LiteLLM 等统一网关方案
- 成本优化:Prompt 压缩、缓存、Batch API、模型降级等成本控制策略
- 限流设计:令牌桶算法、用户配额、Redis 分布式限流实现
- 系统监控:LLM 可观测性、关键指标、LangSmith/Langfuse 等追踪工具
AI 工程是一个快速演进的领域,工具和最佳实践更新频繁。本章的目标不是提供一成不变的配方,而是建立理解问题的框架,使读者能够在新工具出现时快速评估和采用。