跳到主要内容

AI 工程架构概述

AI 工程（AI Engineering）是将人工智能研究成果转化为可靠、可扩展的生产系统的工程学科。它不同于 AI 研究，也不同于传统软件工程，而是两者的交叉与融合。理解 AI 工程的核心挑战，是构建企业级 AI 系统的前提。

AI 工程与 AI 研究的区别

AI 研究的目标是探索新的模型架构、训练算法和理论边界。研究人员关注的是在受控实验环境中验证假设，追求论文指标（BLEU、困惑度、准确率），实验可以在小数据集上进行，失败是常态。

AI 工程的目标则截然不同：

可靠性优先：生产系统需要 99.9% 以上的可用性，不允许随机崩溃或输出质量大幅波动
延迟敏感：用户可以接受研究论文慢慢发表，但不能接受对话等待 30 秒
成本约束：研究可以不计成本跑实验，工程必须控制每次推理的 Token 成本
可维护性：代码需要多人协作长期维护，而非一次性实验脚本
数据治理：生产数据涉及隐私合规（GDPR/CCPA），研究数据则相对宽松

另一个关键区别是反馈周期。研究中，模型性能可以通过固定测试集离线评估。工程中，用户行为、实际使用场景和边缘情况持续变化，需要建立在线评估和持续改进机制。

工程化三大挑战

训练成本

大语言模型的训练成本是 AI 工程面临的第一道门槛。GPT-4 的训练成本估计超过 1 亿美元，即便是较小规模的 7B 参数模型，从头训练也需要数十万美元的 GPU 算力。

训练成本由以下因素决定：

参数规模：参数量越大，前向/反向传播的计算量越大
训练数据量：以 Token 数计量，通常为万亿级别
GPU 利用率：实际算力利用率（MFU，Model FLOP Utilization）往往只有 40-60%
实验次数：超参数搜索、消融实验都会倍增成本

工程化的应对策略包括混合精度训练、梯度检查点、分布式训练框架，以及利用开源基础模型进行微调，而非从头训练。

推理延迟

模型训练完成后，推理延迟成为用户体验的关键瓶颈。推理延迟分为两个维度：

首 Token 延迟（TTFT，Time To First Token）：用户发送请求到收到第一个 Token 的时间，影响交互式场景的响应感
每 Token 延迟（TPOT，Time Per Output Token）：生成每个 Token 的时间，影响长文本生成的总耗时

影响推理延迟的核心因素是内存带宽和计算量。Transformer 的自注意力机制在推理时需要维护 KV Cache，显存容量和带宽成为瓶颈。工程优化手段包括：量化（减少显存占用）、KV Cache 共享、Continuous Batching、投机解码等。

系统可靠性

AI 系统的可靠性挑战超越传统软件系统：

非确定性输出：相同输入可能产生不同输出，测试难以穷举
幻觉问题：模型可能自信地输出错误信息，难以通过规则检测
输入分布漂移：用户输入的模式随时间变化，模型性能可能下降
依赖链路复杂：RAG、工具调用、多步骤 Agent 中任何一环失败都会影响整体
GPU 故障：训练和推理对硬件依赖强，单卡故障需要有容错机制

可靠性工程涵盖：监控告警、降级策略、限流设计、多模型路由、输出校验等方向。

本章结构

本章将系统介绍 AI 工程的三大核心领域：

训练工程

数据流水线：数据采集、清洗、去重、标注、配比——高质量训练数据的完整生产链路
分布式训练：数据并行、模型并行、流水线并行，以及 ZeRO 优化等显存节省技术
GPU 架构：理解 GPU 硬件是优化训练效率的基础，从 V100 到 H100 的演进与对比
混合精度训练：FP16/BF16/FP8 的原理与工程实践，在精度和效率间取得平衡

推理部署

推理优化：KV Cache、Prefix Caching、Continuous Batching、投机解码等核心优化技术
模型量化：GPTQ、AWQ、GGUF 等量化方法，在精度损失最小化的前提下降低推理成本
ONNX 与 TensorRT：跨框架部署和 NVIDIA 推理加速的工程实践
模型服务化：vLLM、TGI、SGLang 等推理框架，以及 Kubernetes 水平扩展方案
边缘部署：在资源受限设备上运行大模型的技术方案

系统架构

流式生成：SSE 协议、Python 异步生成器、前端流式渲染的完整链路
多模型路由：成本与能力感知的路由策略，以及 LiteLLM 等统一网关方案
成本优化：Prompt 压缩、缓存、Batch API、模型降级等成本控制策略
限流设计：令牌桶算法、用户配额、Redis 分布式限流实现
系统监控：LLM 可观测性、关键指标、LangSmith/Langfuse 等追踪工具

AI 工程是一个快速演进的领域，工具和最佳实践更新频繁。本章的目标不是提供一成不变的配方，而是建立理解问题的框架，使读者能够在新工具出现时快速评估和采用。

AI 工程与 AI 研究的区别
工程化三大挑战
本章结构