AI 应用开发概述

AI 应用开发正从实验性探索走向工程化落地。本章从全局视角介绍 AI 应用的完整技术栈，帮助开发者理解从原型到生产的完整路径，并给出合理的技术选型思路。

技术栈全景

一个完整的 AI 应用通常涉及以下层次：

模型层：LLM 提供商（OpenAI、Anthropic、Google、开源模型）
编排层：框架与 SDK（LangChain、LlamaIndex、DSPy）
数据层：向量数据库、文档存储、知识库
工具层：外部 API、代码执行环境、搜索引擎
服务层：API 服务器、流式传输、缓存
基础设施层：云平台、监控、日志、成本追踪

理解每一层的职责和边界，是构建可维护 AI 应用的前提。

从想法到生产的路径

第一阶段：直接 API 调用

最简单的出发点是直接调用 LLM API，适用于单轮问答、文本处理、内容生成等场景。

核心步骤：

选择合适的模型（GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro）
设计系统提示（System Prompt）
处理输入输出
实现基本的错误处理与重试

这个阶段的关键是快速验证产品假设，而不是过度设计。许多问题在直接调用阶段就能解决，无需引入复杂框架。

第二阶段：RAG（检索增强生成）

当应用需要访问私有知识库、最新数据或大量专业文档时，RAG 是首选方案。

RAG 的核心流程：

将文档分块（Chunking）并生成向量嵌入（Embedding）
存入向量数据库（Qdrant、Milvus、pgvector）
用户提问时检索相关片段
将检索结果注入 LLM 上下文生成回答

RAG 解决了幻觉问题、知识截止问题和私有数据问题，是企业级 AI 应用最常见的架构模式。

第三阶段：Agent 与工具使用

当任务需要多步推理、动态决策或调用外部工具时，需要引入 Agent 架构。

Agent 的典型能力：

使用工具（搜索、计算、写文件、调用 API）
多轮规划与自我修正
与外部系统交互
跨多个步骤维持状态

Agent 系统的复杂度显著高于 RAG，调试和可靠性是主要挑战，建议在确认 RAG 无法满足需求后再引入。

技术选型思路

模型选型

选择 LLM 的关键维度：

任务复杂度：简单任务用小模型（GPT-4o mini、Claude 3.5 Haiku），复杂推理用旗舰模型
延迟要求：实时交互需要低延迟模型
成本预算：Token 定价差异可达 10-50 倍
数据隐私：敏感数据考虑本地部署或私有云
多模态需求：图像/音频输入是否必要

框架选型

不需要框架：任务简单、调用链固定，直接用官方 SDK 最清晰
LangChain：快速原型、需要大量集成、团队熟悉
LlamaIndex：重点是 RAG 和数据摄入
DSPy：需要自动优化提示、学术研究
LangGraph：需要复杂状态机 Agent

向量数据库选型

开发测试：Chroma（内存模式，零配置）
生产小规模：pgvector（复用 PostgreSQL 基础设施）
生产大规模：Qdrant 或 Milvus
完全托管：Pinecone

本章导读

本章内容按以下结构组织：

API 集成

Anthropic API：Claude 系列模型的完整调用指南
OpenAI API：GPT 系列及配套服务的使用方法
Google AI API：Gemini 系列与 Vertex AI 的接入

开发框架

LangChain：最流行的 LLM 应用框架，适合快速集成
LlamaIndex：专注数据摄入与 RAG 的框架
DSPy：声明式 LLM 编程与自动提示优化

RAG 系统

RAG 架构概述：从基础到高级的完整体系
Embedding 模型：向量化文本的选型与最佳实践
向量数据库：存储与检索向量的技术选型
文档分块：影响检索质量的关键前处理步骤
检索与重排：优化召回率和精确率的进阶技术

Agent 系统

Agent 概述：理解 Agent 的核心原理与适用场景
工具调用：Function Calling 机制与工具设计原则
记忆设计：短期与长期记忆的实现方案
规划与推理：Agent 如何拆解和执行复杂任务
多智能体系统：多 Agent 协作的架构模式

建议按顺序阅读，每个小节都包含可运行的代码示例和实践建议。

技术栈全景​

从想法到生产的路径​

第一阶段：直接 API 调用​

第二阶段：RAG（检索增强生成）​

第三阶段：Agent 与工具使用​

技术选型思路​

模型选型​

框架选型​

向量数据库选型​

本章导读​