Agentic AI Frameworks

December 28, 2025

原文

Agentic AI Frameworks Architectures Protocols and Design Challenges.pdf

Agentic AI design taxonomy

1. 智能体核心 (Agent)

这部分定义了单个智能体的基本属性和能力：

基于角色的 (Role-based)： 为智能体设定特定的身份或专业角色（如：程序员、客服、分析师）。
智能体行为 (Agent behaviour)： 定义智能体如何响应指令或环境变化。
规划 (Planning)： 智能体将复杂任务分解为更小、可执行步骤的能力。
学习 (Learning)： 智能体通过经验或反馈不断改进自身表现的能力。

2. 交互 (Interaction)

描述了智能体之间或与人类之间的协作方式：

协议 (Protocols)： 智能体通信遵循的标准或规则。
任务共享 (Task sharing)： 多个智能体共同承担并协作完成一个任务。
消息传递 (Message passing)： 智能体之间交换信息的技术手段。

3. 智能体即服务 (Agent-as-a-Service)

探讨了智能体的部署与云服务化趋势：

W3C 规范 (W3C specifications)： 遵循万维网联盟的标准，以实现 Web 端的标准化。
智能编排 (Intelligence orchestration)： 对多个智能体进行调度和管理，以完成复杂流程。
RESTful 暴露 (RESTful Exposure)： 通过 REST API 的方式将智能体功能开放给其他系统。

4. 框架 (Frameworks)

开发智能体所使用的底层结构：

基于图的 (Graph-based)： 使用图论结构来定义任务流和状态转换。
面向工作流的 (Workflow Oriented)： 强调任务执行的线性或逻辑顺序。
模块化 (Modular)： 允许像搭积木一样组合不同的功能组件。

5. AI 模型 (AI Models)

驱动智能体运行的底层引擎：

语言模型 (Language models)： 如 LLM，提供理解和生成文本的能力。
嵌入模型 (Embedding models)： 将数据转化为向量，用于语义搜索和理解。
存储/记忆模型 (Memory models)： 专门用于处理和检索信息的模型。
安全护栏 (Guardrails)： 确保模型输出符合伦理、安全且可控。

6. 记忆 (Memory)

智能体存储和提取信息的能力：

短期记忆 (Short-term)： 处理当前对话或任务的上下文（如 Context Window）。
长期记忆 (Long-term)： 跨会话存储信息（通常通过向量数据库实现）。
情节记忆 (Episodic)： 记录特定的经历或事件序列。
语义记忆 (Semantic)： 存储通用的事实、知识和概念。

7. 应用 (Applications)

智能体 AI 的实际落地场景：

客户支持 (Customer support)： 自动处理用户咨询并解决问题。
内容生成 (Content generation)： 自动化创作文章、代码、图像等。
流程自动化 (Process automation)： 替代人工执行复杂的业务逻辑流程。

8. 待解决问题 (Open Issues)

当前技术面临的瓶颈：

可扩展性 (Scalability)： 如何在大规模环境下高效运行多个智能体。
互操作性 (Interoperability)： 不同平台、不同协议的智能体之间如何无缝协作。
代码安全 (Code safety)： 智能体自动生成或执行代码时的安全风险。
僵化的架构 (Rigid architectures)： 现有的某些系统结构缺乏灵活性，难以适应动态任务。

面向Agentic AI框架的统一类模型

1. 核心大脑：Agent 与 LLM

Agent (智能体)：处于架构的中心。它负责通信 (communicate)、构建提示词 (build prompt)、使用工具 (use tools) 以及调用记忆 (use memory)。
LLM (大语言模型)：智能体的“推理引擎”。智能体通过 LLM 进行推理 (reason-via)。
- 它包含关键参数：Provider（供应商）、Temperature（温度/随机性）、Context_window（上下文窗口）和 max_output_tokens（最大输出长度）。

2. 交互逻辑：Prompt 与上下文学习

Prompt (提示词)：Agent 构建提示词发送给 LLM。
InContextLearning (上下文学习)：这是提升模型表现的核心手段，分为两个子类：
- X-shot：即零样本（Zero-shot）或多样本（Few-shot）学习，通过例子引导模型。
- Chain-of-thought (思维链)：引导模型进行分步推理，解决复杂逻辑问题。

3. 记忆系统 (Memory)

智能体的记忆被分为两个层级，模拟了人类的认知结构：

ShortTermMemory (短期记忆)：通常指当前的对话上下文。
LongTermMemory (长期记忆)：用于持久化存储，进一步细分为：
- Episodic Memory (情节记忆)：记录特定的经验或历史事件序列。
- Semantic Memory (语义记忆)：存储事实、概念和普通知识。
- Procedural Memory (程序记忆)：关于“如何做”某事的知识，如执行特定任务的步骤。

4. 任务执行：Task、Action 与 Tools

Task (任务)：Agent 被分配 (assign) 多个任务。任务之间可以有依赖关系 (depend)。
Action (动作)：任务由具体的动作组成。
Tools (工具)：Agent 或 Task 可以调用外部工具（如搜索插件、代码执行器、API 等）来完成实际操作。

5. 安全与合规：Guardrails (护栏)

Guardrails：这是系统的安全边界。
- 它被 Agent 使用 (use)。
- 它负责验证 (validate) 任务的合法性和安全性，确保智能体的行为符合预期，不产生有害内容或错误操作。

Agent 框架

1. AutoGen (由 Microsoft 开发)

核心特点：支持多智能体对话，具有模块化的 LLM 后端，适用于编码和自动化领域。
优点：
- 协作能力强：能够实现复杂的多智能体对话协作。
- 安全保障：提供强力的原生安全护栏，包括验证器和重试逻辑。
缺点/问题：
- 代码安全风险：生成的代码可能包含不安全的文件系统访问或脚本。
- 静态交互：缺乏运行时动态发现其他智能体的能力。
解决办法：通过共享内存上下文维护对话连贯性；对于代码安全，建议在 Docker 容器等沙盒环境中运行或限制为纯函数。

2. CrewAI

核心特点：强调基于角色（Role-based）的协作、协调和任务授权。
优点：
- 角色驱动：通过明确的角色定义提高团队协作效率。
- 智能决策：能利用历史数据进行推理，辅助决策。
缺点/问题：
- 架构僵化：智能体角色在运行时难以动态更改。
- 集成局限：缺乏发布和发现机制，难以直接融入服务计算生态。
解决办法：通过智能体级内存实现对话和协调；建议引入 WSDL 类似的函数注册来模拟服务契约。

3. LangGraph

核心特点：采用基于图（Graph-based）的模型，支持任务测序和状态管理。
优点：
- 可扩展与可追踪：图结构使得任务流清晰、可扩展且具备容错性。
- 状态保留：在图节点转换间能很好地保留上下文状态。
缺点/问题：
- 互操作性差：其任务模型难以直接被其他框架（如 AutoGen）解释。
解决办法：通过状态机抽象提供健壮的组合模式；建议通过 RESTful API 封装以实现跨框架协作。

4. Semantic Kernel (由 Microsoft 开发)

核心特点：企业级编排，对规划、内存和技能执行提供细粒度控制。
优点：
- 云集成度高：与 Azure 等云服务高度整合。
- 内存系统完善：支持短期、长期、语义和程序性等多种内存模块。
缺点/问题：
- 安全检查阶段化：仅在特定阶段进行验证，而非全流程护栏。
解决办法：使用**技能规划器（Planners）**实现动态组合；需结合外部注册表以实现服务发现。

5. MetaGPT

核心特点：模拟软件工程团队（如产品经理、开发人员）执行结构化任务。
优点：
- 标准作业程序（SOP）：通过模拟现实工作流实现高效的任务交付。
缺点/问题：
- 角色固定：一旦分配角色，运行时难以适应动态变化的任务。
- 执行支持弱：缺乏运行时执行支持。
解决办法：通过隐式角色行为实现内存管理；利用智能体选择准则优化任务分配。

6. Agno

核心特点：采用声明式（Declarative）方式定义智能体目标、工具和推理逻辑。
优点：
- 透明度高：推理逻辑清晰、易于解释和控制。
- 原生护栏：拥有强力的原生安全支持和早期信任层。
缺点/问题：
- 推理层极简：组合能力受限，需要外部逻辑支持。
解决办法：使用声明式内存结构增强可检查性。

7. 其他细分框架

LlamaIndex：
- 优缺点：擅长结构化/非结构化数据的知识查询，但安全护栏仅在特定阶段生效。
- 解决办法：采用基于嵌入的上下文检索内存方案。
OpenAI Agents SDK：
- 优缺点：开发便捷，封装了工具和内存；但函数注册受限于 JSON Schema 。
SmolAgents & PydanticAI：
- 特点：极简、低开销，强调架构的复现性和安全性。
- 解决办法：SmolAgents 引入 JWT 加密保障智能体间通信安全。