原文

Agentic AI Frameworks Architectures Protocols and Design Challenges.pdf

Agentic AI design taxonomy

1. 智能体核心 (Agent)

这部分定义了单个智能体的基本属性和能力:

  • 基于角色的 (Role-based): 为智能体设定特定的身份或专业角色(如:程序员、客服、分析师)。
  • 智能体行为 (Agent behaviour): 定义智能体如何响应指令或环境变化。
  • 规划 (Planning): 智能体将复杂任务分解为更小、可执行步骤的能力。
  • 学习 (Learning): 智能体通过经验或反馈不断改进自身表现的能力。

2. 交互 (Interaction)

描述了智能体之间或与人类之间的协作方式:

  • 协议 (Protocols): 智能体通信遵循的标准或规则。
  • 任务共享 (Task sharing): 多个智能体共同承担并协作完成一个任务。
  • 消息传递 (Message passing): 智能体之间交换信息的技术手段。

3. 智能体即服务 (Agent-as-a-Service)

探讨了智能体的部署与云服务化趋势:

  • W3C 规范 (W3C specifications): 遵循万维网联盟的标准,以实现 Web 端的标准化。
  • 智能编排 (Intelligence orchestration): 对多个智能体进行调度和管理,以完成复杂流程。
  • RESTful 暴露 (RESTful Exposure): 通过 REST API 的方式将智能体功能开放给其他系统。

4. 框架 (Frameworks)

开发智能体所使用的底层结构:

  • 基于图的 (Graph-based): 使用图论结构来定义任务流和状态转换。
  • 面向工作流的 (Workflow Oriented): 强调任务执行的线性或逻辑顺序。
  • 模块化 (Modular): 允许像搭积木一样组合不同的功能组件。

5. AI 模型 (AI Models)

驱动智能体运行的底层引擎:

  • 语言模型 (Language models): 如 LLM,提供理解和生成文本的能力。
  • 嵌入模型 (Embedding models): 将数据转化为向量,用于语义搜索和理解。
  • 存储/记忆模型 (Memory models): 专门用于处理和检索信息的模型。
  • 安全护栏 (Guardrails): 确保模型输出符合伦理、安全且可控。

6. 记忆 (Memory)

智能体存储和提取信息的能力:

  • 短期记忆 (Short-term): 处理当前对话或任务的上下文(如 Context Window)。
  • 长期记忆 (Long-term): 跨会话存储信息(通常通过向量数据库实现)。
  • 情节记忆 (Episodic): 记录特定的经历或事件序列。
  • 语义记忆 (Semantic): 存储通用的事实、知识和概念。

7. 应用 (Applications)

智能体 AI 的实际落地场景:

  • 客户支持 (Customer support): 自动处理用户咨询并解决问题。
  • 内容生成 (Content generation): 自动化创作文章、代码、图像等。
  • 流程自动化 (Process automation): 替代人工执行复杂的业务逻辑流程。

8. 待解决问题 (Open Issues)

当前技术面临的瓶颈:

  • 可扩展性 (Scalability): 如何在大规模环境下高效运行多个智能体。
  • 互操作性 (Interoperability): 不同平台、不同协议的智能体之间如何无缝协作。
  • 代码安全 (Code safety): 智能体自动生成或执行代码时的安全风险。
  • 僵化的架构 (Rigid architectures): 现有的某些系统结构缺乏灵活性,难以适应动态任务。

面向Agentic AI框架的统一类模型

1. 核心大脑:Agent 与 LLM

  • Agent (智能体):处于架构的中心。它负责通信 (communicate)构建提示词 (build prompt)使用工具 (use tools) 以及调用记忆 (use memory)
  • LLM (大语言模型):智能体的“推理引擎”。智能体通过 LLM 进行推理 (reason-via)
    • 它包含关键参数:Provider(供应商)、Temperature(温度/随机性)、Context_window(上下文窗口)和 max_output_tokens(最大输出长度)。

2. 交互逻辑:Prompt 与 上下文学习

  • Prompt (提示词):Agent 构建提示词发送给 LLM。
  • InContextLearning (上下文学习):这是提升模型表现的核心手段,分为两个子类:
    • X-shot:即零样本(Zero-shot)或多样本(Few-shot)学习,通过例子引导模型。
    • Chain-of-thought (思维链):引导模型进行分步推理,解决复杂逻辑问题。

3. 记忆系统 (Memory)

智能体的记忆被分为两个层级,模拟了人类的认知结构:

  • ShortTermMemory (短期记忆):通常指当前的对话上下文。
  • LongTermMemory (长期记忆):用于持久化存储,进一步细分为:
    • Episodic Memory (情节记忆):记录特定的经验或历史事件序列。
    • Semantic Memory (语义记忆):存储事实、概念和普通知识。
    • Procedural Memory (程序记忆):关于“如何做”某事的知识,如执行特定任务的步骤。

4. 任务执行:Task、Action 与 Tools

  • Task (任务):Agent 被分配 (assign) 多个任务。任务之间可以有依赖关系 (depend)
  • Action (动作):任务由具体的动作组成。
  • Tools (工具):Agent 或 Task 可以调用外部工具(如搜索插件、代码执行器、API 等)来完成实际操作。

5. 安全与合规:Guardrails (护栏)

  • Guardrails:这是系统的安全边界。
    • 它被 Agent 使用 (use)
    • 它负责验证 (validate) 任务的合法性和安全性,确保智能体的行为符合预期,不产生有害内容或错误操作。

Agent 框架

1. AutoGen (由 Microsoft 开发)

  • 核心特点:支持多智能体对话,具有模块化的 LLM 后端,适用于编码和自动化领域 。
  • 优点
    • 协作能力强:能够实现复杂的多智能体对话协作 。
    • 安全保障:提供强力的原生安全护栏,包括验证器和重试逻辑 。
  • 缺点/问题
    • 代码安全风险:生成的代码可能包含不安全的文件系统访问或脚本 。
    • 静态交互:缺乏运行时动态发现其他智能体的能力 。
  • 解决办法:通过共享内存上下文维护对话连贯性 ;对于代码安全,建议在 Docker 容器等沙盒环境中运行或限制为纯函数 。

2. CrewAI

  • 核心特点:强调基于角色(Role-based)的协作、协调和任务授权 。
  • 优点
    • 角色驱动:通过明确的角色定义提高团队协作效率 。
    • 智能决策:能利用历史数据进行推理,辅助决策 。
  • 缺点/问题
    • 架构僵化:智能体角色在运行时难以动态更改 。
    • 集成局限:缺乏发布和发现机制,难以直接融入服务计算生态 。
  • 解决办法:通过智能体级内存实现对话和协调 ;建议引入 WSDL 类似的函数注册来模拟服务契约 。

3. LangGraph

  • 核心特点:采用基于图(Graph-based)的模型,支持任务测序和状态管理 。
  • 优点
    • 可扩展与可追踪:图结构使得任务流清晰、可扩展且具备容错性 。
    • 状态保留:在图节点转换间能很好地保留上下文状态 。
  • 缺点/问题
    • 互操作性差:其任务模型难以直接被其他框架(如 AutoGen)解释 。
  • 解决办法:通过状态机抽象提供健壮的组合模式 ;建议通过 RESTful API 封装以实现跨框架协作 。

4. Semantic Kernel (由 Microsoft 开发)

  • 核心特点:企业级编排,对规划、内存和技能执行提供细粒度控制 。
  • 优点
    • 云集成度高:与 Azure 等云服务高度整合 。
    • 内存系统完善:支持短期、长期、语义和程序性等多种内存模块 。
  • 缺点/问题
    • 安全检查阶段化:仅在特定阶段进行验证,而非全流程护栏 。
  • 解决办法:使用**技能规划器(Planners)**实现动态组合 ;需结合外部注册表以实现服务发现 。

5. MetaGPT

  • 核心特点:模拟软件工程团队(如产品经理、开发人员)执行结构化任务 。
  • 优点
    • 标准作业程序(SOP):通过模拟现实工作流实现高效的任务交付 。
  • 缺点/问题
    • 角色固定:一旦分配角色,运行时难以适应动态变化的任务 。
    • 执行支持弱:缺乏运行时执行支持 。
  • 解决办法:通过隐式角色行为实现内存管理 ;利用智能体选择准则优化任务分配 。

6. Agno

  • 核心特点:采用声明式(Declarative)方式定义智能体目标、工具和推理逻辑 。
  • 优点
    • 透明度高:推理逻辑清晰、易于解释和控制 。
    • 原生护栏:拥有强力的原生安全支持和早期信任层 。
  • 缺点/问题
    • 推理层极简:组合能力受限,需要外部逻辑支持 。
  • 解决办法:使用声明式内存结构增强可检查性 。

7. 其他细分框架

  • LlamaIndex
    • 优缺点:擅长结构化/非结构化数据的知识查询,但安全护栏仅在特定阶段生效 。
    • 解决办法:采用基于嵌入的上下文检索内存方案 。
  • OpenAI Agents SDK
    • 优缺点:开发便捷,封装了工具和内存;但函数注册受限于 JSON Schema 。
  • SmolAgents & PydanticAI
    • 特点:极简、低开销,强调架构的复现性和安全性 。
    • 解决办法:SmolAgents 引入 JWT 加密保障智能体间通信安全 。