Skip to content

从LLM到Agent:智能体架构演进技术详解

前言

当谈到AI Agent(智能体)时,以下问题被频繁提出:

  • Agent是如何工作的?
  • 使用Agent与直接使用ChatGPT/Qwen/DeepSeek有什么区别?
  • Manus智能体做了什么?为什么人们愿意用Manus而不是原生的ChatGPT?
  • Agent和RAG是什么关系?
  • 做Agent需要微调模型吗?

这些问题的本质是:"Agent"到底是什么?它与直接调用大模型的本质区别是什么?是不是换了个名字的概念包装?

本文将用清晰的语言和图示,系统解答上述问题。

三代架构演进:LLM → Workflow → Agent

智能应用的技术架构经历了三代演进:裸LLM → Workflow → Agent

第一代:裸LLM(对话即终点)

代表产品:ChatGPT、Claude、Qwen、DeepSeek等原生对话界面

架构特征

特点:单次请求-响应,无状态,无执行能力

能力边界

能做的事做不到的事
回答问题、生成文本执行实际操作(如查数据库、调API)
提供建议和方案获取实时信息(知识有截止日期)
代码生成、文案撰写跨系统协作完成复杂任务
单轮或简单多轮对话长时间任务跟踪与状态管理

本质定位:一个博学但"只会说不会做"的顾问。

第二代:Workflow(编排LLM)

代表产品:Dify、Coze、百度千帆、LangChain(Chain模式)等

架构特征

特点:人类设计流程,LLM在预设节点中执行。所有可能的执行路径必须提前设计好。

相比裸LLM的进步

进步点说明
可执行操作通过API节点调用外部系统
流程编排多步骤任务可以串联执行
条件分支根据不同情况走不同路径
知识增强可集成RAG检索知识库

核心局限

问题具体表现
分支爆炸业务场景组合爆炸式增长,难以穷举
路径预设所有可能的执行路径必须提前设计好
长尾问题边缘场景难以覆盖
灵活性差新场景需要修改流程,响应变化慢

本质定位:LLM被"编排"在预设流程中,流程由人类设计,LLM只是流程中的一个执行节点。

第三代:Agent(自主智能体)

代表产品:Manus、OpenAI Operator、Claude Computer Use、AutoGPT、MetaGPT

架构特征

特点:LLM自己决定做什么、怎么做、用什么工具

核心能力

能力说明
自主规划LLM自己分解任务,决定执行步骤
工具调用根据需要自主选择合适的工具
反馈循环执行后观察结果,动态调整策略
长时任务可以持续执行复杂的多步骤任务

本质定位:LLM从"被编排者"变成"编排者",自己决定调用什么、执行什么、下一步做什么。

三代架构对比总结

维度裸LLMWorkflowAgent
代表产品ChatGPT/Qwen/DeepSeekDify/CozeManus/Operator
执行能力无,只能输出文本有,但路径预设有,自主决策
流程控制人类设计流程LLM自主规划
工具调用按预设节点调用自主选择调用
应对长尾一般
维护成本高(分支爆炸)低(无需穷举分支)
灵活性高(但无执行力)低(路径固定)
本质比喻只会说的顾问按剧本演的演员能独立做事的助手

一句话总结

  • 裸LLM:告诉你"怎么做"
  • Workflow:按预设路径"帮你做"
  • Agent:自己想办法"帮你做出来"

Agent核心工作原理

Agent Loop:观察-思考-行动-反馈

Agent的核心是一个持续运行的循环,称为Agent Loop

四个阶段详解

阶段核心动作
观察 Observe接收用户输入、感知当前状态、获取环境信息
思考 Think理解任务目标、分析当前状态、规划下一步、选择工具
行动 Act调用选定的工具、执行具体操作、与外部系统交互
反馈 Feedback观察执行结果、判断是否达成目标、决定继续/调整/结束

Agent核心组件

一个完整的Agent系统包含四个核心组件:

四大组件详解

组件功能说明
LLM(大脑)理解、推理、决策是Agent的思考中枢,可以是GPT-4/Claude/Qwen等
工具集(手脚)执行外部操作API调用、数据库查询、代码执行、网页浏览等
记忆系统状态管理短期记忆(对话上下文)、长期记忆(用户画像)、工作记忆(任务状态)
规划器任务分解将复杂任务分解为子步骤,确定执行顺序,动态调整计划

技术实现范式

目前业界主流的Agent实现范式:

ReAct(Reasoning + Acting)

核心思想:让LLM交替进行"推理"和"行动",每次行动前先思考为什么这样做。

用户:帮我查一下北京明天的天气

Agent思考:用户想知道北京明天的天气,我需要调用天气查询工具
Agent行动:调用 get_weather(city="北京", date="明天")
Agent观察:返回结果显示晴天,气温 15-25°C
Agent思考:已经获取到天气数据,可以回答用户了
Agent输出:北京明天天气晴朗,气温15-25°C,适合外出活动。

优点:推理过程透明,便于调试和审计
缺点:每一步都需要LLM推理,效率较低

Plan-and-Execute(规划后执行)

核心思想:先制定完整计划,再按计划逐步执行。

用户:帮我做一份关于新能源汽车市场的分析报告

Agent规划:
  1. 搜索新能源汽车市场最新数据
  2. 收集主要厂商的销量信息
  3. 分析市场趋势和竞争格局
  4. 生成图表和可视化
  5. 整理成完整报告文档

Agent执行:按计划逐步执行各步骤...

优点:复杂任务处理更有条理
缺点:计划一旦制定,调整灵活性较差

Multi-Agent(多智能体协作)

核心思想:多个专业Agent分工协作,各司其职。

优点:专业分工,复杂任务处理能力强
缺点:系统复杂度高,协调成本大

Agent与RAG的关系

什么是RAG?

RAG(Retrieval Augmented Generation,检索增强生成) 是一种让LLM能够访问外部知识的技术:

三个步骤

  1. 检索 Retrieval:将问题转为向量,在知识库中检索相关文档
  2. 增强 Augmentation:将检索到的文档片段作为上下文注入Prompt
  3. 生成 Generation:LLM基于上下文生成答案

RAG是Agent的"工具"之一

核心观点:RAG和Agent不是同一层面的概念。

RAG是Agent可以调用的众多工具之一,用于获取知识

详细对比

维度RAGAgent
本质一种知识增强技术一种系统架构
作用让LLM能访问外部知识让LLM能自主完成任务
能力检索 + 回答规划 + 执行 + 反馈
执行操作不能
关系是Agent的一个工具可以包含RAG

Agent如何使用RAG

在Agent架构中,RAG通常作为一个"知识检索工具"被调用:

用户:"根据公司政策,我可以申请多少天年假?"

Agent思考:这是一个需要查询内部政策的问题,我需要检索知识库
Agent行动:调用 rag_search(query="年假申请天数 公司政策")
Agent观察:检索结果显示"工龄1-5年:5天,5-10年:10天,10年以上:15天"
Agent思考:已获取政策信息,但需要知道用户工龄才能给出准确答案
Agent行动:询问用户"请问您的工龄是多少年?"
用户:"3年"
Agent输出:根据公司政策,您目前工龄3年,可以申请5天年假。

RAG与Agent结合的模式

模式说明适用场景
RAG Only纯知识问答,无执行能力简单FAQ、文档问答
Agent + RAGAgent调用RAG获取知识,再执行操作需要知识支撑的任务执行
Agentic RAGRAG流程本身由Agent控制,可动态决定检索策略复杂知识推理

Agent是否需要模型微调?

核心结论:通常不需要

Agent的能力主要不来自于模型微调,而来自于系统架构。

关键洞察

  • LLM基础能力:通用LLM(如GPT-4/Claude/Qwen)已经足够,通常不需要微调
  • 系统架构能力:工具定义、记忆系统、提示工程(Prompt Engineering)、Agent Loop —— 这是Agent能力的主要来源,与模型微调无关

为什么Agent通常不需要微调?

原因说明
LLM能力已足够现代LLM(GPT-4、Claude 3、Qwen2.5等)的通用能力已经足以支撑Agent的推理和规划需求
能力来自架构Agent的"执行能力"来自工具调用,不是模型本身的能力
提示工程更高效通过精心设计的System Prompt,可以让通用LLM表现出领域专家的行为
灵活性更强不微调意味着可以随时切换底层模型,享受模型迭代的红利
成本更低微调需要数据、算力、时间,而提示工程几乎零成本

什么情况下可能需要微调?

虽然通常不需要,但以下场景可以考虑微调:

场景说明微调目标
领域专业术语模型对特定领域术语理解不准确提升领域语言理解
特定输出格式需要模型稳定输出特定格式增强格式遵循能力
成本优化用小模型+微调替代大模型降低推理成本
私有化部署无法调用云端大模型API提升本地小模型能力

微调 vs 提示工程 vs RAG

技术手段作用适用场景成本
提示工程引导模型行为几乎所有场景
RAG注入外部知识需要特定知识的场景
微调(LoRA等)改变模型参数特殊格式/领域/成本优化

推荐策略

  1. 优先:提示工程 + RAG
  2. 其次:如果效果不够,考虑微调
  3. 原则:能不微调就不微调,保持架构灵活性

Agent能力提升的正确路径

优先级手段具体工作
1提示工程优化System Prompt、设计清晰的工具描述、Few-shot示例
2工具生态丰富工具集、优化工具接口设计、工具组合能力
3知识增强构建高质量知识库、优化检索策略、知识更新机制
4模型微调特定领域术语理解、稳定输出格式、成本优化(仅在必要时)

行业案例分析

Manus:为什么火?做了什么?

Manus 是2025年初爆火的AI Agent产品,被称为"第一个真正能帮你做事的AI"。

Manus的核心能力

能力说明示例
浏览器自动化像人一样操作网页自动搜索信息、填写表单、下载文件
代码执行编写并运行代码数据处理、文件转换、自动化脚本
文件操作创建、编辑、管理文件生成报告、整理文档、批量处理
任务编排将复杂任务拆解执行多步骤任务自动化完成

Manus vs 原生ChatGPT 对比

任务ChatGPT的回答Manus的做法
"帮我做一份竞品分析报告"给你一个报告模板和框架建议自动搜索竞品信息、收集数据、生成完整的分析报告文档
"帮我查一下明天北京的天气"告诉你可以去哪个网站查打开天气网站、查询数据、直接告诉你结果
"把这个PDF转成Word"推荐一些在线转换工具直接执行转换、生成Word文件给你
"帮我分析这份Excel数据"需要你把数据粘贴进去直接读取文件、执行分析、生成图表

为什么人们愿意用Manus?

一句话总结:Manus把LLM从"对话工具"变成了"执行助手"。

具体原因:

  1. 从"建议"到"执行":不只是告诉你怎么做,而是帮你做出来
  2. 减少人工介入:用户只需要说目标,不需要一步步指导
  3. 跨系统能力:可以同时操作多个网站、工具,完成复杂任务
  4. 结果交付:最终产出是可用的文件、数据,而不只是文字建议

OpenAI Operator / Claude Computer Use

2024-2025年,OpenAI和Anthropic先后推出了Computer Use能力:

产品发布时间核心能力
Claude Computer Use2024.10Claude可以控制电脑,像人一样操作鼠标键盘
OpenAI Operator2025.1GPT可以自动执行网页任务,如购物、预订等

这表明:Agent化是大模型应用的必然趋势,头部厂商都在朝这个方向发展。

MCP协议:Agent工具调用的行业标准

2024年11月,Anthropic发布了**MCP(Model Context Protocol)**协议,正在成为Agent工具调用的事实标准:

特点说明
标准化统一的工具描述和调用协议
生态共享一次开发,多Agent复用
行业认可支付宝、微信等已推出MCP Server

如何构建一个Agent系统

技术组件清单

构建一个完整的Agent系统,需要以下技术组件:

各层级详解

层级组件具体内容
1Agent运行框架Agent Loop实现、规划-执行-反馈循环、多Agent协作机制。可选:LangGraph/AutoGPT/CrewAI/自研
2工具系统工具定义(MCP/Function Calling)、工具注册中心、调用执行引擎、错误处理与重试
3记忆系统短期记忆(对话上下文)、长期记忆(用户画像、历史任务)、工作记忆(任务中间状态)
4感知增强多模态输入处理、RAG知识检索、联网搜索
5安全控制输入安全(注入检测)、执行安全(权限控制)、输出安全(幻觉检测)

最小可行Agent

如果想快速体验Agent开发,可以从最小可行方案开始:

python
# 伪代码:最小可行Agent
def minimal_agent(user_input, tools, llm):
    # 1. 将用户输入和可用工具描述发送给LLM
    prompt = f"""
    你是一个AI助手,可以使用以下工具:
    {format_tools(tools)}
    
    用户请求:{user_input}
    
    请分析用户需求,决定是否需要调用工具,以及如何回答。
    """
    
    while True:
        # 2. LLM思考并决定下一步
        response = llm.chat(prompt)
        
        # 3. 如果LLM决定调用工具
        if response.has_tool_call:
            tool_name = response.tool_call.name
            tool_args = response.tool_call.arguments
            
            # 4. 执行工具调用
            result = tools[tool_name].execute(tool_args)
            
            # 5. 将结果反馈给LLM,继续循环
            prompt += f"\n工具{tool_name}返回:{result}"
        else:
            # 6. LLM给出最终回答,结束循环
            return response.content

推荐的框架选择

框架特点适用场景
LangGraphLangChain团队出品,支持复杂Agent流程编排复杂多步骤Agent
AutoGPT早期Agent框架,社区活跃通用自主Agent
CrewAI专注多Agent协作多角色协作场景
OpenAI Assistants APIOpenAI官方方案,集成度高快速原型、GPT用户
自研完全可控,可深度定制有特殊需求的生产系统

总结

本文系统梳理了从LLM到Agent的技术演进:

  1. 三代架构:裸LLM(只能说)→ Workflow(按剧本做)→ Agent(自主做)
  2. Agent核心:观察-思考-行动-反馈的循环,由LLM+工具+记忆+规划组成
  3. Agent与RAG:RAG是Agent的一个工具,用于知识增强,二者不是同一层面的概念
  4. 是否需要微调:通常不需要,Agent能力主要来自系统架构而非模型参数
  5. 行业趋势:Agent化是大模型应用的必然方向,头部厂商都在布局

一句话理解Agent:Agent = LLM(大脑) + 工具(手脚) + 记忆 + 规划能力,让AI从"能说"进化到"能做"。

附录:技术名词解释

术语英文解释
AgentAgent智能体,能够感知环境、自主决策、执行动作的AI系统
LLMLarge Language Model大语言模型,如GPT-4、Claude、Qwen等
WorkflowWorkflow工作流,预定义的任务执行流程
MCPModel Context Protocol模型上下文协议,Anthropic提出的Agent工具调用标准
RAGRetrieval Augmented Generation检索增强生成,通过检索外部知识增强LLM回答
ReActReasoning + Acting一种Agent范式,交替进行推理和行动
CoTChain of Thought思维链,让LLM展示推理过程的提示技术
Tool CallingTool Calling / Function Calling工具调用,LLM调用外部工具的能力
LoRALow-Rank Adaptation低秩适配,一种高效的模型微调方法

许可协议

本文章采用 CC BY-NC-SA 4.0 许可协议进行发布。您可以自由地:

  • 共享 — 在任何媒介以任何形式复制、发行本作品
  • 演绎 — 修改、转换或以本作品为基础进行创作

惟须遵守下列条件:

  • 署名 — 您必须给出适当的署名,提供指向本许可协议的链接,同时标明是否(对原始作品)作了修改。您可以用任何合理的方式来署名,但是不得以任何方式暗示许可人为您或您的使用背书。
  • 非商业性使用 — 您不得将本作品用于商业目的。
  • 相同方式共享 — 如果您再混合、转换或者基于本作品进行创作,您必须基于与原先许可协议相同的许可协议分发您贡献的作品。

上次更新时间: