AI Agent:连接数字世界与物理世界的智能桥梁
发布时间:2026-02-05   信息来源:东方富海

导读:

东方富海博士后工作站秉承研究发现价值、研究引领投资的理念,对投资实务进行前瞻性研究。本文是AI Agent(也称“Agent”或“智能体”)的相关研究,为工作站出品的第29篇报告。

AI Agent是一种能够感知环境、自主决策并执行动作的智能实体,其现实意义在于构建了数字世界与物理世界的智能连接桥梁,有效破解了大模型“有脑无手”的落地困境,成为释放人工智能(也称“AI”)全产业链价值的关键载体。因此,AI Agent除了是一个技术概念,更是AI应用落地的实际形式,以及研究AI产业的绝佳角度。在此背景下,本文系统梳理了AI Agent的发展历史、产业驱动因素、产业链情况、投资策略等,为相关行业研究与投资提供参考。

 

AI Agent的定义与分类

从学术角度看,AI Agent是一种能够感知环境、自主决策并执行动作的智能实体,其工作流程如图1所示。在感知环节,传感器从外部世界接收原始信息,如光线、温度、声音、图像等,将原始物理信号转换、处理为数字化信息,传递给控制器;在决策环节,控制器根据感知数据进行分析和决策后,向执行器发出具体行动命令;在行动环节,执行器根据指令对外部世界施加影响,如移动、发声、加热等,从而改变环境状态。可以看出,AI Agent与环境形成了一个持续交互、不断适应的闭环智能行为。

图1:AI Agent工作流程示意图

 

图2显示,从更具体的系统架构层面来看,AI Agent的感知端包括文本输入、视觉输入、听觉输入等;控制端包括自然语言交互、知识、记忆、推理与规划、泛化等;行动端包括文本输出、工具使用、具身行为等。

图2:AI Agent系统架构
(参考资料:Zhiheng Xi等(2023)《The Rise and Potential of Large Language Model Based Agents: A Survey》,中金公司研究部)

 

Agent一般分为B端Agent和C端Agent 两大类,每个大类下又可按照形态、行业分类。如表1所示,B端软件类Agent主要是企业级服务助手,B端硬件类Agent主要是各类行业机器人,两者都可按照行业进一步细分。如表2所示,C端Agent也分为软件类和硬件类,涉及住房家居、教育、健康、休闲娱乐等行业。两张表格并未呈现所有行业,但提供了一种分类思路,利于对细分赛道的精准定位和深入研究。

表1:B端Agent的分类

表2:C端Agent的分类

 

Agent的现实意义在于,相较于传统AI工具仅能被动响应指令的辅助角色,Agent有望实现向“执行者”的根本性转变。其核心优势在于能够自主处理复杂任务:通过感知组件实时捕捉环境信息,依托大语言模型进行目标解析与路径规划,进而调用相应工具执行具体操作,并通过记忆与反馈机制持续优化行动策略,最终形成一个完整的“感知-决策-行动-反思”的智能闭环。这种转变使得AI从单纯的内容生成者升级为能够主动规划并完成任务的问题解决者。

 

2  AI与AI Agent的发展历史

AI的发展存在3次热潮。如图3所示,第一次热潮始于1956年“人工智能”概念的提出,但因算法理论和计算机性能的限制,很快进入低谷。第二次热潮以专家系统为代表,但在处理复杂问题和数据量匮乏的情况下,发展再次受限。第三次热潮,随着互联网带来海量数据、计算能力的增强以及深度学习等算法的突破,取得了显著进展,特别是在图像识别、语音识别和自然语言处理等领域。

图3:人工智能发展的历史演变进程 

伴随着AI的发展,AI Agent的发展也从萌芽期进入探索期。

1、萌芽期(1980s-2010s初期):感知-信息系统与早期Agent范式的确立

本阶段是Agent概念的形成与探索初期,先后受符号主义与行为主义两大范式主导,目标是在受限环境中实现基本自主。

1980s-1990s中期,为符号Agent时期。Agent被视作一种知识系统,通过逻辑规则(如专家系统)或符号推理(如BDI模型:信念-期望-意图)进行决策。其智能高度依赖领域专家预设的规则库,适应性和灵活性差,但为Agent的“理性思考”奠定了形式化基础。

1990s中后期-2010s初期,为行为主义与混合架构时期。针对符号AI的缺陷,反应式/行为主义Agent兴起,强调“感知-行动”的快速闭环,能更好地应对动态环境(如早期机器人)。为解决其规划能力不足的问题,混合架构Agent成为研究主流,首次在架构上明确了“感知、规划、行动”的分离。同时,机器学习方法开始被引入,使Agent具备从数据中学习简单策略的能力。

此阶段的Agent整体上锚定在感知-信息系统,其“思考”能力或因预设规则而僵化,或因架构分离而低效。尽管实现了在特定封闭场景下的自动化,但其知识获取依赖人工,学习能力较为初级,远未达到跨场景的通用性与深度认知能力。

2、探索期(2010s中期至今):从“感知-行动”到“思考-规划”的智能化跃升

随着深度学习、强化学习的实践突破,与大语言模型技术的突破,Agent进入“知识表达与推理规划”阶段,自主性与场景通用性显著提升。本阶段的驱动技术分为前后两波:

2010s中后期,基于强化学习的Agent关注“如何通过环境交互进行学习”。以AlphaGo/AlphaStar为代表,通过试错与自我博弈,在特定封闭环境(如棋盘、游戏)中掌握了超越人类的复杂策略。其智能体现在策略优化上,但知识难以迁移,缺乏语义理解。

2020s以来,基于大语言模型的Agent关注“如何利用已有知识进行理解、规划和决策”。依托大语言模型强大的知识库、思维链和代码生成能力,Agent获得了初步的语义理解、常识推理和任务分解能力。这使其能处理开放世界的复杂指令,并进行多步骤规划。

这两波技术的结合,如用大模型进行高层规划,以及用强化学习进行底层优化,是当前的研究前沿。但此阶段Agent仍普遍存在幻觉、逻辑一致性不足、长期规划能力有限等问题,且跨领域的协同决策和复杂工具调用仍是挑战。

 

3  AI Agent产业的驱动因素

在市场需求迫切、政策力度空前、资本投入巨大、技术突破涌现的产业背景下,AI Agent产业有望迎来高速发展。

1、市场需求:企业降本增效与个人服务升级双重驱动

企业级场景渗透加速,金融、医疗、工业等垂直领域已形成规模化应用。例如,金融投研Agent可将尽调周期缩短80%,医疗诊断Agent误差率降至2.3%,工业设备预测维护准确率达91%,显著降低企业运营成本。IDC数据显示,2025年AI Agent将在研发、供应链等高复杂度场景率先落地,企业级市场渗透率突破15%。

消费端个性化服务需求爆发,个人用户对智能理财、健康预警、教育陪练等场景需求激增。例如,OpenAI的Operator Agent可完成订餐、购票等生活服务,智谱AutoGLM覆盖网购、社交等高频场景。与此同时,字节跳动联合中兴通讯推出的豆包手机助手,通过系统级权限实现了跨应用自主操作,展示了Agent在消费端设备的落地潜力。

长尾场景出现商业化拐点,AI Agent在文旅导览、法律咨询等场景加速突破,如零售动态定价Agent可提升企业利润率20%,文旅导览Agent推动景区客单价增长35%。

2、政策红利:国家战略与地方生态协同发力

2025年8月,国务院发布《关于深入实施“人工智能+”行动的意见》(国发〔2025〕11号),4次直接提及“智能体”:①“到2027年,率先实现人工智能与6大重点领域广泛深度融合,新一代智能终端、智能体等应用普及率超70%”;②“到2030年,我国人工智能全面赋能高质量发展,新一代智能终端、智能体等应用普及率超90%”;③“在软件、信息、金融、商务、法律、交通、物流、商贸等领域,推动新一代智能终端、智能体等广泛应用”;④“培育人工智能应用服务商,发展‘模型即服务’、‘智能体即服务’等,打造人工智能应用服务链”。这标志着Agent的发展已上升至国家战略高度,并被赋予“新基础设施”的地位。

地方政府则更注重“要素+场景”直达企业,通过财政+算力补贴、券制与专项资金叠加,配套本地法规与场景清单,推动Agent规模化落地。比如,北京最高3000万支持并制定多Agent标准草案;深圳发放“模型券”,鼓励Agent开发;武汉给予研发成本30%与算力费用50%补助。此外,多地提供算力券(京沪杭)与条例保障(深/沪),并滚动发布应用清单。统计显示,超过20个省市出台AI办公支持,专项资金总规模超1200亿、场景超1000个。

3、投融资趋势:资本向技术与场景纵深迁移

风险投资规模指数级增长。2024年全球AI Agent领域融资超200亿美元,2025年Q1单季度融资达66亿美元,红杉中国、a16z等头部机构单笔投资额同比增长111%。

技术底层与生态平台受追捧。开源模型DeepSeek R1推动推理成本降至行业均值的5%,吸引金沙江创投等机构重仓。微软Copilot Studio、腾讯Edan等平台型项目估值年增300%。

产业资本深度参与生态构建。腾讯、阿里通过战略投资抢占终端入口,如钉钉“精选AI助理”覆盖200万企业用户。政府引导基金占比提升至35%,重点支持芯片、多模态等核心技术。

4、技术突破:认知能力与工程化能力双维跃迁

大模型驱动的认知升维。DeepSeek R1等模型体积缩小80%的同时推理准确率提升40%。多模态融合技术使医疗Agent可同步解析影像、文本、病历数据。

轻量化与边缘计算突破。微软Phi-3等小模型(<10亿参数)在手机端运行医疗诊断准确率98%,联想AI PC实现端侧离线推理,推动Agent泛在化部署。

工具调用与自主决策闭环。AutoGPT实现跨平台API自主调用,特斯拉Dojo工厂运维Agent可预测故障并生成维修方案;Manus Agent支持200+工具集成,任务完成率达82%。

通信机制的标准化。近年来,AI Agent通信机制由单一API适配向标准化协议跃迁,2024年后MCP普及,显著降低了Agent与工具、数据的连接难度。2025年起,A2A等协议支持多Agent间横向协作,推动生态互联。

4  AI Agent产业链分析

AI Agent的产业链如图4所示。上游主要包括底层算法框架、大模型原生API、云计算平台、数据服务等。对于硬件类Agent,产业链上游还包括零部件、本体。其中,大模型是Agent的“认知核心”,其能力直接决定Agent的决策精度与泛化能力。产业链下游为Agent购买方,一般会对产品效果、回本周期、隐私安全等进行综合评判后,做出采购决策。

图4:AI Agent产业链图谱

产业链中游由Agent开发平台与Agent研发集成商(即Agent提供方)共同构成,是投资机构重点关注的领域。开发平台作为支撑研发集成的基础设施,聚焦于通过模块化、标准化的工具降低开发门槛,其形态主要包括提供高度代码控制力的开发框架(如OpenAI Agents SDK、LangChain)以及进一步提升开发效率的低代码/无代码平台(如字节Coze、Dify)。本质上,Agent开发平台是不具备自主行动能力的创造者与管理平台。研发集成商则基于此类平台进行具体Agent产品的研发、定制与交付。开发平台与AI Agent本身存在根本性角色差异:前者是用于构建Agent的工具性环境,后者则是具备自主规划、决策与任务执行能力的智能化实体。

产业链中游参与者主要分为3类:科技巨头、AI原生创业公司、传统厂商。科技巨头是生态闭环构建者,主导平台级生态建设,掌控产业链核心话语权,具有大模型基座、云计算、场景资源、Agent开发平台4大优势,代表企业如国外的微软、谷歌和国内的字节、腾讯、阿里、百度。AI原生创业公司是技术创新突破者,以“单点技术突破+垂直场景深耕”为核心竞争力。传统厂商是转型融合跟进者——SaaS、RPA 及垂直行业厂商采用“AI+现有业务”的融合模式,优势在于能依托存量客户、行业Knowhow实现快速切入与落地。总的来说,AI Agent赛道已形成“科技巨头筑生态、创业公司攻单点、传统厂商谋转型”的多元化竞争格局。基于现实考虑,Agent创业公司应尽量避免切入科技巨头、传统厂商的优势领域。

 

5  AI Agent赛道的投资思考

在市场、政策、资金、技术的共同推动下,AI Agent已成为有较大潜力的投资领域。具体到一级市场投资方面,AI Agent投资需要回答两大问题:哪些细分赛道最有可能孕育出实现规模化商业成功的企业?同赛道下哪家企业最可能脱颖而出?

首先,在赛道挑选方面,应优先关注具有以下4个特点的细分赛道:不在巨头/传统厂商的优势领域内;市场空间较大;单个公司的收入天花板足够高;领域的综合壁垒较高,包括技术壁垒、数据壁垒、生态/场景壁垒、品牌壁垒等。综合考虑以上因素,应重点关注的B端Agent赛道包括工业服务Agent、金融服务Agent、科研助手Agent、医护机器人Agent、工业机器人Agent等;在C端应重点关注有较高技术壁垒的硬件类Agent,如AI家居机器人、AI/AR眼镜。

其次,针对同赛道下的企业层面,应重点评估相关企业的团队背景、技术创新、产品成熟度、市场竞争地位。对于早期的企业,应重点关注团队背景和技术创新;对于中后期企业,应重点关注其竞争地位。此外,产品的商业成熟度也是重要考量指标之一,成熟度较高的产品往往能实现3-5倍效率提升或成本大幅度降低、达到算力成本奇点(即Agent产生的额外价值与算力成本比值超过 10)、任务完成评分达80分以上。

例如,工业机器人Agent就是具有较高投资价值的赛道之一。最新一代AI技术正推动工业机器人从依赖固定编程的“执行工具”向具备自主感知、决策与学习能力的“柔性智能伙伴”转变,显著提升了其在复杂环境下的适应性与任务效率。微亿智造是该领域较为成功的公司,其主要产品包括工业具身智能机器人(EIIR)产品(图5)、AI赋能的智能化产品、模组类产品,致力于以工业具身智能破解柔性生产难题。从发展历史来看,公司2018年成立,2022年收购智云天工,整合关键能力;2024年实现盈利,并在中国AI视觉工业机器人行业实现市场份额第一;营收从2022年的2.2亿快速增长到2024年的6亿,并在2025年9月正式向港交所递交招股说明书,有望冲击“工业具身智能第一股”。其收入增长主要源于EIIR产品收入的快速增长,2022-2024 CAGR达183%;占整体收入比例逐年上升,从2022年的15.3%跃升至2025年H1的53.6%,最新毛利率超过50%。

 

▲图5:微亿智造工业具身智能机器人产品

(来源:微亿智造上市申请文件) 

微亿智造的成功源于其战略聚焦、技术突破和商业务实。战略定位方面,公司聚焦工业柔性最优解,即“带大脑的机械臂”,避开人形等早期技术路线;技术创新方面,公司的快慢思考系统、数据飞轮、工业VLA模型等构成技术护城河,使其核心产品从解决“点”状问题向掌控“线”乃至“面”的复杂生产系统(工业机器人Agent)演进;商业策略方面,公司产品可量化的ROI是核心卖点之一,例如PCB板上下料系统能帮助客户在1年左右收回投资,其EIIR产品从项目制迈向标准化则推动了整体收入的快速增长。

6  AI Agent面临的挑战

目前,AI Agent的发展存在三方面的问题:技术性能瓶颈、成本控制难题、商业合规壁垒。技术性能瓶颈包括认知规划能力不足、环境感知与适应性差、多Agent协同复杂性等,因此包括超长文本理解、多模态融合、世界模型、多Agent等在内的技术仍在发展中。成本控制难题源于冗余计算(大量试探性思考、无效规划)和重复调用(多Agent交互未建立高效缓存机制)等,但考虑到Token成本在持续快速下降,未来成本不会是大问题。商业合规壁垒包括商业模式不清晰、安全与隐私风险、伦理与法律问题,未来按结果付费、价值分成的商业模式是趋势,拥有强大安全体系、清晰责任归属的Agent公司更容易赢得信任而优先落地。

在上述背景下,AI Agent的行业落地将呈现“先易后难”的梯度演进:第一阶段,聚焦高标准化、低动态性场景,通过规则与Agent结合控制成本;第二阶段,拓展至中动态场景,依赖多Agent协同提升适应性;第三阶段,渗透高动态场景,需等待基础模型能力进一步突破。

 

7未来展望

当前AI Agent产业正处在关键窗口期。技术突破、政策红利与市场需求的多重驱动,为Agent的规模化落地创造了历史性机遇。但机遇与挑战并存,技术性能的可靠性、商业模式的清晰度以及安全合规的框架,仍是制约其广泛渗透的关键瓶颈。这也决定了其落地路径必将遵循“先易后难”的梯度演进规律,从高标准化场景逐步向高动态性、高复杂性场景拓展。

展望未来,AI Agent的竞争终局将超越单纯的技术竞赛,演变为“技术深度、场景理解与商业闭环”三位一体的综合较量。成功的Agent企业,必将是对产业有深刻洞察、能够精准定义价值并提供可度量回报的实践者。最终,AI Agent的成熟与普及,不仅将重塑人机协作的范式,更将深刻改变各行各业的运行逻辑,成为推动社会迈向智能化时代的关键基础设施。

 

 

参考资料:

1、Zhiheng Xi等(2023)《The Rise and Potential of Large Language Model Based Agents: A Survey》

2、Lilian Weng(2023)《LLM Powered Autonomous Agents》

3、中金研究部《AI Agent:远期场景闭环,交互重塑》

4、数字产业创新研究中心《AI智能体驱动产业变革研究报告》

5、赛迪研究院《人工智能体(AI Agent)应用现状挑战及建议》

6、微亿智造上市申请文件