人工智能(AI)Agent正在成为科技领域的热门话题,但研究人员指出,围绕这一概念存在着广泛的理解偏差。
AI Agent:不仅仅是执行任务
与简单地执行预设任务不同,AI Agent具备更高级的功能,包括推理和解决问题的能力。今年以来,从OpenAI到Glean等多家公司纷纷发布了与Agent相关的产品。
“Agent”已成为AI领域最受关注的术语之一,自年初以来,各种相关产品层出不穷。然而,对于Agent的具体功能和定义,业界并未达成共识。
今年1月,OpenAI发布了Operator,这款Agent能够浏览网页、预订机票、甚至创作表情包。Glean和Cohere等企业技术公司也推出了平台,允许员工构建和部署Agent。此外,中国初创公司蝶效科技(Butterfly Effect)推出了Manus,这款仅限邀请使用的AI Agent能够分析股票、从网络上抓取数据,甚至创建交互式网站,引发了与DeepSeek相媲美的关注。
通常,Agent被定义为能够自主完成任务的虚拟助手。它们能够分解问题、制定计划,并在无需用户提示的情况下采取行动。人们对Agent的期望之一是,它们或许是实现“无需动手”世界的关键一步,人类可以坐在舒适的环境中,看着AI完成所有工作。然而,与Agent系统相关的AI专家表示,这项技术远比想象的复杂。
定义之争:关键在于“主动推理”
Contextual AI的联合创始人兼首席执行官Douwe Kiela表示:“我听过一些对Agent的定义,认为只有采取行动才能被称为Agent。”Contextual AI致力于帮助企业构建和部署RAG Agent。Kiela此前曾在Meta领导团队开发了检索增强生成(RAG)技术,该技术旨在提升大型语言模型的输出质量。
他以OpenAI、Perplexity和Google开发的Deep Research Agent为例,这些Agent能够将数百个在线资源综合成详细的报告。“它们不一定需要采取任何行动,除了搜索之外。这算Agent吗?我认为算,但很多人认为不算,认为Agent必须采取能够影响其运行状态或环境的行动。”
Kiela认为,Agent的正确定义应该仅仅是能够“主动推理”的实体。“如果它犯了错误,它能够发现并尝试再次解决。”
Emergence AI是一家专注于多Agent系统的公司,其首席执行官、自然语言专家Satya Nitta表示,Agent的设计目标是在不断变化的环境中进行故障排除。
Nitta解释说,Agent“超越了自动化,展现了上下文推理能力,能够适应无法预见的挑战,并动态调整计划以在复杂的环境中取得成功。”
Agent与大型语言模型的区别
理解Agent的另一种方式是将它与大型语言模型(LLM)联系起来,后者是ChatGPT等热门聊天机器人的基础。
You.com是一家由AI驱动的知识工作者搜索引擎,其创始人兼首席执行官Richard Socher认为:“大型语言模型是一种用词不当。它实际上应该被称为神经序列模型,适用于任何序列数据:自然语言、编程语言、像素序列和生物序列(蛋白质)。”而Agent是“一种能够为你采取行动的神经序列模型,它从人类行为模式中学习,以自动执行跨多个领域的复杂任务。”
Agent的未来:团队成员还是工作流设计者?
随着Agent在工作场所的普及,人们可能会开始将它们视为团队成员或权威助手。但拥有多年自然语言处理经验的AI驱动翻译公司LILT的首席执行官Spence Green表示:“我认为它们是工作流的设计者。”
无论如何定义,无论它们做什么,AI公司都对Agent寄予厚望,希望它们能够推动回报增长。《The Information》本月报道称,OpenAI计划以每月2万美元的价格出售博士级别的Agent,并最终预计其20%至25%的收入将来自Agent。
Insight Partners的董事总经理Praveen Akkiraju此前表示:“如果说2024年是大型语言模型之年,我们相信2025年将是Agent AI之年。”