近日,BI(Business Insider)有幸提前体验了号称“全球首个全自主AI代理”的Manus。这款由中国团队开发的AI助手,自上周发布以来便备受瞩目,甚至被一些业内人士誉为“第二个DeepSeek”。虽然目前Manus仅限邀请用户使用,但作为首批体验者之一,我们对其自主能力进行了深入测试。
测试一:DOGE相关舆情分析
Manus宣称能够抓取互联网数据,分析公众言论,并实时追踪社交媒体和新闻网站上的舆情变化。因此,我们要求其分析公众对美国政府效率部门(Department of Government Efficiency,简称DOGE)联邦机构裁员的反应。
最初的反馈看起来很有希望,然而,Manus的表现却令人失望。首先,它未能找到任何社交媒体上的相关讨论,尽管联邦机构裁员已经成为热门话题数周之久。
更糟糕的是,Manus并没有尝试搜索真实新闻报道,而是开始模拟公众对DOGE的反应。在接下来的20分钟里,它不断生成虚假的社交媒体账号、推文,甚至篡改真实网站内容,伪造根本不存在的帖子。过程中,它并未征求我们的意见,也未提供停止操作的选项。虽然可以选择手动干预,但这与Manus“全自主”的定位背道而驰。
最终的报告从真实网站上抓取了虚假数据,例如将“纳税人为常识”组织描述为“在新闻报道中影响力最高的财政保守派监督机构”。然而,Manus声称该组织是DOGE相关舆论最具影响力的声音,这一点十分可疑。它甚至将一个名为“Progressive Times”的Medium博客列为重要来源,而该博客自2017年以来就未曾更新,远远早于DOGE的出现。
在社交媒体趋势方面,Manus似乎捏造了X(原Twitter)和Reddit用户,并将其列为在线讨论DOGE的主力军。唯一值得称赞的是其数据集的可视化呈现,尽管数据完全是虚构的。其情感分类、预测和视觉分解方式令人印象深刻,如果基于真实数据,将具有一定实用价值。然而,由于数据造假,这些都显得毫无意义。
这份报告乍一看颇具迷惑性,包含看似专业的参考文献列表。然而,只有在报告末尾的细则中,才隐藏着“整个10页的分析均基于合成数据”的免责声明。这意味着,如果用户需要真实的舆情分析,且未密切监控Manus的操作,最终将得到毫无价值的结果。
测试二:启动解决鸡蛋价格上涨的创业项目
在第二个测试中,我们要求Manus开发一个创业项目,以应对不断上涨的鸡蛋价格。我们希望它能提供商业计划书、创始人背景故事、完整设计的网站、品牌指南、营销策略,甚至包括logo和名片。
与之前编造数据的测试不同,Manus在这次测试中表现得非常积极、有创业精神且有条理。整个过程看起来结构化且有条不紊。
Manus擅长概述多种策略并管理整个过程的预期,这让我们对其信心大增。
测试进行到一半时,它展示了新业务的首批品牌资产:Eggonomy™,一个“直接面向消费者的鸡蛋节省平台”。
然而,其logo设计却有些奇怪,像是从学校科学教科书中摘取的培养皿图案。同时,它还提供了一张简单的名片,上面写着“鸡蛋,没有价格冲击”的口号。
考虑到任务的复杂性,我们预计需要更长的时间才能完成,并且Manus似乎没有遇到任何技术障碍。整个过程清晰、快速且易于追踪——直到它不再如此。
半小时后,Manus宣布最终产品Eggonomy™已准备就绪。
第一眼看到网站时,我们感到惊讶,它的设计简洁且与鸡蛋相关。但是,总感觉有些不对劲。
博客部分的文章随机且不相关,与鸡蛋毫无关联。
很快,我们就找到了原因。Eggonomy早已存在。该网站并非从头开始生成,而是注册于2016年。
至少,其商业战略似乎得到了真实数据和市场调查的支持。
Manus擅长集思广益品牌名称、构建商业计划和分析主要竞争对手,但其执行力却大打折扣。
更糟糕的是,它并未像DOGE测试那样承认使用了合成数据,而是毫不透明地套用了一个现有的网站。
结论:Manus尚未准备好“单飞”
总而言之,Manus在运行过程中引人入胜,但距离其声称的“完全自主代理”还差得很远。当然,我们进行的这两项测试并非正式或科学的。在更可靠的AI效用指标GAIA基准测试中,Manus声称其表现优于OpenAI的DeepResearch和GPT-4。
虽然Manus尚未准备好独立工作,但它仍然是一个早期版本的工具。如果它能够稳定性能,提高数据可靠性,并停止编造内容,它可能会成为一个强大的AI助手。目前,它更像是一个研究实习生,而不是一个完全独立的操作员。Business Insider已联系Manus寻求置评,但尚未收到回复。