本篇博客重点介绍Manus的核心组件以及通用的工作原理,会对官网Case进行拆解分析,让你了解Manus中的核心技术。
1 Manus是什么?
Manus官网介绍:Manus是一个连接思想和行动的通用人工智能Agent。Manus不仅思考,还能交付结果。在工作和生活中的各种任务中表现出色,在你休息时完成所有事情。
Manus是Monica团队推出的全球首款通用型 AI Agent,能够独立思考、规划和执行复杂任务,直接交付完整成果。与传统 AI 不同,Manus 拥有强大的工具调用能力,能自主完成从任务规划到执行的全流程,并在以下任务中表现非常出色:
- 多领域任务处理:
- 文件处理:批量整理简历、生成电子表格、审核合同等。
- 数据分析:进行财务分析、市场调研、股票分析等,生成可视化图表。
- 内容创作:撰写文章、生成视频脚本、制作演示文稿等。
- 旅行规划:根据用户需求定制旅行行程,并生成旅行手册。
- 工具调用与自动化:调用浏览器、代码编辑器、数据分析工具等,实现任务的自动化执行。
- 自主学习与优化:根据用户反馈和任务结果不断学习和调整,优化工作方式,更好地满足用户需求。
- 实时交互与协作:用户能随时介入任务执行过程,调整需求或方向,Manus灵活适应继续执行。
从我们对Manus官网提供的case分析:
- Manus本质上并没有突破AI Agent的planning、tool call、memory的那一套大流程,还是会依赖于预设的流程来执行任务。
- 通过集成浏览器、代码执行器等大量工具,提供友好的UI交互方式,去解决更加通用的场景
- 多Agent协同,多LLM(deepseek r1、Claude-3.7、自己post train的LLM)整合调用,不同任务分配到更擅长的模型,整体智能有较大的提升(GAIA测试结果优于Open AI的Deep Research)
综上,Manus是一个集成了浏览器和操作系统,各类推理、意图识别模型,UI体验十分友好的AI Agent产品,可以看成是现有的vm+Code Agent+Claude Artifacts+DeepSearch的结合
2 Manus核心组件拆解
从官网提供的几个Case,Manus至少包含了以下几个核心组件:
- Reasoning Model:负责任务拆解、调度与审核。有可能是Deepseek R1或者COT等推理框架实现。
- DeepSearch&Brower Use:负责深度搜索以及浏览器操作,包括点击、滚动等,搜索关键信息。
- Code Agent:负责编写Python、Html等代码。从代码效果、准确率来看,有可能是Claude-3.7负责代码生成能力。
- Computer Use:负责控制操作系统,比如保存、编辑文件,创建文件夹,执行脚本命令等。
- APIs:负责调用外部系统。
2.1 推理模型
推理模型在Manus中主要扮演任务拆解、调度、任务完成审核的角色,在任务开始时,根据用户提供的信息,拆解为子任务,并将子任务写入到todo.md文档中。在每次任务完成后,会审核任务,并标记任务已经完成。
- [ ]:表示待执行的任务
- [x]:表示已经完成的任务
2.2 深度搜索&浏览器控制
DeepSearch就是我们常说的深度搜索,DeepSearch 的核心理念是通过在搜索、阅读和推理三个环节中不断循环往复,直到找到最优答案。
以下是Perplexity深度搜索的一个案例,遵循了搜索、阅读、推理循环的过程。
在Manus上,我们也可以看到非常多DeepSearch相关的case,同样是搜索、浏览、分析的循环。
浏览器操作,也就是Browser Use能力。
经过分析,Manus在浏览网页时,不仅仅是爬取网页的文本内容,他会不断滚动网页,点击链接进入下一层网页,直至定位到关键信息后才结束网页浏览。
因此猜测,Manus将Browser Use与视觉模型能力结合,通过视觉识别定位关键信息。
2.3 Code Agent&访问操作系统
Code Agent比较好理解,就是根据任务的需要,编写代码完成任务,包括但不限于:
- 编写网页代码呈现结果
- 编写数据分析代码制作报表
- 甚至与操作系统的交互也可能是通过编写代码实现的,比如文件编辑,PPT、Excel生成,压缩打包等
以下是Manus编写的python代码实现数据分析,以及网页代码展示展示搜索数据。
2.4 有限的外部API调用
Manus的外部API调用并没有直接展示在交互界面上,而是隐藏在了代码中,如下特斯拉股票分析
的案例中,就调用了雅虎金融的API获取股票数据。
3 官网案例介绍
先从逻辑上介绍下Manus的工作原理,官网上的demo基本都遵循以下的工作流程。
从这点其实也能看出来,Manus是按照一定的 预定义 的流程(pre-defined flow)去处理问题,其中包含了一定的** 人为决策因素**** 。**
接下来我们逐步分析官网上的一个demo:移动互联网流量数据分析
-
理解用户意图,建立工作文档,拆分子任务
任务被拆分为4步:
- 数据收集
- 数据分析
- 数据可视化
- 输出数据报告
-
执行第一个任务:数据收集
不断的浏览网页,将网页内容下载成本地文件,待后续处理
当遇到当前网页内容不符合需求时,会尝试点击页面元素进入下一层级网址
因此,这里猜测使用到了视觉模型的识别能力。
-
自动生成可视化代码,并执行
这就是使用了python中matplotlib的可视化能力
最终可视化的图表
-
完成数据收集和图表绘制,开始撰写报告文档
-
任务完成,todo.md中的任务全部标记x
-
用户提交新的任务
将报告作为一个可视化的dashboard
优化原来的md文档,转换成mdx文档,添加部分报表组件
最终暴露到公网
https://pages.manus.im/?sId=f878HJiFifFQca1f0tckhQ&filename=dashboard.mdx
可视化效果,非常棒!!!
4 Manus相较于目前的AI搜索引擎
在Manus出来之前,最与之接近的产品应该算是devin,但devin聚焦通过多智能体的方式以解决编程领域的问题,而Manus则希望作为一个多智能体解决通用领域的问题。
未来Manus的定位很有可能作为一个搜索入口,相较于Perplexity这类AI搜索引擎只能够提供文本+链接的内容,Manus通过整合各种强大的LLM、Agent、Computer Use、Browser Use的能力,能够提供更加丰富且更加智能的交付件,比如网页、工作文档、甚至一个小的工程项目。