徐伟腾

本篇博客重点介绍Manus的核心组件以及通用的工作原理，会对官网Case进行拆解分析，让你了解Manus中的核心技术。

1 Manus是什么？

Manus官网介绍：Manus是一个连接思想和行动的通用人工智能Agent。Manus不仅思考，还能交付结果。在工作和生活中的各种任务中表现出色，在你休息时完成所有事情。

Manus是Monica团队推出的全球首款通用型 AI Agent，能够独立思考、规划和执行复杂任务，直接交付完整成果。与传统 AI 不同，Manus 拥有强大的工具调用能力，能自主完成从任务规划到执行的全流程，并在以下任务中表现非常出色：

多领域任务处理：
- 文件处理：批量整理简历、生成电子表格、审核合同等。
- 数据分析：进行财务分析、市场调研、股票分析等，生成可视化图表。
- 内容创作：撰写文章、生成视频脚本、制作演示文稿等。
- 旅行规划：根据用户需求定制旅行行程，并生成旅行手册。
工具调用与自动化：调用浏览器、代码编辑器、数据分析工具等，实现任务的自动化执行。
自主学习与优化：根据用户反馈和任务结果不断学习和调整，优化工作方式，更好地满足用户需求。
实时交互与协作：用户能随时介入任务执行过程，调整需求或方向，Manus灵活适应继续执行。

从我们对Manus官网提供的case分析：

Manus本质上并没有突破AI Agent的planning、tool call、memory的那一套大流程，还是会依赖于预设的流程来执行任务。
通过集成浏览器、代码执行器等大量工具，提供友好的UI交互方式，去解决更加通用的场景
多Agent协同，多LLM（deepseek r1、Claude-3.7、自己post train的LLM）整合调用，不同任务分配到更擅长的模型，整体智能有较大的提升（GAIA测试结果优于Open AI的Deep Research）

综上，Manus是一个集成了浏览器和操作系统，各类推理、意图识别模型，UI体验十分友好的AI Agent产品，可以看成是现有的vm+Code Agent+Claude Artifacts+DeepSearch的结合

2 Manus核心组件拆解

从官网提供的几个Case，Manus至少包含了以下几个核心组件：

Reasoning Model：负责任务拆解、调度与审核。有可能是Deepseek R1或者COT等推理框架实现。
DeepSearch&Brower Use：负责深度搜索以及浏览器操作，包括点击、滚动等，搜索关键信息。
Code Agent：负责编写Python、Html等代码。从代码效果、准确率来看，有可能是Claude-3.7负责代码生成能力。
Computer Use：负责控制操作系统，比如保存、编辑文件，创建文件夹，执行脚本命令等。
APIs：负责调用外部系统。

2.1 推理模型

推理模型在Manus中主要扮演任务拆解、调度、任务完成审核的角色，在任务开始时，根据用户提供的信息，拆解为子任务，并将子任务写入到todo.md文档中。在每次任务完成后，会审核任务，并标记任务已经完成。

[ ]：表示待执行的任务
[x]：表示已经完成的任务

2.2 深度搜索&浏览器控制

DeepSearch就是我们常说的深度搜索，DeepSearch 的核心理念是通过在搜索、阅读和推理三个环节中不断循环往复，直到找到最优答案。

以下是Perplexity深度搜索的一个案例，遵循了搜索、阅读、推理循环的过程。

在Manus上，我们也可以看到非常多DeepSearch相关的case，同样是搜索、浏览、分析的循环。

浏览器操作，也就是Browser Use能力。

经过分析，Manus在浏览网页时，不仅仅是爬取网页的文本内容，他会不断滚动网页，点击链接进入下一层网页，直至定位到关键信息后才结束网页浏览。

因此猜测，Manus将Browser Use与视觉模型能力结合，通过视觉识别定位关键信息。

2.3 Code Agent&访问操作系统

Code Agent比较好理解，就是根据任务的需要，编写代码完成任务，包括但不限于：

编写网页代码呈现结果
编写数据分析代码制作报表
甚至与操作系统的交互也可能是通过编写代码实现的，比如文件编辑，PPT、Excel生成，压缩打包等

以下是Manus编写的python代码实现数据分析，以及网页代码展示展示搜索数据。

2.4 有限的外部API调用

Manus的外部API调用并没有直接展示在交互界面上，而是隐藏在了代码中，如下特斯拉股票分析的案例中，就调用了雅虎金融的API获取股票数据。

3 官网案例介绍

先从逻辑上介绍下Manus的工作原理，官网上的demo基本都遵循以下的工作流程。

从这点其实也能看出来，Manus是按照一定的 预定义 的流程（pre-defined flow）去处理问题，其中包含了一定的** 人为决策因素**** 。**

接下来我们逐步分析官网上的一个demo：移动互联网流量数据分析

理解用户意图，建立工作文档，拆分子任务

任务被拆分为4步：
- 数据收集
- 数据分析
- 数据可视化
- 输出数据报告

执行第一个任务：数据收集

不断的浏览网页，将网页内容下载成本地文件，待后续处理

当遇到当前网页内容不符合需求时，会尝试点击页面元素进入下一层级网址

因此，这里猜测使用到了视觉模型的识别能力。

自动生成可视化代码，并执行

这就是使用了python中matplotlib的可视化能力

最终可视化的图表

完成数据收集和图表绘制，开始撰写报告文档

任务完成，todo.md中的任务全部标记x

用户提交新的任务

将报告作为一个可视化的dashboard

优化原来的md文档，转换成mdx文档，添加部分报表组件

最终暴露到公网

https://pages.manus.im/?sId=f878HJiFifFQca1f0tckhQ&filename=dashboard.mdx

可视化效果，非常棒！！！

4 Manus相较于目前的AI搜索引擎

在Manus出来之前，最与之接近的产品应该算是devin，但devin聚焦通过多智能体的方式以解决编程领域的问题，而Manus则希望作为一个多智能体解决通用领域的问题。

未来Manus的定位很有可能作为一个搜索入口，相较于Perplexity这类AI搜索引擎只能够提供文本+链接的内容，Manus通过整合各种强大的LLM、Agent、Computer Use、Browser Use的能力，能够提供更加丰富且更加智能的交付件，比如网页、工作文档、甚至一个小的工程项目。

最终的Dashboard

爆火的Manus，你知道多少呢？