March 10, 2025

爆火的Manus,你知道多少呢?

本篇博客重点介绍Manus的核心组件以及通用的工作原理,会对官网Case进行拆解分析,让你了解Manus中的核心技术。

爆火的Manus,你知道多少呢?

本篇博客重点介绍Manus的核心组件以及通用的工作原理,会对官网Case进行拆解分析,让你了解Manus中的核心技术。

1 Manus是什么?

Manus官网介绍:Manus是一个连接思想和行动的通用人工智能Agent。Manus不仅思考,还能交付结果。在工作和生活中的各种任务中表现出色,在你休息时完成所有事情。

Manus是Monica团队推出的全球首款通用型 AI Agent,能够独立思考规划执行复杂任务直接交付完整成果。与传统 AI 不同,Manus 拥有强大的工具调用能力,能自主完成从任务规划到执行的全流程,并在以下任务中表现非常出色:

  • 多领域任务处理
    • 文件处理:批量整理简历、生成电子表格、审核合同等。
    • 数据分析:进行财务分析、市场调研、股票分析等,生成可视化图表。
    • 内容创作:撰写文章、生成视频脚本、制作演示文稿等。
    • 旅行规划:根据用户需求定制旅行行程,并生成旅行手册。
  • 工具调用与自动化:调用浏览器、代码编辑器、数据分析工具等,实现任务的自动化执行。
  • 自主学习与优化:根据用户反馈和任务结果不断学习和调整,优化工作方式,更好地满足用户需求。
  • 实时交互与协作:用户能随时介入任务执行过程,调整需求或方向,Manus灵活适应继续执行。

从我们对Manus官网提供的case分析:

  • Manus本质上并没有突破AI Agent的planning、tool call、memory的那一套大流程,还是会依赖于预设的流程来执行任务
  • 通过集成浏览器、代码执行器等大量工具,提供友好的UI交互方式,去解决更加通用的场景
  • 多Agent协同,多LLM(deepseek r1、Claude-3.7、自己post train的LLM)整合调用,不同任务分配到更擅长的模型,整体智能有较大的提升(GAIA测试结果优于Open AI的Deep Research)

综上,Manus是一个集成了浏览器和操作系统,各类推理、意图识别模型,UI体验十分友好的AI Agent产品,可以看成是现有的vm+Code Agent+Claude Artifacts+DeepSearch的结合


2 Manus核心组件拆解

从官网提供的几个Case,Manus至少包含了以下几个核心组件:

  • Reasoning Model:负责任务拆解、调度与审核。有可能是Deepseek R1或者COT等推理框架实现。
  • DeepSearch&Brower Use:负责深度搜索以及浏览器操作,包括点击、滚动等,搜索关键信息。
  • Code Agent:负责编写Python、Html等代码。从代码效果、准确率来看,有可能是Claude-3.7负责代码生成能力。
  • Computer Use:负责控制操作系统,比如保存、编辑文件,创建文件夹,执行脚本命令等。
  • APIs:负责调用外部系统。

2.1 推理模型

推理模型在Manus中主要扮演任务拆解、调度、任务完成审核的角色,在任务开始时,根据用户提供的信息,拆解为子任务,并将子任务写入到todo.md文档中。在每次任务完成后,会审核任务,并标记任务已经完成。

  • [ ]:表示待执行的任务
  • [x]:表示已经完成的任务

2.2 深度搜索&浏览器控制

DeepSearch就是我们常说的深度搜索,DeepSearch 的核心理念是通过在搜索、阅读和推理三个环节中不断循环往复,直到找到最优答案。

以下是Perplexity深度搜索的一个案例,遵循了搜索、阅读、推理循环的过程。

在Manus上,我们也可以看到非常多DeepSearch相关的case,同样是搜索、浏览、分析的循环。

浏览器操作,也就是Browser Use能力。

经过分析,Manus在浏览网页时,不仅仅是爬取网页的文本内容,他会不断滚动网页,点击链接进入下一层网页,直至定位到关键信息后才结束网页浏览。

因此猜测,Manus将Browser Use与视觉模型能力结合,通过视觉识别定位关键信息。

2.3 Code Agent&访问操作系统

Code Agent比较好理解,就是根据任务的需要,编写代码完成任务,包括但不限于:

  • 编写网页代码呈现结果
  • 编写数据分析代码制作报表
  • 甚至与操作系统的交互也可能是通过编写代码实现的,比如文件编辑,PPT、Excel生成,压缩打包等

以下是Manus编写的python代码实现数据分析,以及网页代码展示展示搜索数据。

2.4 有限的外部API调用

Manus的外部API调用并没有直接展示在交互界面上,而是隐藏在了代码中,如下特斯拉股票分析的案例中,就调用了雅虎金融的API获取股票数据。


3 官网案例介绍

先从逻辑上介绍下Manus的工作原理,官网上的demo基本都遵循以下的工作流程。

从这点其实也能看出来,Manus是按照一定的 预定义 的流程(pre-defined flow)去处理问题,其中包含了一定的** 人为决策因素**** 。**

接下来我们逐步分析官网上的一个demo:移动互联网流量数据分析

  • 理解用户意图,建立工作文档,拆分子任务

    拆解任务

    任务被拆分为4步:

    • 数据收集
    • 数据分析
    • 数据可视化
    • 输出数据报告

    任务规划文档


  • 执行第一个任务:数据收集

    不断的浏览网页,将网页内容下载成本地文件,待后续处理

    浏览网页搜集数据

    当遇到当前网页内容不符合需求时,会尝试点击页面元素进入下一层级网址

    因此,这里猜测使用到了视觉模型的识别能力。

    视觉识别网页元素并点击


  • 自动生成可视化代码,并执行

    这就是使用了python中matplotlib的可视化能力

    编写可视化代码

    可视化工具

    最终可视化的图表

    可视化输出


  • 完成数据收集和图表绘制,开始撰写报告文档

    撰写报告文档


  • 任务完成,todo.md中的任务全部标记x

    标记任务已经完成



4 Manus相较于目前的AI搜索引擎

在Manus出来之前,最与之接近的产品应该算是devin,但devin聚焦通过多智能体的方式以解决编程领域的问题,而Manus则希望作为一个多智能体解决通用领域的问题。

未来Manus的定位很有可能作为一个搜索入口,相较于Perplexity这类AI搜索引擎只能够提供文本+链接的内容,Manus通过整合各种强大的LLM、Agent、Computer Use、Browser Use的能力,能够提供更加丰富且更加智能的交付件,比如网页、工作文档、甚至一个小的工程项目。

最终的Dashboard

联系我

当前时间:
--:--
邮箱:
xwtaidev@gmail.com
电话:
-
社交媒体:
LinkedIn
给我留言: