当前位置：网站首页软件教程正文

Mobile-Agent-v2: 强大的移动设备操作助手

来源：互联网发布时间：2024-07-08 17:14:03

阿里和北交大的Mobile-Agent-v2 发布了Mobile-Agent-v2，一款通过多智能体协作实现有效导航的移动设备操作助手，它通过多代理协作实现了对移动设备的自动化操作和视觉感知功能，让ai可以像真人一样模拟点击、滑动、输入等操作来操控你的手机，从而执行各种任务。

Mobile_Agent_v2:强大的移动设备操作助手

Mobile-Agent-v2背景

传统上，移动设备操作任务在多任务处理方面存在不足，这主要是由于当前多模式 LLMs (MLLM) 中导航和焦点管理的限制。这种限制的后果包括长序列和混合数据格式的性能下降，使得任务进度和焦点内容的有效导航特别具有挑战性。基于 MLLM 的代理的出现，通过工具调用来增强 MLLM 的扩展功能，带来了新颖的解决方案，但它们无法解决移动设备操作中固有的导航问题。

而Mobile-Agent-v基于多Agent架构的纯视觉解决方案，具有更强的任务分解、跨应用操作、多语言能力。

Mobile-Agent-v2架构和方法论

Mobile-Agent-v2 引入了由三个专门代理组成的多代理系统：规划代理、决策代理和反射代理。每个代理都扮演着不同的角色，共同增强导航和决策过程：

规划代理：该代理通过将这些历史总结并压缩为可管理的纯文本任务进度来解决冗长操作历史的复杂性。该任务进度移交给决策代理，通过减少上下文长度来促进更轻松的导航和决策。

决策代理：决策代理在视觉感知模块内运行，处理浓缩的任务进度并做出明智的操作决策。它负责用相关的焦点内容更新内存单元，以便将来的步骤参考。此功能确保代理可以根据过去的屏幕保持准确的焦点上下文。

反射代理：为了管理和纠正潜在的错误操作，反射代理会相对于预期结果评估每个操作的结果。通过分析操作前后的屏幕变化，对错误和无效操作进行识别、分类和响应，从而增强任务执行的可靠性。

Mobile_Agent_v2:强大的移动设备操作助手

Mobile-Agent-v2场景应用

搜索和购买商品：在购物应用中自动搜索商品、添加到购物车并完成购买。

邮件发送：在 Gmail 中自动填写和发送邮件。

导航：在 Google Maps 中自动进行导航操作。

视频观看：在 YouTube 中搜索并评论特定视频。

相比Mobile-Agent：依赖单一代理执行任务。Mobile-Agent-v2：引入了多代理协作架构，通过多个代理协同工作，实现更高效的导航和任务执行。

实验结果表明，相对于之前的移动代理架构有了实质性的改进。 Mobile-Agent-v2 的任务完成率提高了 30% 以上，凸显了多代理协作的功效。涉及多步骤和交错模式的任务可以从新架构中受益匪浅，因为它可以有效地导航和管理移动设备操作的复杂性。

Mobile-Agent-v2论文：https://arxiv.org/abs/2406.01014

Mobile-Agent-v2代码：https://github.com/X-PLUG/MobileAgent

Modelscope-agent：https://github.com/modelscope/modelscope-agent

相关教程

《腾讯视频》11月5日最新vip共享账号分享腾讯视频是一款非常热门的视频软件，在软件中有很多视频需要会员才能观看，今天小编为大家带来了腾讯视频11月5日最新vip共享账号分享，大家可以在下方使用账号密码登录腾讯视频，这样
软件教程 06-20
《虎牙直播》小窗播放方法介绍虎牙直播应该怎么小窗播放？虎牙直播小窗播放的流程是什么样的？虎牙直播是一款非常好用的手机直播软件，最近有很多的用户不知道虎牙直播小窗播放的流程是什么样的，接下来就由小编为
软件教程 06-06
《高德地图》国道路线设置方法详细介绍高德地图国道路线如何进行设置？高德地图如何设置不走高速？在高德地图app当中用户可以设置不走高速，只走国道，但是很多小伙伴都不知道如何设置，其实非常的简单，一起来看看今天的
软件教程 06-01

产业资讯

游戏下载 +

最强射手大对决手游

类型：游戏下载大小：91.96M
下载
穿越恐龙时代最新版

类型：游戏下载大小：104.54M
下载
海底神龙进化官方版

类型：游戏下载大小：16.63M
下载
猜字疑案手游

类型：游戏下载大小：83.92M
下载
天空之翼飞行任务游戏

类型：游戏下载大小：29.04M
下载

近期热点 +

最新软件教程 +

07-08

数字货币杠杆合约是什么？数字货币杠杆合约教程数字货币杠杆合约是什么？数字货币杠杆合约教程数字货币杠杆合约其实就是一种金融衍生品，投资者可以利用杠杆放大在数字货币价格变动的仓位，这时候就有很多用户想要知道这个杠杆合约
07-08

Seed-TTS：字节跳动开发的高质量文本到语音TTS模型最近，TTS领域爆发了。就在chatTTS开源之后，Byte发布了seed-tts，效果很好。Seed-TTS，是由字节跳动开发的高质量文本到语音（TTS）模型，S
07-08

iost币有什么利好？Iost币的利好因素详细介绍iost币 iost币有什么利好？Iost币的利好因素详细介绍iost币很多用户都想要知道有什么利好，包括利好的因素都有哪些？现在大家对于iost币还是比较想要了解的，目前iost币还是有出现轻微下跌的
07-08

Udio更新：音频到音频、15分钟歌曲、wav下载等 ai 音乐制作商 Udio 刚刚宣布了一系列新功能，让根文本提示生成音乐变得更加容易。你可以上传任意音频片段，Udio会帮你解析旋律、和弦并
07-08

比特币节点是什么意思？比特币节点详细介绍一览比特币节点是什么意思？比特币节点详细介绍一览很多新人用户对于数字货币中有很多专业词都不了解，就像我们今天要介绍的比特币节点一样，比特币节点是和比特币网络连接的计算机，主要