
这项由南京大学、商汤科技、南洋理工大学、上海人工智能实验室、香港大学、西安交通大学联合开展的研究好配资炒股开户官网,以预印本形式发布于2026年4月,论文编号为arXiv:2604.15093,有兴趣深入了解的读者可通过该编号在arXiv平台查阅完整原文。
手机屏幕上那些繁琐的操作,有没有可能交给AI来做?打开某个App、找到某个设置、按照你的要求完成一系列步骤——这类"手机助手"的想法并不新鲜,但真正能用的系统,过去几乎是各大科技巨头的专属领地。这篇论文要讲的,就是一群研究者如何打破这道壁垒,用开源的方式为普通研究者和开发者铺平道路。
研究者们给自己的成果起名叫"OpenMobile"。这个名字里的"Open"不是噱头,而是一种宣言:他们把训练AI手机助手所需的数据合成方法、代码和数据集全部公开,让任何人都可以用来训练自己的AI助手。在这之前,行业里最顶尖的AI手机助手——比如Step-GUI、MAI-UI、UI-Venus-1.5、MobileAgent-v3.5——在一个叫做"AndroidWorld"的标准测试上,成功率已经接近70%。这个数字听起来不算惊人,但要知道,这些任务涉及真实的手机操作,每一步都需要AI真正"看懂"屏幕、"想清楚"该怎么做。然而,这些顶尖系统背后的训练数据全部保密,外界完全不知道它们是怎么练出来的。与此同时,依赖公开数据集训练的开源模型,在同样的测试上只能达到30%左右,差距悬殊。
OpenMobile的目标,就是填平这道鸿沟。
一、手机AI助手究竟在做什么
在深入了解OpenMobile的具体做法之前,有必要先搞清楚这类AI助手到底是怎么工作的。
把AI手机助手比作一位新来的实习生或许更好理解。你把一部陌生的手机交给这位实习生,告诉他"帮我在日历App里创建一个明天上午十点的会议"。这位实习生需要先看清楚屏幕上的内容(相当于AI"读取"截图),然后判断该点哪里(相当于AI决定执行什么操作),一步步完成任务。更关键的是,如果某一步走错了,他还得能意识到出错了,并想办法纠正。
这类AI系统在学术上叫做"视觉语言模型驱动的移动端智能体",说白了就是:能看懂手机屏幕图像、又能理解人类指令的AI,在手机上帮你干活。训练这样的AI,需要大量的"剧本"——也就是每个任务对应的操作轨迹:从第一步点了哪里,到最后任务完成,每一步都有记录。有了这些剧本,AI才能通过模仿学习,慢慢掌握如何操作手机。
问题在于,高质量的剧本很难获得。人工一条一条地标注成本极高,而且人工标注往往存在噪声和错误。更麻烦的是,即便有了剧本,如果剧本里只有"一切顺利"的情况,AI在现实中遇到自己犯错的情况时就会手足无措——它从来没见过出错之后该怎么办。
OpenMobile针对这两大难题,分别设计了两个核心解决方案。
二、给AI建一张"App功能地图"
解决第一个难题——如何自动生成大量高质量任务指令——OpenMobile采用了一种颇具新意的方法。
现有的主流做法,通常是让AI在App里随机点来点去,然后根据它走过的这条路径来编一个任务。这就像一个人在城市里随便走了一条街,然后根据这条街的见闻编一个旅游攻略。问题是,一条街的见闻太局限了,你根本不知道这座城市还有多少角落、多少有趣的地方。
OpenMobile的做法完全不同。研究团队把这个过程拆成了两个阶段。
第一阶段,先让AI在App里广泛探索,把遇到的所有不同页面都记录下来,就像绘制一张地图。在这个过程中,AI每走一步,都会把当前页面的截图和它能到达的相邻页面记下来。由于不同的探索路径会经过相同的页面,研究者用一种叫"感知哈希"的技术来识别"这两张截图其实是同一个页面",避免重复记录。最终,所有探索路径被整合成一个统一的结构,研究者称之为"全局环境记忆"。可以把它理解为一张完整的App功能地图,标注了每个页面有哪些功能,以及页面之间如何跳转。
第二阶段,才是生成任务指令。对于地图上的每一个页面,研究者不仅给AI看这个页面本身的内容,还额外提供两类信息:一是"短期记忆",也就是这个页面相邻的几个页面(你从这里能直接到哪里、从哪里能来到这里);二是"长期记忆",也就是整个App里和这个页面功能相关但可能相距很远的其他页面的功能描述。这种"长期记忆"是通过语义相似度检索获取的,类似于你在图书馆找书时,系统会推荐主题相关的其他书目。
有了这三层信息,一个强大的视觉语言模型就能生成既多样又有根据的复合型任务指令——不是简单的"打开设置",而是"在音频录制App里,把录音格式改成WAV、采样率设为48kHz、声道设为立体声,然后录一段短音频保存"这种复杂指令。生成的指令还要经过质量过滤(评分过低的删掉)和去重(语义太相似的只保留最好的一条),最终得到一批高质量的任务指令集。
这种把"探索"和"生成"分开的设计,带来了实质性的好处。研究者做了人工评估:让有经验的评测者把OpenMobile生成的指令和两种基线方法做对比,结果发现OpenMobile的指令在"难度和复杂性"方面明显更胜一筹,而"合理性和可执行性"同样没有下降。在实际训练效果上,用相同数量(1500条)的轨迹数据训练,OpenMobile的方法让AI在AndroidWorld测试中达到48.3%的成功率,而另外两种基线方法分别只有34.1%和45.3%。
三、教AI如何从错误中爬起来
有了任务指令,接下来就要让AI实际执行这些任务,把执行过程录制成"剧本",再用来训练AI。这就引出了第二个核心挑战:如何收集既高质量又包含"犯错与纠错"经验的剧本。
最常见的做法叫"专家蒸馏",也就是让一个已经很厉害的AI(专家模型)去执行任务,把它的操作过程录下来,让待训练的AI(学习者模型)去模仿。这个方法的优点是剧本质量高,缺点是剧本里全是"教科书式"的完美操作,学习者从来看不到犯错之后该怎么办。到了真实使用场景中,学习者一旦犯错,就会手足无措,不知道如何纠正。
另一种做法叫"自我进化",让学习者自己去执行任务,成功的才留下来,然后重新训练,循环往复。这种方法的好处是学习者见过自己犯错的情况,缺点是进步非常慢,而且学习者的能力上限就是它自己当前的水平,很容易陷入瓶颈。
OpenMobile提出了一种融合两者优点的"策略切换轮转"方法。核心思路是:让学习者去执行任务,但旁边有一个"监考老师"(由强大的视觉语言模型担任)实时盯着学习者的每一步。一旦监考老师发现学习者偏离了正确轨道——比如连续点错、陷入循环、完全没有向目标靠近——就立刻让专家模型接管,帮学习者纠正轨迹,把任务推回正轨。专家介入至少执行三步后,再把控制权还给学习者。
这个过程中,监考老师还会把检测到的"偏差分析"告知专家模型,帮助专家更好地理解当前的失败模式,从而给出更有针对性的纠正操作。整个纠错过程在一次任务执行中最多触发两次。
研究者特别指出,他们测试了多种切换策略:完全靠专家、完全靠学习者自我进化、随机切换(两个模型不一致时随机决定用谁)、以及上述的"错误介入切换"。结果显示,错误介入切换策略在每条轨迹中平均包含1.56个"错误与纠错"片段,远高于专家蒸馏的0.42个和自我进化的0.10个。随机切换虽然包含了0.64个,但由于切换时机混乱,剧本质量参差不齐,最终训练效果(45.1%)并没有比专家蒸馏(44.8%)好多少,而错误介入切换则达到了48.3%。
训练之后,研究者还专门测试了模型在实际执行中"发现错误、分析错误、纠正错误"三个维度的能力。结果表明,用OpenMobile数据训练后的模型,在这三个维度上都明显优于基础模型,尤其是纠正错误的能力提升最为显著——提升幅度达到了66%。
四、数据集长什么样,效果怎么样
按照上述两大方法,研究团队在AndroidWorld提供的安卓模拟器环境上,针对20个安卓App,生成了约2800条任务指令,对应34000个操作步骤。每条执行轨迹平均包含12.2个步骤,每步附带平均129个词的"思维链推理"——也就是AI在做每一步操作之前,先用文字解释自己为什么这么做。这部分思维链由专家模型重新撰写,以保证质量。
研究者用这批数据分别微调了两个基础模型:Qwen2.5-VL-7B(70亿参数)和Qwen3-VL-8B(80亿参数)。前者没有经过专门针对图形界面的大规模预训练,用来检验数据本身的价值;后者本身已经是更强的基础模型,用来探索性能上限。
在AndroidWorld测试上,Qwen2.5-VL基础版本的成功率是25.5%,经过OpenMobile数据微调后跃升到51.7%,提升了超过25个百分点。Qwen3-VL基础版本原本已经有47.6%,微调后达到64.7%,与Step-GUI-8B(67.7%)、MAI-UI-8B(70.7%)等行业顶尖闭源系统相比已经相当接近。
更能说明问题的是泛化能力。OpenMobile的数据是在AndroidWorld的环境里收集的,但研究者还在另外两个完全不同的测试平台上评估了模型。AndroidLab包含9个App的138个任务,Qwen3-VL版本达到51.5%,而同类开源数据方法的最好成绩(ScaleCUA)只有30%。MobileWorld是一个更难的测试,专门考察需要跨越多个App、长达数十步的复杂任务,Qwen2.5-VL版本从7.7%提升到14.8%,Qwen3-VL版本从9.4%提升到17.7%,相对提升幅度超过50%。这说明OpenMobile的训练方法让AI获得的不只是"背题",而是真正的通用操作能力。
研究者还测试了用更大模型(720亿参数的Qwen2.5-VL-72B)微调的效果,AndroidWorld成功率达到59.3%,进一步验证了"数据质量好、模型越大效果越强"的规律。此外,他们也尝试了强化学习方法——包括单步奖励的强化学习和完整轨迹级别的强化学习——但发现这些方法在动态测试环境下的提升并不稳定,最终表现未能超越标准的监督微调。研究者认为,这可能与当前环境的多样性限制和强化学习框架的稳定性有关,留待未来研究解决。
五、这是真本事还是"背了答案"
每当一个开源模型在某个测试集上取得好成绩,总会有人问:它是真的变强了,还是只是偷偷"背了答案"?这个疑虑在OpenMobile这里尤其合理,因为训练数据就是在AndroidWorld同款环境里生成的。
研究者对此做了非常透明的分析。他们用一个专业的语义相似度模型,计算了每一条合成训练指令和AndroidWorld测试集里每一条测试指令之间的相似度,然后和两个公开数据集(AndroidControl和AMEX)做了对比。结果是:OpenMobile的合成指令确实比公开数据集更接近测试指令,这是符合预期的,毕竟都是在同一个App环境里生成的。但是,相似度超过0.7的指令只占全部合成指令的3.5%,大多数指令只是在功能层面有些重叠,而不是字面上的重复或改写。
更有说服力的是下面这个实验:如果把最相似的那部分训练数据删掉,看看模型成绩会怎么变化,再对比随机删除同等数量数据的情况。删掉10%最相似的数据,成绩只是微小下降,说明性能并不是脆弱地依赖于少数几条"近似题目"。但当删除比例增加到40%以上时,性能开始明显下滑,并且比随机删除下滑得更快。研究者对此给出了合理解释:删掉相似指令,同时也删掉了覆盖某些核心App功能的训练样本,相当于把某项技能的练习材料全删了,自然会影响表现。
这引出了研究者对"为什么OpenMobile数据有效"的核心解释:功能覆盖率。他们用一个语言模型把每个测试任务分解成所需的原子功能(比如"在日历App里创建活动"分解为"打开日历"、"创建新事件"、"设定日期"、"设定标题"等),然后统计训练数据中覆盖了多少比例的这些原子功能。随着合成指令数量增加,功能覆盖率稳步上升,而且OpenMobile始终高于同等数量的耦合基线方法。进一步的分析还发现,任务需要的功能越多(任务越复杂),成功率越低;而训练数据覆盖了越多相关功能,成功率越高。这说明OpenMobile的训练价值不在于"见过类似的题目",而在于"覆盖了足够多的操作技能"。
说到底,OpenMobile的贡献是多层次的。在技术层面,它提供了一套可以被任何人复现和使用的数据合成框架,把"全局环境记忆"和"策略切换轮转"这两个创新设计系统地结合在一起。在实验层面,它在三个独立的动态基准测试上全面验证了方法的有效性,并且对数据污染风险做了难得一见的透明分析,这在整个领域都属于少见的严谨态度。在社区价值层面,它公开了数据和代码,让开源社区有了一个可以继续迭代的坚实起点。
当然,OpenMobile也有它坦承的局限。目前的训练数据只覆盖20个App,环境多样性有限。强化学习方向的尝试尚未取得一致性突破,原因可能和模拟器环境的广度不够有关。此外,即便是64.7%这个成绩,和最顶尖的73.7%相比仍有差距,说明数据质量和基础模型能力两者缺一不可,仅凭开放数据合成还不足以完全追平顶尖闭源系统。
手机里那位真正懂你、帮你干活的AI助手,距离普通人的日常生活正在变得越来越近。而让这一切变得更加公平、更加透明的努力,或许正是整个领域长远进步的底气所在。
Q&A
Q1:OpenMobile和其他手机AI助手相比,优势在哪里?
A:OpenMobile最大的优势在于它是完全开源的——数据、代码和合成方法全部公开。以前表现好的手机AI助手,比如Step-GUI和MAI-UI,训练数据全部保密,外界无法复现或改进。OpenMobile让任何研究者都能用同样的方法训练自己的模型,同时在AndroidWorld测试上,它训练出的模型成功率从约30%跃升到64.7%,已经非常接近顶尖闭源系统,而且在其他两个测试平台上也展示出了不错的泛化能力。
Q2:OpenMobile的训练数据会不会是靠"背答案"得高分的?
A:研究者对此做了专门的验证。他们计算了训练数据和测试题目之间的语义相似度,发现只有3.5%的训练指令与测试指令相似度超过0.7,不存在大规模照搬测试题的情况。而且当把最相似的一小部分训练数据删掉时,模型成绩只是小幅下降,说明性能靠的是广泛的功能覆盖而非少数几条近似题目。
Q3:普通用户什么时候能用上OpenMobile训练出来的手机助手?
A:OpenMobile目前是一个研究框架,训练出的模型需要在安卓模拟器或真实设备上部署好配资炒股开户官网,还不是一个开箱即用的消费级产品。不过由于代码和数据全部公开,开发者社区可以在此基础上继续开发,未来集成进真实手机助手应用的可能性是存在的。目前距离普通用户直接使用还需要更多工程化工作。
恒信证券提示:文章来自网络,不代表本站观点。