关闭广告

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者2639人阅读


这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月,论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成,他们致力于解决人工智能在GUI(图形用户界面)自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中,我们每天都要与各种软件界面打交道——从手机应用到电脑程序,从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素,将会极大提升工作效率。然而,要让AI准确找到屏幕上的按钮、文本框或菜单项,就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题:如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现,现有方法就像让一个盲人通过触摸来画地图一样效率低下,因为AI模型需要在没有明确参照物的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

搭载1.5T插混系统 探岳L PHEV申报图曝光

网易汽车 浏览 1587

美股三大股指集体收跌 人工智能概念股持续遭抛售

中新经纬 浏览 1933

这谁能想到!能伸手“救”日产汽车一把的,会是比亚迪

小李车评李建红 浏览 2575

三镇小将姜利勋:中超首秀还是有点放不开,教练一直在鼓励我

懂球帝 浏览 676

短剧翻拍《新英雄本色》,刘萧旭主演?

最爱酷影视 浏览 2761

大型SUV“搅局者”:奇瑞风云T11叫板头部玩家

一品汽车 浏览 2483

千年《琵琶行》,预制“公关秀”

时尚COSMO 浏览 2567

时隔23年,国米和罗马再次在意甲至少10轮过后同分领跑

懂球帝 浏览 2404

弹无虚发,凯恩德甲18次罚点全中

体坛周报 浏览 2680

业主反映多户顶楼业主违规加盖房屋 持续多年无法拆除

红星新闻 浏览 6474

A股板块轮动加速 基金净值“跑偏”泄露调仓动向

证券时报 浏览 3259

山东“入室抢婴案”一审宣判 4名被告人最高获死缓

环球网资讯 浏览 13129

今日热点:电影《震耳欲聋》定档1004;《惊天魔盗团3》发布新预告……

伊周潮流 浏览 4490

中国男排主帅海宁现身全运会,称需建立不同于女排的培养体系

懂球帝 浏览 2355

檀健次干什么了?4天两波瓜太抓马!

阳春三月天晴 浏览 1650

张水华开直播官宣周五出发周末战重

劲爆体坛 浏览 1543

《求是》杂志特约评论员:改善和稳定房地产市场预期

365财经plus 浏览 1701

泽连斯基:若不能及时获得资金 将大幅削减无人机生产

每日经济新闻 浏览 12600

中方回应后特朗普态度又变 美财长拿30万中国留学生说事

现代小青青慕慕 浏览 7088

票房从13.65亿跌到1730万,我五味杂陈:这块金字招牌算是砸了

靠谱电影君 浏览 2657

消息称华为 WATCH Ultimate 2 手表明日露出,预估 6000~7000 元

IT之家 浏览 2356
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1