Apple推出FerretUI多模态移动界面理解超越GPT4V

Apple推出FerretUI多模态移动界面理解超越GPT4V-2

Apple公司最近推出了一款名为Ferret-UI的新型多模态大型语言模型(MLLM),该模型专门针对移动用户界面(UI)的理解进行了优化。Ferret-UI具备卓越的参考、定位和推理能力,旨在提高与移动UI屏幕的交互效率。

Apple推出FerretUI多模态移动界面理解超越GPT4V-3

尽管多模态大型语言模型在各个领域取得了显著进展,但它们在理解和与UI屏幕有效交互方面仍存在局限。与传统的模型相比,Ferret-UI通过引入“任意分辨率”技术,能够放大UI屏幕上的细节,从而更好地处理视觉元素。这一技术通过将屏幕分割成两个子图像(纵向屏幕为垂直分割,横向屏幕为水平分割),并对这些子图像进行分别编码,以实现更精确的屏幕解析。

Apple推出FerretUI多模态移动界面理解超越GPT4V-4

为了训练Ferret-UI,Apple公司收集了大量来自基础UI任务的训练样本,这些任务包括图标识别、文本查找和部件列表等。这些样本都经过了特殊的格式化处理,并附带了区域注释,以便模型能够更准确地进行参考和定位。此外,为了进一步提升模型的推理能力,还编制了一个包含高级任务的额外数据集,这些任务涵盖了详细描述、感知/交互对话和功能推断等方面。

Apple推出FerretUI多模态移动界面理解超越GPT4V-5

经过在这些精心策划的数据集上进行训练,Ferret-UI已经展现出了对UI屏幕的出色理解能力,并能够执行各种开放式指令。

Apple推出FerretUI多模态移动界面理解超越GPT4V-6

Apple推出FerretUI多模态移动界面理解超越GPT4V-7

Apple推出FerretUI多模态移动界面理解超越GPT4V-8

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/274.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>