Apple推出FerretUI多模态移动界面理解超越GPT4V

clash • 2026年1月18日 am7:40 • shadowrocket, Shadowrocket下载, Shadowrocket官网, Shadowrocket节点, 小火箭

Apple公司最近推出了一款名为Ferret-UI的新型多模态大型语言模型（MLLM），该模型专门针对移动用户界面（UI）的理解进行了优化。Ferret-UI具备卓越的参考、定位和推理能力，旨在提高与移动UI屏幕的交互效率。

尽管多模态大型语言模型在各个领域取得了显著进展，但它们在理解和与UI屏幕有效交互方面仍存在局限。与传统的模型相比，Ferret-UI通过引入“任意分辨率”技术，能够放大UI屏幕上的细节，从而更好地处理视觉元素。这一技术通过将屏幕分割成两个子图像（纵向屏幕为垂直分割，横向屏幕为水平分割），并对这些子图像进行分别编码，以实现更精确的屏幕解析。

为了训练Ferret-UI，Apple公司收集了大量来自基础UI任务的训练样本，这些任务包括图标识别、文本查找和部件列表等。这些样本都经过了特殊的格式化处理，并附带了区域注释，以便模型能够更准确地进行参考和定位。此外，为了进一步提升模型的推理能力，还编制了一个包含高级任务的额外数据集，这些任务涵盖了详细描述、感知/交互对话和功能推断等方面。