怎么把自己做的网站弄到域名上,职业技能培训,网站开发文档网站,建设直播网站需要多少钱CogAgent: A Visual Language Model for GUI Agents
摘要
人们通过图形用户界面#xff08;Graphical User Interfaces, GUIs#xff09;在数字设备上花费大量时间#xff0c;例如#xff0c;计算机或智能手机屏幕。ChatGPT 等大型语言模型#xff08;Large Language Mo…CogAgent: A Visual Language Model for GUI Agents
摘要
人们通过图形用户界面Graphical User Interfaces, GUIs在数字设备上花费大量时间例如计算机或智能手机屏幕。ChatGPT 等大型语言模型Large Language Models, LLMs 可以帮助人们完成撰写电子邮件等任务但难以理解 GUI 并与之交互从而限制了它们提升自动化水平的潜力。本文介绍了CogAgent这是一个180亿参数的视觉语言模型Visual Language Model, VLM专门用于 GUI 理解和导航。通过同时使用 low-resolution and high-resolution 的图像编码器CogAgent支持分辨率为 1120 × 1120 1120\times1120 1120×1120 的输入使其能够识别微小的页面元素和文本。作为一个通用的视觉语言模型CogAgent在五个 text-rich 的基准测试和四个通用 VQA 基准测试上达到了先进的水平包括VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet 和 POPE。CogAgent仅使用屏幕截图作为输入在PC和 Android GUI 导航任务Mind2Web和AITW上超越了使用提取HTML文本的基于LLM的方法达到了先进水平。模型和代码开源于https://github.com/THUDM/CogVLM。
1 引言
数字世界中的自主代理是许多现代人梦寐以求的理想助手。想象一下这个场景您输入任务描述然后放松并享用一杯咖啡同时观看在线订票、进行 Web 搜索、管理文件和创建 PowerPoint 演示文稿等任务自动完成。 最近基于LLMs的agents的出现使我们离这个梦想更近了一步。例如拥有150,000 星的开源项目 AutoGPT [33_AutoGPT] 利用 ChatGPT [29_ChatGPT] 将语言理解与Google搜索和本地文件操作等预定义操作集成在一起。研究人员也开始开发面向智能体agent-oriented的LLMs [42_Agenttuning, 7_Fireact]。然而单纯基于语言的代理在实际场景中的潜力非常有限因为大多数应用程序通过GUIs与人类交互其特点如下
通常缺乏用于交互的标准API。图标、图像、图表和空间关系等重要信息难以用语言直接表达。即使在 text-rendered 的GUI如网页中canvas和iframe等元素也无法通过HTML解析来掌握其功能。 基于VLM的代理则有可能克服这些限制。