当前位置: 首页 > news >正文

免费视频网站大全腾讯云网页制作

免费视频网站大全,腾讯云网页制作,区块链app制作教程,服务器外面打不开网站概述 论文地址#xff1a;https://arxiv.org/pdf/2406.09403 素描是一种应用广泛的有效工具#xff0c;包括产生创意和解决问题。由于素描能直接传达无法用语言表达的视觉和空间信息#xff0c;因此从古代岩画到现代建筑图纸#xff0c;素描在世界各地被用于各种用途。儿童…概述 论文地址https://arxiv.org/pdf/2406.09403 素描是一种应用广泛的有效工具包括产生创意和解决问题。由于素描能直接传达无法用语言表达的视觉和空间信息因此从古代岩画到现代建筑图纸素描在世界各地被用于各种用途。儿童用它来解决几何问题工程师用它来解释原型建筑师用它来绘制蓝图甚至科学家也用它来传达复杂的概念和实验结果。 多模态语言建模的最新进展主要集中在通过绘制所谓的 中间草图 来简化推理的任务上。在涉及几何或复杂数学问题等主要基准测试中模型会收到图表图像并回答需要符号或空间理解的问题。此时例如在几何问题中可以通过绘制中间草图如辅助线来提高推理能力这与人们解决问题的方式相同。 计算机视觉基准具有类似的特点例如在物体检测中会在物体周围绘制一个边界框在深度估计中会根据深度绘制一个颜色图从而提高模型的检测性能。最近提出的 BLINK 和 VBench也侧重于中间草图。但与此同时对目前基于草图推理的语言模型所使用的框架还没有进行充分的研究。 本文提出的 SKETCHPAD 是一种为推理生成中间草图的工具。它受到文本排序链CoT推理的启发促使底层视觉语言模型生成视觉工件作为文本、程序和视觉推理混合链的一部分。例如在证明三角形的角度之和为 180 度时如下图a所示SKETCHPAD允许代理通过引入新的辅助线来编辑图表。然后它将提供关于这条新线和与之相关的角的补充信息并利用这些信息来解决这个几何任务。 SKETCHPAD还提高了计算机视觉中模型空间推理的性能。如上图d所示在判断一块饼干是否堆叠在另一块饼干之上时模型首先会进行中间深度估计。通过分析这一估算结果饼干显然是堆叠在一起的因此模型可以得出准确的答案。 论文展示了 SKETCHPAD 在各种数学和计算机视觉任务中的有效性。在数学方面论文涉及几何、数学函数、图形算法和策略游戏等问题。对于几何问题SKETCHPAD 会根据图表输入和问题使用辅助线和变量提示模型生成 Matplotlib 代码。即使在纯语言输入的情况下SKETCHPAD 也能让模型绘制函数图并推理其性质。这些结果表明即使是基于语言的输入SKETCHPAD 也有能力支持推理。在所有类别的数学任务中SKETCHPAD的表现都比基准GPT-4好10%左右。 计算机视觉可处理深度、空间推理、拼图、视觉对应、语义对应等各种任务以及 MMVP 和 VBench 提出的问题。在这一领域SKETCHPAD 使模型能够生成分割遮罩、裁剪图像、绘制边界框、缩放图像区域和叠加图像。与数学一样SKETCHPAD 在所有七类计算机视觉任务中始终表现出色。例如利用 SKETCHPADGPT-4 在 VBench 上提高了 14.3%在 BLINK 深度和语义对应任务上分别提高了 12.1% 和 9.7%。 此外对 SKETCHPAD 的有效性进行的分析以及对模型生成的计划和人类生成的计划进行的比较表明它们非常一致并显示出相似的推理模式。SKETCHPAD有望引发对更先进和可解释的多模态人工智能的新研究。 新的 SKETCHPAD 框架 本文提出的 SKETCHPAD 是多模态语言模型的通用框架用于绘制草图作为推理的中间步骤并利用草图进行进一步推理。下图举例说明了 SKETCHPAD 的工作原理。 输入多模态查询后SKETCHPAD 代理会生成一个草图计划思维来处理查询然后生成一个程序来生成草图操作。生成的草图观察是推理过程的可视化表示模型对其进行分析为查询生成最终输出。 在第一步 思考 “中模型分析上下文包括查询、以前的想法、行动和观察并生成下一步行动的思考计划。例如 给定上图a中的 查询查找 ∠EIC” 模型的思维计划将画出与 BD 平行的辅助线 IX。 在第二步 行动 中基于 “思想”模型会执行操作视觉和文本内容的行动。在几何图形示例中模型生成 Python 代码修改原始几何图形以绘制辅助线。生成的代码将被编译并执行。 在第三步 观察 中SKETCHPAD 环境会根据操作 返回新的观察结果。在几何示例中将返回一个带有新辅助线的新图表。 多模态语言模型可以利用这一框架立即勾勒出来无需进行微调或学习。 这个多轮交互过程一直持续到模型认为已经收集到足够的信息来回答查询为止。此时模型会生成一个特殊的退出操作并输出答案。 在传统研究中语言模型主要生成和处理基于文本的观察和行为而 SKETCHPAD 则不同它允许模型同时处理视觉和文本内容。这样模型就可以利用他们绘制的草图进行规划和推理提高解决问题的能力。 草图绘制功能是 SKETCHPAD 的核心它允许语言模型生成绘制草图的程序。这些程序通过调用各种专用视觉模型和 Python 绘图软件包来执行。与最近报道的 ViperGPT 和 VPD 类似SKETCHPAD 允许语言模型通过生成代码来绘制草图。我们为语言模型提供了详细的工具说明使其能够通过提示生成多模态内容实际提示的示例可在本文的补充材料中找到。 根据任务的不同SKETCHPAD 使用多种工具来实现草图。对于数学任务使用 matplotlib 和 networkx 等常用 Python 软件包绘制草图而对于图像任务在绘制草图时使用图像语言模型。这些模型包括在图像上绘制边界框的检测工具、绘制彩色遮罩的分割和标记工具以及对分割进行编号和标注的工具。 数学任务中的素描 在这里SKETCHPAD 被用来处理四个复杂的数学任务几何、函数、图形算法和游戏策略。我们的研究表明将草图绘制功能集成到语言模型中能显著提高数学问题的处理能力并取得新的先进成果。 首先是几何问题。在这方面画辅助线对解决问题大有帮助。正如我们刚才看到的在下图a中问题是 “求∠EIC”。在这种情况下语言模型计划画一条平行于 BD 的辅助线 IX从而利用平行线的性质求出 ∠EIC。 为了评估 SKETCHPAD 的有效性我们使用了 Geometry3K 数据集中的一个问题SKETCHPAD 将几何图形和相应的 matplotlib 代码作为输入提出并修改代码以生成辅助线运行代码并在更新代码后添加辅助线。将几何图形可视化。 其次是函数问题。函数在科学、工程和经济学的各种应用中都很重要。在此我们重点讨论IsoBench 数据集中的以下两项任务偶偶分类和凸凹判定。偶偶函数分类确定一个函数是偶函数、奇函数还是两者都不是。对于所有 x偶函数满足 f(-x) f(x)而奇函数满足 f(-x) -f(x)。凸凹判定也决定了一个函数是凸函数还是凹函数。 传统的语言模型会分析函数并试图证明其属性而 SKETCHPAD 可以通过直观地勾画函数来高效地解决问题。为了确定下图b中函数的凸性SKETCHPAD 使用 matplotlib 绘制了函数图并直观地验证了其整体形状。 下一步是图算法问题。许多与计算机网络和运输系统相关的实际问题都可以表述为图算法问题我们根据IsoBench 的以下三个图算法任务对 SKETCHPAD 进行了评估连通性、最大流量和同构性。图形连通性决定了图形中两个顶点之间是否存在路径。最大流量是指在一个有边的网络中在容量限制条件下从源顶点发送到汇顶点的最大流量。图同构决定了两个图在结构上是否等同。 如下图 (b) 所示在给出图形邻接矩阵后SKETCHPAD 会使用 Python 的 networkx 库绘制实际的图形结构从而可以直接对图形的属性和关系进行可视化推理。 最后是棋局策略。国际象棋棋局可以用不同的格式表示如可视化棋盘状态或文本程序符号。即使只给出文本程序符号SKETCHPAD 也会绘制棋盘、分析局面并制定策略评估 SKETCHPAD 在 IsoBench 数据集的胜者识别任务中的表现并根据最终棋盘状态、国际象棋找出对局结果白胜、黑胜、和棋。为了创建图形棋盘SKETCHPAD 使用 Python 国际象棋库以国际象棋的 Forsyth-Edwards Notation (FEN) 来绘制棋盘。 使用可访问 API 的多模态语言模型gpt-4-turbo-2024-04-29 和 gpt-4o-2024-05-13来评估 SKETCHPAD 的性能。这些结果与没有 SKETCHPAD 的基线、主要封闭源模型如 Claude 3 和 GeminiPro以及开源模型如 Mistral 和 LLaMA-2 70B进行了比较。 如下表所示在所有任务中SKETCHPAD 不断提高基础模型的性能GPT-4o 平均提高 18.8%GPT-4 Turbo 平均提高 13.5%。 特别是在图形连通性Connectivity和最大流量Maxflow等图形算法方面观察到了明显的改进。例如在 GPT-4o 上使用 SKETCHPAD 时最大流量Maxflow的准确率达到 66.3%比基础模型提高了 41.3%。同样在函数任务中GPT-4 Turbo 的准确率超过 90%GPT-4o 的准确率超过 88%在凸性和偶数分类任务中也有显著提高。此外在游戏策略方面也有约 20% 的提高这表明绘制的游戏棋盘提高了策略推理能力。这些结果表明SKETCHPAD 是增强多模态语言模型在多个领域的推理能力的有效手段。 计算机视觉任务中的草图绘制 在这里SKETCHPAD 被用来处理复杂的视觉推理任务。最近的研究BLINK表明目前许多多模态语言模型仍然缺乏核心的视觉识别能力。而专用计算机视觉模型则具备这种能力。此外SoM 研究表明在图像上绘制分割掩码可以利用 GPT-4V 强大的视觉支撑能力。在本文中我们将这些想法推广到 SKETCHPAD 中以便使用专用视觉模型绘制语言模型草图。 SKETCHPAD使用三个复杂的视觉推理任务VBench、MMVP 和BLINK进行实验VBench 是一个基准包含有关图像中小项的问题MMVP 是一个基准包含视觉问题旨在揭示基于 CLIP 的多模态语言模型的视觉缺陷BLINK 是一个基准包含视觉问题旨在揭示基于 CLIP 的多模态语言模型的视觉缺陷。BLINK是一个包含视觉识别任务的基准这些任务对人类来说很容易但对多模态语言模型来说却具有挑战性。具体来说它包括相对深度、空间推理、拼图、视觉对应和语义对应任务。 在 SKETCHPAD 中语言模型使用多个模块检测、分割、深度估计、滑动窗口视觉搜索和其他图像处理模块来绘制和处理图像。这些模块以 Python 函数的形式实现可由语言模型调用 检测模块将图像和文本查询如 “猫”作为输入运行 Grounding-DINO 开放词汇对象检测模型并绘制图像中检测到的边界框带数字标签。它还会返回边界框的坐标。 分割模块将图像作为输入并返回一张绘有彩色分割掩码的图像。每个掩码都有一个数字标签。基础分割模型是 SegmentAnything 和 Semantic-SAM。深度估计模块将图像作为输入并返回深度图。基础模型是 DepthAnything。 滑动窗口视觉搜索模块模仿人类在图像上搜索小物件的方式。它将文本查询作为输入并在图像上执行滑动窗口。窗口大小为图像大小的 1/3步长为图像大小的 2/9。返回检测到的图像斑块序列。 其他图像处理模块包括放大和裁剪将图像和边界框作为输入并返回框内的图像补丁和叠加图像将两幅图像和 alpha 值作为输入并返回叠加图像。 SKETCHPAD 充分利用这些模块显著提高了多模态语言模型的视觉推理能力。这为有效解决复杂的视觉任务提供了一种新方法。 在此我们在一项复杂的视觉推理任务中对多模态语言模型进行了实验比较了它们在使用和不使用 SKETCHPAD 的情况下的表现以及与主要多模态语言模型Gemini、Claude 3、LLaVA 1.5、LLaVA-NeXT的表现。资料来源如下表所示SKETCHPAD 在所有任务中都持续提高了基础模型的性能特别是带有 SKETCHPAD 的 GPT-4o 在所有任务中都取得了最新的成绩。 VBench 的表现优于 SEAL在 GPT-4 Turbo 上提高了 18.5%在 GPT-4o 上提高了 14.3%。在 BLINK 中SKETCHPAD 对 GPT-4 Turbo 的平均绝对准确率提高了 6.6%对 GPT-4o 的平均绝对准确率提高了 9.0%。 尽管 SKETCHPAD 模块只处理单幅图像但在多幅图像任务拼图、视觉对应、语义对应等中也有显著改进。SKETCHPAD 的帮助更大。总之SKETCHPAD 被证明是提高多模态语言模型在视觉推理任务中性能的有效方法。 总结 本文提出的 SKETCHPAD是一个为多模态语言模型生成中间草图的新框架。通过将辅助线、数学函数、图形和游戏可视化该框架可大幅提高复杂数学推理任务的性能。 对于视觉推理任务视觉专家已被添加到 SKETCHPAD 中LM 在推理过程中调用这些专家将预测结果可视化例如来自物体检测模型的边界框或来自分割模型的遮罩然后观察这些预测结果以便进一步规划和推理。系统。 实验结果表明SKETCHPAD 取得了新的先进成果提高了语言模型在所有任务中的性能SKETCHPAD 正在利用语言和图像的互补优势来应对日益复杂的推理挑战并使语言模型更像人类。它有望成为实现多模态人工智能的重要一步。
http://www.w-s-a.com/news/167660/

相关文章:

  • 公司网站重新备案做电商没几个能赚钱的
  • 网站开发我们都能解决怎样做网站吸引客户
  • 网站首页图片切换代码wordpress minfy
  • 什么程序做网站收录好企业搭建网站的必要性
  • 建设网站主题建站必须要域名吗
  • 网站建设海报设计购物平台网站建设框架
  • 湖北在线网站建设建一个网站迈年
  • 上班自己花钱做的网站网站首页的动态怎么做
  • 台州网站建设哪家便宜沧州最新消息今天
  • 建设网站 请示 报告wordpress会员制
  • 青岛建网站人做网站怎么赚钱广告
  • 网站建设哪家好公司跨境电商展会2023
  • 设计大神云集的网站是南通市 网站设计
  • 心理咨询网站模板企业画册封面设计
  • 做网站 南京网站建设的重难点分析
  • 深圳做网站980移动网站开发语言
  • 网站评论怎么做seo关键词优化方法
  • 市级部门网站建设自评报告网站优化文章怎么做
  • 可不可以异地建设网站学做网站培训班要多少钱
  • 茌平网站建设公司免费的云服务器有哪些
  • 手机网站单页面铜陵网站制作公司
  • 网站logo怎么做才清晰千库网官网首页登录
  • 山西省建设银行网站首页长沙网站建设制作
  • 襄阳市做网站 优帮云百度搜索次数统计
  • 自己做视频直播网站盐城做网站多少钱
  • 买个网站服务器多少钱重庆做的好的房产网站
  • 深圳定制建站网站建设推广关键词怎么设置
  • 宝山网站建设 网站外包修改wordpress版权
  • 建立网站的基本步骤新网站多久会被百度收录
  • 软件设计开发流程图廊坊关键词seo排名方案