当前位置: 首页 > news >正文

怎么做网站关键词优化外贸网站 开源

怎么做网站关键词优化,外贸网站 开源,海南房产网站制作,网站建设文章缩略图家人们谁懂#xff0c;连大模型都学会看好莱坞大片了#xff0c;播放过亿的GTA6预告片大模型还看得津津有味#xff0c;实在太卷了#xff01; 而让LLM卷出新境界的办法简单到只有2token——将每一帧编码成2个词即可搞定。等等#xff01;这种大道至简的方法有种莫名的熟…家人们谁懂连大模型都学会看好莱坞大片了播放过亿的GTA6预告片大模型还看得津津有味实在太卷了 而让LLM卷出新境界的办法简单到只有2token——将每一帧编码成2个词即可搞定。等等这种大道至简的方法有种莫名的熟悉感。不错又是出自香港中文大学贾佳亚团队。 这是贾佳亚团队自8月提出主攻推理分割的LISA多模态大模型、10月发布的70B参数长文本开源大语言模型LongAlpaca和超长文本扩展术LongLoRA后的又一次重磅技术更新。而LongLoRA只需两行代码便可将7B模型的文本长度拓展到100k tokens70B模型的文本长度拓展到32k tokens的成绩收获了无数好评。 这次贾佳亚团队的新作多模态大模型LLaMA-VID可支持单图、短视频甚至长达3小时电影的输入处理。须知当前包括GPT-4V在内的多模态模型 [1,2,3]基本只能支持图像输入面对实际场景中对多图像长视频的处理需求支持十分有限面对几十分钟甚至几个小时的长视频更显无能为力。 可以说LLaMA-VID的出现填补了大语言模型在长视频领域的空白。 电影搭子LLaMA-VID的一手体验 先拿最近爆火的GTA6预告片试试手感。 LLaMA-VID能够准确理解预告片里出现的场景并能分析预告片中游戏吸引人的地方在于广泛的活动场景和惊艳的视觉效果。 而根据游戏中的场景和特征LLaMA-VID还能推测出预告片是Rockstar公司游戏GTA6的推广并说出游戏的背景城市为迈阿密。 针对网络上流行的短视频和图片LLaMA-VID也不在话下。 LLaMA-VID能够分析短视频中知名表情包的笑点因为视频中人物夸张的表情以及对周围人物的情绪感染不断加深并强化。 也能扮演“福尔摩斯”像侦探来根据室内的环境分析人物性格。 接下来LLaMA-VID将通过看经典电影来展示自己的看家本领。首先是励志、温情的《阿甘正传》 可以看出LLaMA-VID对角色的理解与分析十分准确。 如珍妮对于阿甘的意义孩童时期的朋友后来成为阿甘的妻子是阿甘生活和心灵的慰藉阿甘在战争及退伍后的事件分析丹中尉责怪阿甘救了自己无法战死沙场并对接见阿甘的美国总统如数家珍肯尼迪、约翰逊、尼克松分别因为全美橄榄球运动员、越战荣誉勋章、和全美乒乓球队接见阿甘。 这一次直接挑战超长视频让LLaMA-VID看一部近3小时的、刺激的科幻大片《星际穿越》并与其进行对话。 可以看出LLaMA-VID不仅能结合电影情节和人物轻松对电影进行点评而且能很精准地回答出剧中所涉的细节。 例如虫洞的作用和创造者是谁未来的智慧生物放置在土星附近用于帮助人类进行远距离星际穿越男主库珀是如何将黑洞中的信息传递给女儿墨菲通过手表以摩斯密码的方式传递数据以及米勒星球上相对地球时间的快慢及原因米勒星球由于在黑洞附近导致1小时相当于地球7年。 不得不说这个电影搭子实在太强大了又狠话又多那种 16个图片视频量化指标直接Promax 见识过电影搭子的超能力后不妨来看看贾佳亚团队是如何开发LLaMA-VID的。 要知道当前的多模态模型无法处理长视频的主要原因在于传统多模态大模型对单张图片的编码token数量过多导致在视频时间加长后所需要的token数急剧增加使模型难以承受。 以当前多模态大模型的技术标杆GPT-4V为例。由于每张图像都需要过多的Token进行编码GPT-4V很难将所有的视频帧全部送入大模型。例如对于GTA6预告片1分30秒的输入GPT-4V采用抽取5帧的策略进行逐帧分析 这不仅会使用户对视频内容无法获得直观的理解并难以处理更长的视频输入。 如果让GPT-4V对视频进行统一分析则会出现报错并无法处理 为解决这个问题贾佳亚团队重新设计了图像的编码方式采用上下文编码 (Context Token) 和图像内容编码 (Content Token) 来对视频中的单帧进行编码从而将视频中的每一帧用2个Token来表示。 其中上下文编码根据用户输入的问题生成从而保证了在极限压缩视频消耗的同时能尽可能保留和用户问题相关的视觉特征。而图像内容编码则更加关注图像本身的内容信息来对上下文编码未关注到的环境进行补充。 简单来说对于上下文编码 (Context Token)LLaMA-VID利用文本解码器Text Decoder根据用户的输入和图像编码器Visual Encoder提取的特征来生成输入指令相关的跨模态索引Text Query并使用所生成的索引对图像编码器生成的特征利用注意力机制Context Attention进行特征采样和组合从而生成高质量的指令相关特征。 而对于图像内容编码 (Content Token) LLaMA-VID直接根据用户需求对图像特征进行池化采样。这对于单张图片或短视频可保留绝大多数的图像特征从而提升细节理解而面对几个小时的长视频时则可将每帧的图像特征压缩成2个Token。 用这种方式LLaMA-VID可以将3个小时的电影或视频精简为数个Token直接使用大语言模型进行理解和交互。 这种Token生成方法非常简洁仅需几行代码即可实现高效的生成。 此外LLaMA-VID还收集了400部电影并生成9K条长视频问答语料包含电影影评、人物成长及情节推理等。结合之前贾佳亚团队所发布的长文本数据集LongAlpaca-12k9k条长文本问答语料对、3k短文本问答语料对, 可轻松将现有多模态模型拓展来支持长视频输入。 在16个视频、图片理解及推理数据集上实现了promax的效果 与现有方法相比LLaMA-VID所提出的创新之处在于仅用2个Token来处理视频中的图片即已大幅超越以往的模型,在MSVD-QAMSRVTT-QAActivityNet-QA等多个视频问答和推理的榜单上实现了SOTA。而随着语言模型的增大效果还能进一步增强。 而面对现有的多模态模型如LLaVA-1.5LLaMA-VID仅需加入1个所提出的上下文编码 (Context Token)拓展能在GQA、MMBench、MME、SEED等8个图片问答指标上获得显著的提升 值得一提的是LLaMA-VID的视频理解和推理能力已经出了Demo可以在线跟电影对话的那种。 操作也极其简单只需选择电影海报和对应的电影段即可直接和电影交流部署在单块3090需要的小伙伴可以参考code用更大的显存部署直接和整个电影对话。 同时也支持用户上传短视频进行互动。 如果对描述指令有疑惑的Demo也给出了一些示例感兴趣的小伙伴们不妨来pick一下这个电影搭子。 参考文献 [1] Hang Zhang, Xin Li, and Lidong Bing. Video-llama: An instruction-tuned audio-visual language model for video understanding. arXiv:2306.02858, 2023. [2] KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, and Yu Qiao. Videochat: Chat-centric video understanding. arXiv:2305.06355, 2023. [3] Muhammad Maaz, Hanoona Rasheed, Salman Khan, and Fahad Shahbaz Khan. Video-chatgpt: Towards detailed video understanding via large vision and language models. arXiv:2306.05424, 2023.
http://www.w-s-a.com/news/524244/

相关文章:

  • 广东公司响应式网站建设设计seo系统是什么
  • 清丰网站建设费用网站建设的前途
  • 网站上那些兼职网页怎么做的北京网页
  • 桂林建站平台哪家好品牌设计公司宣传文案
  • 平面设计和建设网站的区别公司官网静态
  • h5网站建设+案例住房住房和城乡建设部网站
  • 建设股公司网站东莞建设网网上平台
  • 湖州吴兴建设局网站加强网站建设的
  • 茌平做网站公司专业商城网站建设报价
  • 网站结构图怎么画wordpress注册不发送件
  • 个人备案网站可以做论坛吗电商推广方式有哪些
  • 网站建设 自适应国内最近的新闻
  • 校园网站开发背景吴江网站建设公司
  • 网站开发工程师发展趋势山东省建设工程电子信息网站
  • 适合大学生创业的网站建设类型吉林省舒兰市建设银行网站
  • 呼和浩特网站建设哪家好培训学校加盟费用
  • 网站如何做友情链接有道云笔记WordPress
  • 贵阳企业网站建设制作赤峰浩诚网站建设公司
  • asp官方网站微信模板素材
  • wordpress 留言给站长发邮件做百度推广员赚钱吗
  • 北京建站公司做网站价格专门找人做软件的网站
  • 商务网站的特点ui软件界面设计
  • 广州个性化网站开发网站索引量是什么意思
  • 公司网站制作专业公司python做后台网站的多吗
  • 桂林建站平台哪家好给别人做网站怎么收取费用
  • python做网站显示表格用visual做的网站
  • 彩票网站建设需要什么聊城网站建设首选天成网络
  • 安徽建设工程网站wordpress标签云代码
  • 推荐佛山顺德网站建设手机网站建设域名空间
  • 电子商务网站建设策划书例子企业官网用什么cms系统