当前位置：首页 > news >正文

海南省建设培训与执业资格注册中心网站手机开发网站怎么做

news 2025/12/30 15:22:11

海南省建设培训与执业资格注册中心网站,手机开发网站怎么做,seo优化软件哪个好,做网站广告多少钱我自己的原文哦~ https://blog.51cto.com/whaosoft/12815167 #OpenAI很会营销而号称超强AI营销的灵感岛实测成效如何#xff1f; OpenAI 是懂营销的#xff0c;连续 12 天发布#xff0c;每天一个新花样#xff0c;如今刚过一半#xff0c;热度依旧不减。毫无疑问 OpenAI 是懂营销的连续 12 天发布每天一个新花样如今刚过一半热度依旧不减。毫无疑问这是 AI 的时代这是信息爆炸的时代。在这个信息爆炸的时代营销必不可少正如著名作家米兰・昆德拉写的那样「企业只有两个职能营销和创新。」并且营销也已经不再是一个简单的「推销」过程。随着社交媒体的崛起、短视频的风靡和消费者需求的多样化企业和创作者们在海量内容中争夺用户的注意力早已陷入了一场「内容大战」。另一方面各式不一的平台也给企业和创作者带来了巨大的内容生产和分发压力比如有些平台侧重图文内容有些平台则更喜欢横版视频另一些则倾向于竖版视频。小红书、抖音、哔哩哔哩等都有不同的内容偏好此外到了运营阶段还存在难以转化的问题。这些问题聚集在一起构成了营销的四大痛点创意难、生产难、分发难、转化难。面对无穷无尽的创意、生产、分发和转化压力谁能真正解锁营销的「终极密码」这是个问题而这个问题的答案或许正是 AI。举个例子如果我们想要通过短视频宣传一下谷歌前两天发布的突破性量子计算芯片研究。我们完全可以将相关信息提供 AI让其完成从编写脚本到视频生产的全过程。最终我们得到了如下视频时长00:59 灵感岛数字人介绍谷歌量子计算芯片 Willow 这段视频的制作使用了灵感岛的数字人视频制作功能。我们只需向其上传讲解文本并选择合适的音色或直接上传讲解音频便可以生成活灵活现的讲解视频。同时灵感岛的数字人视频制作功能还配备了一些简单的视频编辑功能让你可以轻松地完成配置背景、添加素材和字幕等操作。实际上数字人只是灵感岛大量功能的冰山一角 —— 他们已经围绕 AI 营销构建了一整套功能体系可借助 AI 完成从创意灵感、内容生成、批量改写、视频制作到内容分发的所有环节堪称全链路 AI 营销工具。从创意到分发如何实现全链路 AI 营销作为一个全链路 AI 营销工具灵感岛具有各种各样辅助营销的能力从文案创作到图片生成再到视频制作以及最后的内容分发涉及各种常用模态可说是无所不包。这里我们也仅能选择其中一些有代表性的功能进行介绍。 AI 文案创作大模型助你生成爆款文案所有内容最难的其实是创意和灵感比创意灵感更难的是找到能出爆款的创意和灵感那我们来看看灵感岛是怎么帮助运营一键 get 爆款配方的。为了更清晰地展示灵感岛的能力下面我们将基于一个实践案例来逐步揭示灵感岛的其它核心功能。我们将从一款虚构的产品机 42」毛绒公仔开始借助灵感岛的 AI 制作各种营销材料。机 42 的简短描述机 42 毛绒公仔是倾情打造的官方周边以呆萌治愈的设计和柔软舒适的触感成为智慧与欢乐的象征。不论是陪伴日常、装饰家居还是作为节日礼品它都能带来温暖与愉悦是送礼和收藏的绝佳选择。机 42 毛绒公仔采用优质短毛绒与环保 PP 棉填充高约 30cm重约 300g符合国家玩具安全标准适合儿童及成年人使用。首先带着我们的机 42 公仔产品进入灵感岛的 AI 创作中心。我们首先想要为其撰写一篇长文介绍这时候灵感岛那基于大型语言模型的全文生成能力就能帮上大忙了不得不说这篇文章已经有了发布在微信公众号的水准但我们还可以使用灵感岛的生成标题和内容润色对其进行进一步优化比如下面我们就展示了如何将上面生成的前两段文本润色成更加「高大上」的版本。据悉灵感岛内部 AI 创意 Lab 已经研发了多款内容智能体涵盖账号人设、内容日历、爆款雷达、爆文复刻、视频拆解、一键爆款复刻让内容策划工作者能把时间都放在调研用户需求和洞察上而基于洞察后的内容生成则会借助智能体和工具高效完成。除此之外灵感岛「AI 文字魔法师」还支持生成电商评估、小红书笔记和微博批量生成、文案提取、内容安全检查等众多实用功能。而如果你是内容工作者还可以使用移动端的灵感岛 APP能享受到 30 余种创作应用场景。下面就展示了如何使用灵感岛生成一则介绍「机 42」的小红书文案。可以看到灵感岛非常出色地完成了任务甚至可以说超出了预期。它不仅使用 Markdown 标出了需要加粗强调的内容还添加了小红书爆款文案常用的 emoji 以及恰到好处的标签。不仅如此灵感岛还针对亚马逊、抖音等特定营销场景开设了专门的文案工作室在可帮助完成 Listing 文案和标题的创作和优化等任务为相关业务运营者提供强有力的助力。下面展示了一个例子如果我们想在亚马逊上出售我们的机 42 毛绒公仔那么完全可以借助灵感岛来编写 Listing 文案。这也凸显了灵感岛在外贸营销中的巨大潜力。 AI 图片创作一键创作产品宣传图当然要发小红书光有文本可不够我们还得有吸睛的图片。灵感岛配置了强大的图片工作室支持从智能抠图、高清放大、智能消除到智能商拍的一系列图像处理任务。首先当然是给机 42 「拍」一张凸显其可爱的图片啦这个过程非常简单用户只需上传无背景或简单背景的商品图片即可。当然用户也可以自行设定场景等具体需求。如果我们对生成的场景不满意我们还可以使用灵感岛的参考生成和商品替换功能将产品放入到我们想要的场景之中。灵感岛另一个值得重点关注的图片能力是图片翻译其可以在不改变原图风格的情况下将图片中的文本替换成另一种语言。这项能力对从事外贸和跨境电商的企业来说具有非常重要的实际价值。当然灵感岛图片工作室还有模特换脸和背景、智能消除、一键扩图、去除水印和文字等更多功能等着你来挖掘。 AI 视频创作从脚本到视频现在我们已经为机 42 准备好了各种图文是时候进军短视频了。在视频脚本创作方面灵感岛为视频脚本的创作设置了 3 个主要场景智能脚本工具、AI 行业脚本、短视频智能结构。智能脚本工具可以根据用户设定的主题自动生成相应脚本而用户也可以对生成的脚本进行进一步的编辑和优化。之后用户只需按照脚本描述制作相应视频素材并上传剩下的交给灵感岛的 AI 处理即可 —— 它能为你的视频合成相应的旁白、搭配合适的音乐、制作相应的剪辑效果并生成合适的封面。而 AI 行业脚本可以让用户更加细化自己的需求包括设置短视频带货或直播间引流等具体场景、优惠活动、适用人群、用户痛点等等。又或者如果你在网上看到一个想要模仿的爆款视频你也可以将其导入到灵感岛的短视频智能解析之后你便可以快速学习爆款视频的逻辑然后再自己创作一条同样有爆款内容潜质的视频。不仅如此灵感岛还支持营销视频规模量产并且他们还采用了去重算法来辅助提升视频效果。这可以帮助商家轻松高效地打造矩阵账号。此外灵感岛还搭建了一个视频热榜可助力用户轻松把握当前热点。通过精准捕捉当前最热门的视频内容和趋势用户可以快速把握社交媒体的脉搏及时调整内容策略抢占营销制高点。数字人极速版免费定制形象数字人技术已经不新鲜了但如何真的结合实际运营场景并真的产生效果是所有数字人平台和运营商努力的方向。灵感岛搭建了一个丰富的数字人形象库具备超多主播人设风格还支持多种语言、不同音色的语音足以满足各种行业的不同需求。并且你不仅能使用灵感岛预先配置的数字人也能定制自己的数字人只需上传训练视频和音频以及必要的授权资料你就能克隆出自己的数字版本在如何让数字人视频获得好效果上灵感岛也做了深度优化工作从脚本灵感、爆款视频模版、到数字人视频素材的灵活使用、智能剪辑工具让数字人视频不仅可以替代核心主播或者创始人出演同时还能真正给用户带去优秀内容获取有效流量转化。在技术层面灵感岛的数字人依托四大核心技术构建了卓越的数字人生成生态系统。首先是 LIP-Sync 音唇同步技术可确保数字人说话时口型与语音完美契合其次是 GAN 对抗神经网络可为数字人提供逼真且富有表现力的视觉形象再有 TTS 文本语音生成技术赋予数字人自然流畅的语音表达能力最后是 NLP 语义理解技术使数字人能够准确理解和回应人类交互。这四项技术相互协同、缜密配合显著提升了数字人的生成质量和自然性。除了数字人短视频以外数字人直播也在两年多的运营和磨合中展现出了稳定的效果。通过精准的形象设计和个性化交互能够为品牌创造更吸引人的销售场景。不同于传统直播间数字人技术叠加团队的运营支撑可以 24 小时不间断地进行带货直播帮助品牌快速搭建矩阵直播间、低成本测试直播方向、以及快速实现全员全国直播等场景需求。同时数字人技术还可以突破地域和语言限制实现全球化品牌传播为企业拓展国际市场提供更多便捷和高效的解决方案。内容分发一站式管理自有与外部矩阵内容分发是现代数字营销中的关键环节灵感岛深谙其中精髓。通过创新的内容分发功能用户可以实现从内容制作到多平台投放的无缝衔接。目前灵感岛支持抖音、小红书、视频号和快手等主流社交媒体平台为内容创作者和品牌提供了极大的便利。这个内容分发平台最大的亮点在于其极致的用户体验。用户只需简单操作就能同时管理多个社交媒体账户大幅降低了内容传播的人工成本和技术门槛。虽然目前平台尚未正式开放功能给用户但已经为用户描绘了未来智能化内容分发的蓝图。灵感岛的这一功能体现了平台对内容创作生态的深入理解内容创作不应止步于制作本身更应该实现高效、精准的传播。结合天下秀本身优秀深度的红人账号资源以及灵感岛 C 端的素人培养计划可帮助企业构建有效的分发矩阵深度解决内容到流量的全链路问题。随着功能的逐步完善相信这个内容分发平台将成为灵感岛的又一个核心竞争力为用户提供更加流畅和高效的内容传播体验。 C 端和 B 端齐发力灵感岛深度构建国内 AI 营销生态灵感岛是国内少有的同时面向 C 端创作者与 B 端企业提供全链路 AI 营销服务的工具。从上面的功能介绍和演示可以看出灵感岛不仅适用于 C 创作者的日常创作需求还特别契合 B 端商家和品牌的营销目标。这种 C 端与 B 端双线并行的模式再加上强大的 AI 模型与十多年红人营销数据的加持是灵感岛成为国内最适合商家体质的 AI 营销工具为各类企业提供了智能化营销的可能性。灵感岛的表现之所以这么好主要是两大核心支撑 AI 大模型技术。灵感岛已与火山引擎、豆包大模型、智谱等多家大模型厂商深度合作可使用先进的生成模型实现高质量的智能化内容生成尤其是在社交营销与短视频内容营销上灵感岛正在通过合作来构建社交营销智能体全家桶。天下秀十多年积累的海量红人营销数据。通过深度微调和自然语言处理技术这些海量数据可用于打造出高质量、专业化的红人语言模型和多模态生成模型。依托于这些技术灵感岛顺势而生并且一开始就成为了 AI 营销垂类应用的引领者。作为国内红人营销的头部平台型公司天下秀用灵感岛建立了 B 端企业和 C 端创作者之间的超级连接器。该公司表示「通过 AI 进行双端赋能一方面可让更多 C 端用户有机会成为内容创作者另一方面也能让 B 端企业在内容、用户运营、投放都更加精细化在营销前端以及后面的生成、制作、分发端都降本增效。」 C 端已助力数十万创作者完成数千万内容创作在 C 端灵感岛提供的 AI 内容创作效率工具可帮助用户成为更优质的创作者。另一端灵感岛又链接了品牌主、商家可帮助创作者能够更方便、快捷地实现商业化变现。自 2023 年 5 月灵感岛 APP 上线以来其 30 余种创作应用场景已帮助数十万内容创作者创作了数千万条内容。这一成绩不仅体现了灵感岛的技术实力更彰显了其对创作生态的深入理解。灵感岛在 C 端的定位是「让人人都能创作让创作更有价值」。通过降低创作门槛和提供高效工具灵感岛已成为上千位行业知识者运营个人 IP 的得力助手为专业创作者提供了全方位的支持和发展平台。通过智能工具和生态链接灵感岛正在重塑内容创作的生态格局。 B 端三大核心功能助力企业实现效果效率双提升在 B 端灵感岛企业版于今年上线其定位为「最适合商家需求的全链路 AI 营销工具」并通过三大核心功能帮助企业打造高效内容生态 AI 内容生成支持批量生成高质量文案、图片和视频 AI 智能分析与分发优化内容策略实现精准投放 AI 智能分发快速构建品牌矩阵分发体系实现内容到流量全闭环。相较于其它 AI 营销工具灵感岛的主要优势体现在能够提供全链路 AI 营销服务。从文案生成到图片加工和视频创作再到最后的内容分发这一切都可以在灵感岛这一个平台上完成。目前灵感岛企业版的客户已包含多家一线品牌和数十家中小企业。在数字人应用方面灵感岛的成果同样令人瞩目。公司已帮助超 2 万家门店成功克隆数字人打造出了万店流量矩阵显著提升了它们的品牌营销的效率与效果。另外天下秀还向透露目前该公司还有两大面向 B 端的功能正在布局中。一是前面已经提到的内容分发功能二是面向外贸企业和跨境电商用户推出的海外短视频电商功能这两个功能都将在近期上线。此外灵感岛 12 月内还会推出 AI 视频小程序其功能主要是针对数字人的相关视频制作如文案提取、文案改写、数字人一键克隆、视频快速生成等能够实现手机端智能化批量生产优质素材。灵感岛表示未来还会涉及到更广泛和高效的 AI 业务以及效果流量业务。值得一提的是灵感岛于 12 月 2 日成功通过北京市生成式人工智能服务登记成为北京市首批获批的此类应用之一。这不仅是对其技术实力的认可也确立了灵感岛在 AI 营销领域的领先地位。站稳国内红人营销头部市场引领 AI 营销未来自 2009 年创立以来天下秀便一直深耕红人营销领域并早已成长为「红人新经济第一股」。依托于其多年积累的海量红人营销数据灵感岛是毫无疑问的国内 AI 营销超强工具。在数字化浪潮和 AI 技术快速迭代的今天天下秀通过灵感岛重新定义了营销生态。从内容生产到数字人创建从智能分析到多平台分发灵感岛构建了一个前所未有的 AI 营销闭环。这不仅是技术创新更是对整个数字营销生态的颠覆性重构。回望过去天下秀在红人营销领域的积累为灵感岛奠定了坚实基础。展望未来随着 AI 技术的不断进步灵感岛有望成为连接创作者、品牌和用户的重要平台推动营销模式的革命性变革。在这个充满可能的时代天下秀正用灵感岛书写 AI 营销的崭新篇章。想要更完整地体验灵感岛请访问官网 https://market.linggandaquan.com #World Labs这样实现「空间智能」遵循世界的 3D 特性很多事就会变得自然而然。说到斯坦福大学教授李飞飞Fei-Fei Li她提倡的「空间智能」最近正在引领 AI 发展方向。李飞飞已经在人工智能历史上赢得了一席之地她多年来一直致力于创建 ImageNet 数据集和竞赛在深度学习革命中发挥了重要作用。 2012 年一个名为 AlexNet 的神经网络引爆了 AI 研究界它的表现远远超过所有其他类型的模型并赢得了当年的 ImageNet 竞赛。自那时起神经网络开始腾飞其动力来自互联网上可用的大量免费训练数据和提供空前计算能力的 GPU。自 ImageNet 以来的 13 年里计算机视觉研究者们掌握了物体识别并转向图像和视频生成。李飞飞与他人共同创办了斯坦福大学以人为本人工智能研究所 (HAI)并继续突破计算机视觉的界限。就在今年她创办了一家初创公司 World Labs旨在生成用户可以探索的 3D 场景。World Labs 致力于为人工智能提供「空间智能」即生成、推理和与三维世界互动的能力。李飞飞昨天在人工智能顶会 NeurIPS 上发表了主题演讲讲述了她对机器视觉的愿景。她表示非常荣幸第一次在 NeurIPS 上演讲50 分钟讲 180 页 PPT 是个很有趣的经历。在演讲之前李飞飞接受了 IEEE Spectrum 的独家采访让我们看看她对空间智能有哪些新的见解 Eliza Strickland你为什么把你的演讲命名为「提升视觉智能的阶梯Ascending the Ladder of Visual Intelligence」李飞飞智能具有不同层次的复杂性和精细度。在这次演讲中我想传达的是在过去几十年尤其是深度学习发生变革的十多年里我们在视觉智能方面学会做的事情简直令人叹为观止。我们正在变得越来越擅长使用这项技术。同时我也受到了 Judea Pearl 因果阶梯理论的启发这一理论出自他 2020 年出版的书《The Book of Why》。演讲还有一个副标题即「从看到做到From Seeing to Doing」。这是人们没有足够重视的一点从看到与交互和做事紧密相关无论是对于动物还是对于 AI 智能体来说都是如此。这与语言背道而驰。语言从根本上来说是一种用来传达思想的交流工具。在我看来它们是非常互补但同样深刻的智能模式。 Eliza Strickland你的意思是我们对某些视觉刺激有本能的反应吗李飞飞我不仅仅是在谈论本能。如果你观察感知的演变和动物智能的演变你会发现它们是深深交织在一起的。每当我们能够从环境中获取更多信息时进化的力量就会推动事物能力和智能向前发展。如果你不能感知环境你与世界的关系就非常被动无论你是捕食者还是被捕食者都是一个非常被动的行为。但是一旦你能够通过感知从环境中获取线索进化的压迫感就会增加这推动了智能的发展。 Eliza Strickland你认为这就是我们创造越来越深层次的机器智能的方式吗通过让机器更多地感知环境李飞飞我不确定「深度」这个词是不是我该用的形容词。我认为我们正在创造更多的能力。我认为它将变得更加复杂更有能力。解决空间智能问题确实是朝着全面智能full-scale intelligence迈出的一个基本且关键的步骤这是绝对正确的。 Eliza Strickland我看到过 World Labs 的演示。你为什么想研究空间智能并构建这些 3D 世界。李飞飞我认为空间智能是视觉智能的发展方向。如果我们真的想要解决视觉问题并且将其与行动联系起来有一个非常简单、显而易见的事实世界是三维的。我们不是生活在一个平面世界中。我们的物理智能体无论是机器人还是设备都将生活在三维世界中。即使是虚拟世界也越来越变得三维化。如果你和艺术家、游戏开发者、设计师、建筑师、医生交谈即使他们在虚拟世界中工作很多内容也是三维的。如果你花一点时间认识到这个简单但深刻的事实毫无疑问解决 3D 智能的问题是根本性的。时长01:12 Eliza Strickland我很好奇 World Labs 中的场景是如何保持物体永久性并遵守物理定律的。这感觉像是一个令人兴奋的进步因为像 Sora 这样的视频生成工具仍然在处理这些事情。李飞飞一旦你遵循世界的 3D 特性很多事情就会变得自然而然。例如在我们发布的一段视频中有一个关于篮球的视频。由于场景是 3D 的篮球会根据重力或其他物理规则正确落地并与环境交互。如果场景只是由 2D 像素生成的篮球不会有任何物理反应无法表现出落地或运动的效果。 Eliza Strickland就像 Sora球可能会去某个地方然后消失。在推动这项技术发展的过程中你面临的最大技术挑战是什么李飞飞没有人解决了这个问题对吧这非常非常困难。在一个 demo 中我们取了一幅梵高的画作并围绕它生成了整个场景风格一致艺术风格、光线甚至是那个街区会有什么样的建筑。如果你转过身来看到的是摩天大楼那将完全不可信对吧而且它必须是三维的。你必须能够进入其中。所以它不仅仅是像素。 Eliza Strickland你能说说你用来训练它的数据吗李飞飞非常多。 Eliza Strickland在算力方面是否存在很多挑战李飞飞这需要大量的算力。是公共部门无法承担的那种计算能力。这也是我需要通过休学术假以私营部门的方式来做这件事的部分原因。同时这也是我一直倡导公共部门获得计算资源访问权的部分原因我自己的经历强调了在足够资源支持下进行创新的重要性。 Eliza Strickland赋予公共部门权力是一件好事因为公共部门通常更愿意通过获取知识为人类谋福利。李飞飞知识发现需要资源支持对吧在伽利略时代最好的望远镜是让天文学家观察新天体的望远镜。Hooke 意识到放大镜可以变成显微镜并发现了细胞。每当有新的技术工具出现时它都会帮助人们寻求知识。现在在人工智能时代技术工具涉及计算和数据。对于公共部门我们必须认识到这一点。 Eliza Strickland你希望联邦政府提供哪些资源李飞飞过去五年来斯坦福大学 HAI 一直在做这项工作。我们一直在与国会、参议院、白宫、行业和其他大学合作创建国家人工智能研究资源中心 (NAIRR)。 Eliza Strickland假设我们能让人工智能系统真正理解 3D 世界这会给我们带来什么李飞飞它将为人们释放大量创造力和生产力。我希望以更高效的方式设计我的房子。我知道许多医疗用途都涉及理解一个非常特殊的 3D 世界即人体。我们总是谈论未来人类将创造机器人来帮助我们但机器人在 3D 世界中导航它们需要空间智能作为大脑的一部分。我们还谈论虚拟世界它将允许人们参观很多地方、学习概念或娱乐。这些都要使用 3D 技术尤其是混合现实技术我们称之为 AR [增强现实]。我很想戴着一副眼镜穿过国家公园它能让我了解树木、道路、云朵的信息。我也想借助空间智能学习不同的技能。 Eliza Strickland会是什么样的技能李飞飞我举个蹩脚的例子如果我在高速公路上爆胎了我该怎么办现在我打开一个「如何换轮胎」的视频。但如果我能戴上眼镜看看我的车发生了什么然后得到指导那就太酷了。但这是一个蹩脚的例子。你可以考虑烹饪你可以考虑雕刻 —— 有趣的事情。 Eliza Strickland你认为这个方向在我们这一代能走多远李飞飞我认为这会是我们有生之年的事因为技术进步的速度非常快。你已经看到了过去 10 年带来的变化。这肯定预示着接下来会发生什么。参考内容 https://spectrum.ieee.org/fei-fei-li-world-labs https://x.com/drfeifei/status/1867286498086990325 #扩散模型流匹配谷歌DeepMind博客深度详解这种惊人的等价性扩散模型和流匹配实际上是同一个概念的两种不同表达方式吗从表面上看这两种方法似乎各有侧重扩散模型专注于通过迭代的方式逐步去除噪声将数据还原成清晰的样本。而流匹配则侧重于构建可逆变换系统目标是学习如何将简单的基础分布精确地映射到真实数据分布。因为流匹配的公式很简单并且生成样本的路径很直接最近越来越受研究者们的欢迎于是很多人都在问「到底是扩散模型好呢还是流匹配好」现在这个困扰已得到解答。Google DeepMind 的研究团队发现原来扩散模型和流匹配就像一枚硬币的两面本质上是等价的 (尤其是在流匹配采用高斯分布作为基础分布时)只是不同的模型设定会导致不同的网络输出和采样方案。这无疑是个好消息意味着这两种框架下的方法可以灵活搭配发挥组合技了。比如在训练完一个流匹配模型后不必再局限于传统的确定性采样方法完全可以引入随机采样策略。链接https://diffusionflow.github.io 在这篇博客的开头作者们写道「我们的目标是帮助大家能够自如地交替使用这两种方法同时在调整算法时拥有真正的自由度 —— 方法的名称并不重要重要的是理解其本质。」扩散模型与流匹配扩散模型主要分为前向过程和反向两个阶段。前向过程用公式表示为其中 z_t 是在时间点 t 时的带噪声数据x 代表原始数据ε 代表随机噪声a_t 和 σ_t 是控制噪声添加程度的参数。若满足称为「方差保持」意味着在每个时间步骤中噪声的方差保持不变或接近不变。 DDIM 采样器的反向过程用公式表示为其中而在流匹配中前向过程视为数据 x 和噪声项 ε 之间的线性插值采样人们普遍认为这两个框架在生成样本的方式上有所不同流匹配采样是确定性的具有直线路径而扩散模型采样是随机性的具有曲线路径。下面文章将澄清这一误解首先关注更简单的确定性采样稍后再讨论随机情况。假设你想使用训练好的降噪器模型将随机噪声转换为数据点。可以先回想一下 DDIM 的更新有趣的是重新排列项可以用以下公式来表达这里涉及几组网络输出和重新参数化我们再回到公式4中的流匹配更新和上述方程看起来很相似。如果在最后一行将网络输出设为并令可以得到、这样我们就恢复了流匹配更新更准确地说流匹配更新可以被视为重参数化采样常微分方程ODE的欧拉积分对于 DDIM 采样器而言普遍存在以下结论DDIM 采样器对于应用于噪声调度 α_t、σ_t 的线性缩放是不变的因为缩放不会影响和这对于其他采样器来说并不成立例如概率流 ODE 的欧拉采样器。为了验证上述结论本文展示了使用几种不同的噪声调度得到的结果每种调度都遵循流匹配调度并具有不同的缩放因子。如下图随意调整滑块在最左侧缩放因子是 1这正是流匹配调度而在最右侧缩放因子是。可以观察到 DDIM以及流匹配采样器总是给出相同的最终数据样本无论调度的缩放如何。对于概率流 ODE 的欧拉采样器缩放确实会产生真正的差异可以看到路径和最终样本都发生了变化。看到这里需要思考一下。人们常说流匹配会产生直线路径但在上图中其采样轨迹看起来是弯曲的。在下面的交互式图表中我们可以通过滑块更改右侧数据分布的方差。不过在像图像这样的真实数据集上找到这样的直线路径要复杂得多。但结论仍然是相同的最优的积分方法取决于数据分布。我们可以从确定性采样中得到的两个重要结论采样器的等价性DDIM 与流匹配采样器等价并且对噪声调度的线性缩放不变。对直线性的误解流匹配调度仅在模型预测单个点时才是直线。训练对于扩散模型学习模型是通过最小化加权均方误差MSE损失来完成的流匹配也符合上述训练目标网络应该输出什么下面总结了文献中提出的几个网络输出包括扩散模型使用的几个版本和流匹配使用的其中一个版本。然而在实践中模型的输出可能会产生非常大的影响。例如基于相似的原因在低噪声水平下是有问题的因为没有信息量并且错误在中被放大了。因此一种启发式方法是选择一个网络输出它是、的组合这适用于和流匹配矢量场如何选择加权函数加权函数是损失函数中最重要的部分它平衡了图像、视频和音频等数据中高频和低频分量的重要性。这一点至关重要因为这些信号中的某些高频分量是人类无法感知的。如果通过加权情况来查看损失函数可以得出以下结果即公式 (7) 中的条件流匹配目标与扩散模型中常用的设置相同。下面绘制了文献中常用的几个加权函数。流匹配加权也称为 v-MSE 余弦调度加权会随着 λ 的增加而呈指数下降。该团队在实验中发现了另一个有趣的联系Stable Diffusion 3 加权 [9]这是流匹配的一种重新加权版本与扩散模型中流行的 EDM 加权 [10] 非常相似。如何选择训练噪声调度最后讨论训练噪声调度因为在以下意义上它对训练的重要程度最低 1. 训练损失不会随训练噪声调度变化。具体来说损失函数可以重写为它只与端点λ_max, λ_min有关但与中间的调度 λ_t 无关。在实践中应该选择合适的 λ_max, λ_min使得两端分别足够接近干净数据和高斯噪声。λ_t 可能仍然会影响训练损失的蒙特卡洛估计量的方差。一些文献中提出了一些启发式方法来在训练过程中自动调整噪声调度。这篇博文有一个很好的总结https://sander.ai/2024/06/14/noise-schedules.html#adaptive 2. 类似于采样噪声调度训练噪声调度不会随线性扩展linear scaling而变化因为人们可以轻松地将线性扩展应用于 z_t并在网络输入处进行 unscaling 以获得等价性。噪声调度的关键定义属性是对数信噪比 λ_t。 3. 人们可以根据不同的启发式方法为训练和采样选择完全不同的噪声调度对于训练最好有一个噪声调度来最小化蒙特卡洛估计量的方差而对于采样噪声调度与 ODE / SDE 采样轨迹的离散化误差和模型曲率更相关。总结下面给出了训练扩散模型 / 流匹配的一些要点加权中的等价性加权函数对于训练很重要它平衡了感知数据不同频率分量的重要性。流匹配加权与常用的扩散训练加权方法相同。训练噪声调度的不重要性噪声调度对训练目标的重要性要小得多但会影响训练效率。网络输出的差异流匹配提出的网络输出是新的它很好地平衡了更深入地理解采样器这一节将更详细地介绍各种不同的采样器。回流算子流匹配中的回流Reflow运算是使用直线将噪声与数据点连接起来。通过基于噪声运行一个确定性的采样器可以得到这些 (数据噪声) 对。然后可以训练模型使之可以根据给定噪声直接预测数据而无需采样。在扩散技术的相关文献中这同样的方法是最早的蒸馏技术之一。确定性采样器与随机采样器此前已经讨论了扩散模型或流匹配的确定性采样器。另一种方法是使用随机采样器例如 DDPM 采样器。执行一个从 λ_t 到 λ_tΔλ 的 DDPM 采样步骤完全等价于执行一个到 λ_t2Δλ 的 DDIM 采样步骤然后通过执行前向扩散重新噪声化到 λ_tΔλ。也就是说通过前向扩散重新噪声化恰好逆转了 DDIM 所取得的一半进展。为了理解这一点让我们看一个 2D 示例。从相同的高斯分布混合开始我们可以执行一个小的 DDIM 采样步骤左图带有更新反转的符号右图则是一个小的前向扩散步骤对于单个样本而言这些更新的行为完全不同反转的 DDIM 更新始终将每个样本推离分布模式而扩散更新完全是随机的。但是在汇总所有样本时更新后得到的分布是相同的。因此如果执行 DDIM 采样步骤不反转符号然后执行前向扩散步骤则整体分布与更新之前的分布保持不变。通过重新加噪来撤消的 DDIM 步骤的比例是一个超参数并且可以自由选择即不必一定是 DDIM 步骤的一半。这个超参数在《Elucidating the design space of diffusion-based generative models》中被称为 level of churn可译为「搅动水平」。有趣的是将搅动添加到采样器的效果是减少采样过程早期做出的模型预测对最终样本的影响并增加对后续预测的权重。如下图所示在这里我们使用余弦噪声调度以及预测将不同采样器都运行了 100 个采样步骤。忽略非线性相互作用采样器产生的最终样本可以写成采样过程中做出的预测和高斯噪声 e 的加权和这些预测的权重 h_t 显示在 y 轴上而 x 轴上显示不同的扩散时间 t。DDIM 会在此设置下对预测赋予相等的权重而 DDPM 则更注重在采样结束时所做的预测。另请参阅《Dpm-solver: Fast solver for guided sampling of diffusion probabilistic models》以了解中这些权重的解析表达式。 SDE 和 ODE 视角前面我们已经观察到扩散模型和流匹配算法之间的等价性。下面将使用 ODE 和 SDE 来形式化地描述正向过程和采样的等价性以实现理论上的完整性。扩散模型扩散模型的前向过程涉及到随时间推移逐渐破坏一个数据而该过程可使用以下随机微分方程SDE来描述其中 dz 是无穷小的高斯即布朗运动。f_t 和 g_t 决定了噪声调度。其生成过程由前向过程的逆过程给出其公式为其中 ∇log p_t 是前向过程的分数。请注意这里引入了一个附加参数 η_t它控制的是推理时的随机性。这与之前介绍的搅动churn参数有关。当离散化后向过程时如果 η_t0则是恢复 DDIM如果 η_t1则是恢复 DDPM。流匹配流匹配中 x 和 ε 之间的插值可以用以下常微分方程ODE描述假设该插值为其生成过程只是在时间上反转这个 ODE并将 u_t 替换为其对 z_t 的条件期望。这是随机插值stochastic interpolants的一个特例 —— 在这种情况下它可以泛化成 SDE 其中 ε_t 控制着推理时的随机性。两个框架的等价性这两个框架都分别由三个超参数定义扩散的三个参数是 f_t、g_t、η_t而流匹配的三个参数是 α_t、σ_t、ε_t。通过从一组超参数推导得到另一组超参数可以显示这两组超参数的等价性。从扩散到流匹配从流匹配到扩散总之除了训练考虑和采样器选择之外扩散和高斯流匹配没有根本区别。结语读到这里想必你已经理解了扩散模型和高斯流匹配的等价性。不过文中重点介绍的是流匹配为该领域带来的两个新模型规范网络输出流匹配提出了一种网络输出的向量场参数化方案并且其不同于扩散文献中使用的方案。当使用高阶采样器时网络输出可能会有所不同。它也可能影响训练动态。采样噪声调度流匹配利用了简单的采样噪声调度 α_t 1-t 和 σ_t t并且更新规则与 DDIM 相同。该团队最后表示「如果能通过实证方式研究这两个模型规范在不同的真实应用中的重要性那一定会很有趣。我们将此留给了未来的工作。」 #Insight-V 多智能体架构Insight-V来了突破长链视觉推理瓶颈本文的主要作者来自南洋理工大学 S-Lab、腾讯公司和清华大学智能视觉实验室。本文的共同第一作者为南洋理工大学博士生董宇昊和清华大学自动化系博士生刘祖炎主要研究方向为多模态模型。本文的通讯作者为南洋理工大学助理教授刘子纬和腾讯高级研究员饶永铭。大语言模型LLMs通过更多的推理展现出了更强的能力和可靠性从思维链提示发展到了 OpenAI-o1 这样具有较强推理能力的模型。尽管人们为改进语言模型的推理做出了种种努力但在多模态视觉语言任务中高质量的长链推理数据以及优化的训练流程仍未得到充分的探索。为了解决上述问题来自南洋理工大学、腾讯、清华大学的研究者们提出一种能够进行长链视觉推理的多模态模型 Insight-V。Insight-V 提供了 1针对复杂的多模态任务可扩展地生成冗长且可靠的推理数据2建立有效的训练流程以增强多模态语言模型的推理能力。 Insight-V 的核心创新点包括1一个用于生成长链、高质量推理数据的可扩展的数据生成流程2一个将视觉推理任务分解为推理和总结的多智能体系统3一个用于增强视觉推理能力的两阶段训练流程。这些设计赋予了 Insight-V 较强的视觉推理能力。论文https://arxiv.org/abs/2411.14432 代码https://github.com/dongyh20/Insight-V 模型https://huggingface.co/THUdyh/Insight-V-Reason 1. 介绍现有的研究通过长链推理来提升语言模型LLMs的推理能力已经取得了显著进展这在很大程度上得益于结构化、高质量数据的可获取性以及成熟的训练流程。相比之下多模态语言模型MLLMs进行长链视觉推理仍然是一项重大挑战主要原因是缺乏大规模、高质量的数据集以及高效有效的训练策略。与纯文本数据相比视觉推理数据不仅收集成本更高而且由于缺乏有效的数据生成流程还需要大量人力来进行详细标注和验证。此外当前的多模态语言模型无法有效利用视觉线索进行精确的视觉推理需要一种有效的训练程序使多模态语言模型在保持清晰视觉感知的同时能够进行详细推理。图 1Insight-V 方法展示。为了解决以上挑战本文提出了一个视觉推理的多模态系统 Insight-V能够实现结构化的长链视觉推理。如图 1 所示Insight-V 由两个智能体组成一个专门负责推理另一个负责总结这使得它在各类视觉推理基准测试中的性能有了显著提升。 Insight-V 的主要贡献包括一个用于生成长链、高质量推理数据的可扩展的数据生成流程。通过利用已有的模型构建数据生成流程从而提供丰富的可扩展的视觉推理训练数据。一个将视觉推理任务分解为推理和总结的多智能体系统。通过将视觉任务分解为推理和总结并利用不同的模型来分别解决不同的任务来提升视觉推理能力。一个用于增强视觉推理能力的两阶段训练流程从而使 Insight-V 能够在视觉推理评测集上取得优异的性能。我们提供了 Insight-V 的模型权重在视觉推理任务上表现出色在 7B 规模下取得了综合最好的结果在部分数据集超过最先进的综合模型和商业模型为多模态视觉推理的发展提供了一个值得探索的方向。 2. 方法概览结构化推理数据构建图 2结构化数据构建。现有的研究已经探索了将推理能力融入多模态大型语言模型MLLMs中。然而训练 MLLMs 具备强大的推理技能仍然是一个相当大的挑战尤其是由于数据方面的限制。为了解决这一问题我们介绍了提出的数据生成流程该流程旨在通过渐进式生成过程和多粒度评估来生成高质量的长链推理数据。如图 2 所示这种可扩展的方法使我们能够生成高质量的数据从而有效地提升模型的推理能力。渐进式长链推理数据生成。我们通过调用能力强大的多模态综合模型来收集单步推理结果。在每一步推理结束之后模型根据历史的推理结果来生成针对下一轮推理的动作如果动作为‘继续推理’下一步模型继续执行单步推理如果动作为‘总结’下一步模型根据历史推理内容总结得出答案。多粒度评估。我们通过两个步骤来对生成的推理数据进行评估。首先我们直接使用真实答案来对推理数据进行过滤过滤掉最终答案错误的数据。之后我们使用一个推理步骤打分模型来针对推理数据的质量进行打分将推理数据分为不同质量的子集以供最后训练数据集的构建。模型设计推理模型。我们提出了一种专门的推理智能体其旨在针对输入查询生成一个详细的、逐步推进的推理过程。我们通过为每个问题选取得分最高的推理路径来构建推理数据集。在基于该数据集进行训练之后模型转变为一个具有更强推理能力的推理智能体使其能够生成更详细、结构化的推理过程。总结模型。我们开发了一种对推理路径中的不准确之处具有较强适应性的总结模型该模型可根据需要有选择性地纳入或忽略某些元素。这种方法在最大程度发挥推理模型效能的同时将引入误导性信息的风险降至最低。我们利用所收集的数据集来完成总结任务该数据集由两类数据组成具有最优推理过程的数据和具有有缺陷推理过程的数据。此外为了保留原有的多模态能力我们用标准问答数据对数据集进行补充以维持总结智能体在直接问答方面的性能。图 3训练流程。训练策略 Insight-V 的训练策略简单直接。我们从一个已经训练好的多模态模型出发利用这个模型的权重来初始化 Insight-V 当中的两个模型。第一阶段我们进行多智能体系统的监督微调。对于推理模型我们利用精心整理的推理数据集来培养逐步推理的能力。对于总结模型我们按照上文所述构建了一个数据集并从用于基础模型的数据集中抽取了大约一百万对通用的图文组合以保留其原有的视觉感知能力。在第二阶段我们利用强化学习算法来进一步提升模型的推理能力。我们使用迭代式直接偏好优化Iterative DPO。通过进行多轮直接偏好优化DPO训练和抽样这种方法能使该模型在训练期间更好地模拟在线环境从而进一步提升其性能。 3. 实验结果视觉推理我们在 7 个基准测试上开展了评估实验涵盖了通用推理和特定任务推理评估。当应用于 LLaVA-NeXT 和我们的基线模型时Insight-V 展现出了显著的有效性和通用性大幅超越了其他最先进的大型语言模型MLLMs。在 MMStar 数据集中Oryx 取得 61.5% 的平均准确率。在 MME 数据集上取得了 2312 的总分并且在 MME 的感知和认知子任务上都取得了先进的结果。针对 7 个数据集的平均结果Insight-V 表现出色超越了一系列先进的模型。基础视觉感知为了更进一步测试 Insight-V 的通用性我们在一些侧重评估模型基础视觉感知能力的数据集上进行了测试。结果表明InsightV 在不影响一般视觉感知能力的情况下提升了推理能力甚至在对感知能力要求更高的基准测试上也实现了性能提升。当 Insight-V 与 LLaVA-NeXT 模型结合时在 TextVQADocVQAOCRBenchAI2D 等测试集上都有显著的性能提升当与我们构建的更强的基础模型结合时在这些 benchmark 上也表现出了更好的结果。分析实验多智能体系统的有效性。针对 Insight-V 的设计我们与其他可能的设计选择进行了对比包括直接进行微调、多轮对话监督、只训练总结模型。结果显示多智能体设计的表现优于其他配置突出了推理和总结分解的关键作用。数据 Scaling Law 实验。我们研究了数据扩展对于 Insight-V 的影响尤其是对于推理模型的效果。结果表明随着推理模型训练数据的扩展推理模型的性能得到了显著的提升。推理模型得益于数据扩展能为总结模型提供更有价值的见解。强化学习算法的效果。我们探究了不同的强化学习策略对于推理模型效果的影响。我们对比了使用 RLAIF 数据进行训练直接进行 DPO 以及 Insight-V 的多轮迭代式 DPO。结果显示相比其他方法迭代直接偏好优化Iterative DPO逐步增强了模型的推理能力从而带来了性能的提升。 4. 案例分析我们对 Insight-V 与思维链Chain-of-Thought以及通过直接监督微调学习进行了定性比较。对于 Insight-V 系统而言其推理智能体能够提供一个更加连贯且结构化的推理过程从而引导总结智能体得出正确答案然而其他方法在面对复杂推理任务时会显得吃力无法解决这类具有挑战性的问题。 5. 总结在本文中我们介绍了 Insight-V这是一种新颖的系统它将用于长链、高质量推理数据的可扩展数据生成系统与有效的多智能体训练系统相结合以增强多模态语言模型MLLMs的推理能力。通过开发该系统我们提供了一种旨在提高推理性能的可扩展模型训练方法。我们在各种基准测试中的广泛评估证明了我们这种方法的有效性为赋予多模态语言模型更强的推理能力铺平了道路。 #NeurIPS神仙打架李飞飞180页PPT谈视觉智能Bengio同OpenAI员工吵架何恺明谈AI宿命论我们无法忽视世界是三维的解决三维智能是根本性的。李飞飞最新采访来了继续延伸她在NeurIPS有关视觉智能的话题。她表示解决空间智能问题是迈向全面智能化的基础和关键一步。不过从现场传出的NeurIPS演讲PPT中竟然有写AI将取代人类这究竟是怎么一回事有网友表示当她看到这页时她的表情be like 有一说一今年NeurIPS好不热闹大佬们聚在一起就是容易制造各种话题Doge。比如疑似Bengio和OpenAI o1的人吵起来了。何恺明竟然探讨起了AI宿命论来来来来看看一个吃瓜汇总。李飞飞180页PPT谈视觉智能今年李飞飞在NeurIPS演讲的话题是《从看到到做攀登视觉智能的阶梯》。她自曝准备了180页ppt从各种路透图来看确实是干货满满。而在最新IEEE Spectrum采访中她进一步揭示了相关细节。该采访是在NeurIPS演讲前进行采访实录 Q为什么演讲题目是“攀登视觉智能的阶梯Ascending the Ladder of Visual Intelligence” 李飞飞我认为直觉告诉我们智能具有不同的复杂度和精密度。在演讲中我想传达这样一种感觉在过去的几十年里尤其是过去十多年的深度学习革命中我们在视觉智能方面所取得的成就令人惊叹。我们越来越擅长使用这项技术。我还受到了 Judea Pearl 的“因果关系阶梯”的启发。收录于2020年出版的《the Book of Why》这里插一嘴Judea Pearl本人还特意纠正了一下他表示因果关系阶梯所定义的等级是第一定律的数学结果而不是一种判断性的建构。李飞飞演讲还有一个副标题即“从看到到做From Seeing to Doing”。这是人们没有足够重视的一点“看 ”都与互动和 “做 ”密切相关无论是对于动物还是AI Agents来说都是如此。这与语言是不同的。语言从根本上说是一种交流工具用来传递思想。在我看来这些都是非常互补但同样深刻的智能模式。 Q你的意思是说我们会对某些景象做出本能的反应李飞飞我说的不仅仅是本能。如果你看一下感知力的进化和动物智力的进化就会发现这两者之间有着深刻的联系。每当我们能够从环境中获得更多信息时进化的力量就会推动能力和智力的发展。如果你不能感知环境你与世界的关系就会非常被动你是吃还是被吃都是非常被动的行为。但是一旦你能够通过感知从环境中获取线索进化的压力就会真正增强从而推动智力向前发展。 Q你认为这就是我们创造更深入的机器智能的方式吗让机器感知更多的环境李飞飞我不知道 “深度 ”是不是我想用的形容词。我认为我们正在创造更多的能力。我认为它正变得越来越复杂越来越有能力。我认为解决空间智能问题是迈向全面智能化的基础和关键一步这是绝对正确的。 Q我看过世界实验室的演示。你为什么要研究空间智能并构建这些三维世界李飞飞我认为空间智能是视觉智能的发展方向。如果我们真的要破解视觉问题并将其与做事联系起来那么有一个极其简单、一目了然的事实世界是三维的。我们生活的世界不是平面的。我们的物理Agent无论是机器人还是设备都将生活在三维世界中。就连虚拟世界也变得越来越3D化。如果你与艺术家、游戏开发者、设计师、建筑师、医生交谈即使他们是在虚拟世界中工作其中大部分也是三维的。如果你能花点时间认识到这个简单而深刻的事实那么毫无疑问解决3D智能问题就是根本所在。一旦你尊重了世界的三维性很多事情就自然而然地发生了。例如在我们发布在社交媒体上的一个视频中篮球被投放到一个场景中。因为它是三维的所以你可以拥有这种能力。如果场景只是 2D 生成的像素篮球将无处可去。 Q或者就像Sora中那样它可能会去到某个地方但随后就消失了。在你尝试推进这项技术的过程中最大的技术挑战是什么李飞飞没有人解决过这个问题对吧这非常非常难。在世界实验室的演示视频中你可以看到我们将一幅梵高的画作以一致的风格生成了它周围的整个场景艺术风格、灯光甚至是那个社区会有什么样的建筑。如果你转过身去它就变成了摩天大楼那就完全没有说服力了对吗它必须是 3D 的。你必须进入其中。所以它不仅仅是像素。 Q你能说说你用来训练它的数据吗李飞飞很多。 Q你们在计算负担方面遇到过技术挑战吗李飞飞计算量很大。这是公共部门负担不起的计算量。这也是我很高兴能休假以私营部门的方式来做这件事的部分原因。我的亲身经历强调了在获得充足资源的情况下进行创新的重要性。知识的发现需要资源的支持对吧在伽利略时代是最好的望远镜让天文学家观测到了新的天体。是虎克意识到放大镜可以变成显微镜发现了细胞。每一次新技术工具的出现都有助于知识的探寻。而现在在人工智能时代技术工具涉及计算和数据。我们必须认识到这一点。 Q假设我们能让人工智能系统真正理解三维世界这会给我们带来什么李飞飞它将为人们释放大量的创造力和生产力。我希望能以更高效的方式设计我的房子。我知道许多医疗用途都涉及到理解一个非常特殊的三维世界那就是人体。我们总在谈论未来人类将创造机器人来帮助我们但机器人是在三维世界中航行的它们需要空间智能作为大脑的一部分。我们也在谈论虚拟世界它能让人们参观景点、学习概念或娱乐。这些虚拟世界使用三维技术尤其是混合技术也就是我们所说的 AR增强现实技术。我很想戴着一副眼镜在国家公园里漫步它能为我提供有关树木、道路和云彩的信息。我还想通过空间智能学习不同的技能。 Q什么样的技能李飞飞我举个蹩脚的例子如果我在高速公路上爆胎了我该怎么办现在我打开了一个 “如何换轮胎 ”的视频。但如果我能戴上眼镜看到我的车发生了什么然后在指导下完成这个过程那就很酷了。但这只是个蹩脚的例子。你可以考虑烹饪可以考虑雕刻—有趣的事情。 Q你认为我们在有生之年能在这方面取得多大进展李飞飞哦我认为这将在我们有生之年实现因为科技进步的步伐真的很快。你已经看到了过去 10 年所带来的变化。这无疑预示着下一步会发生什么。今年NeurIPS好热闹 NeurIPS整个会议期间可以说是好不热闹。比如Bengio和OpenAI的人吵起来了。据在场的人爆料在今年因果关系小组讨论中OpenAI o1的主创表示我们最终应该训练Agent来优化对世界的理解来解决科学问题。 Bengio还有一位谷歌AGI安全研究员Tom Everitt则指出这样做很可怕他们表示不应该制造这样强大的Agent还有其他方法可以增强人类的能力并进行科学研究比如让模型学习因果图。而就在刚才Bengio还进一步回应了再次强调了AI Agent潜在的风险。如果我们不解决调整和控制问题随着我们赋予系统越来越多的代理权人工智能的风险将继续增长。在此之前我们需要在科学和政策两方面取得重大进展。而何恺明竟然探讨起了AI宿命论据热心网友们的爆料他是在被问到AI属于发明还是发现的时候。他表示这要看你相不相信宿命论了。Doge 除此之外他在演讲中探讨了AI未来的发展Super-human AI 据小红书网友爆料他提到一个有意思的观点他将人类比作大模型的传感器人类感知理解压缩了世界的所有的知识并用文本和语言记录下来。大语言模型吸取学习这些内容并将其建模为一个强大而丰富的空间。但是就像你只用RGB观测宇宙一样总会有紫外红外这样看不到看不清的东西。好了NeurIPS期间还有没有发生什么有意思的事情欢迎小伙伴们跟我们爆料。参考链接 [1]https://spectrum.ieee.org/fei-fei-li-world-labs [2]https://x.com/connoraxiotes/status/1866921924703498412 [3]https://x.com/kyliebytes/status/1866987524805234785 [4]https://www.xiaohongshu.com/explore/6759be860000000001029429 [5]http://xhslink.com/a/IFIoiN1IoRy1 [6]https://x.com/yoshua_bengio/status/1867274312941523193?s46tiTysI4vQLQqCNJjSmBODPw

查看全文

http://www.w-s-a.com/news/180835/