网站改版前端流程经验,网络营销策划的基本原则,线下推广的好处,滨江网站建设公司Project Astra 愿景之一#xff1a;「系统不仅能在你说话时做出回应#xff0c;还能在持续的过程中帮助你。」
近期#xff0c;Google DeepMind 的 YouTube 频道采访了 Google DeepMind 研究主管格雷格韦恩 (Greg Wayne)。
格雷格韦恩的研究工作为 DeepMind 的诸多突破性成…
Project Astra 愿景之一「系统不仅能在你说话时做出回应还能在持续的过程中帮助你。」
近期Google DeepMind 的 YouTube 频道采访了 Google DeepMind 研究主管格雷格·韦恩 (Greg Wayne)。
格雷格·韦恩的研究工作为 DeepMind 的诸多突破性成果做出了重要贡献涵盖强化学习、神经网络架构搜索以及大型语言模型等领域。
本次访谈深入探讨了 Project Astra这是一个探索未来通用人工智能助手能力的研究原型旨在理解用户周围的世界。主持人与格雷格·韦恩共同探讨了该研究原型背后的灵感、当前的优势与局限性以及未来的潜在应用场景。
我们精选了访谈的部分精彩内容希望能给大家带来新的启发enjoy Project Astra 与 Greg Wayne 一起探索通用 AI 助理
Project Astra:Exploring a Universal AI Assistant with Greg Wayne
主持人 Hannah Fry 受访者 Greg WayneGoogle DeepMind 研究主管
注为便于阅读本文内容已作精简并非完整对话。你可以访问原文收听完整版播客。 建立在 Gemini 基础上但又超越 Gemini 的 AI 助理
Hannah Fry 欢迎回到 Google DeepMind The Podcast 。今天我们要介绍的是 Project Astra一个正在突破通用 AI 助理界限的研究原型。Greg欢迎回来。
Greg Wayne 你好Hannah。
Hannah Fry 我们从头开始吧。什么是 Project Astra
Greg Wayne Project Astra 是一个旨在构建一个 拥有眼睛、耳朵和声音 能够与你共处的 AI 助手的项目。它能伴随你到任何地方 通过智能眼镜、手机或电脑 观察你正在做的事情并与你进行交流。
Hannah Fry 就像一个坐在你肩膀上的小助手
Greg Wayne 是的就像一只栖息在你肩膀上的鹦鹉与你一起观察世界并和你谈论它。
Hannah Fry 只是比你更聪明。
Greg Wayne 在某些方面是的。
Hannah Fry 这与 Google Assistant 或 Gemini 有所不同。
Greg Wayne 是的。旧版本的 Google Assistant 更像是一个用于控制你家或信息的系统。而 Project Astra 则能与你一起谈论世界。它建立在 Gemini 的基础上Gemini 是其背后的智能核心它既与 Gemini 协同工作又可能 帮助塑造 Gemini同时也受到 Gemini 的塑造。
Hannah Fry Project Astra 仍然是一个研究原型为什么现在要 demo 它
Greg Wayne 让公众参与这个过程是好事。人们应该了解实验室里正在开发什么并提供反馈。这是一个共同创造的过程它不仅仅是在实验室里进行的也是与世界各地的用户合作进行的。
Hannah Fry 所以有人在现实世界中尝试使用它了吗
Greg Wayne 是的我们有一些值得信赖的测试者他们是一些早期的采用者。
Hannah Fry 人们用它来做什么
Greg Wayne 比如获取时尚建议。Project Astra 就像一个伙伴可以问它「什么和这个搭配我怎样才能看起来更时尚」
「Astra 可以在后台运行并在它认为合适的时候提醒你」
Hannah Fry 但硬件方面呢目前它在你的智能手机上。最终会出现在眼镜上吗
Greg Wayne 是的 智能眼镜上的体验是最亲密的 也最令人惊叹的因为你感觉自己得到了增强。但软件堆栈实际上与设备无关它可以运行在手机、电脑或 VR 头显上。
Hannah Fry 对于视力受损或失明的人来说它也有潜在的好处。
Greg Wayne 是的这是我痴迷的事情。这项技术可以在很大程度上复制一个在世界上帮助他们的同伴。例如你可以想象帮助那些难以识别情绪和面部表情的人。也可以用来训练自己你可以练习理解面部表情并让 Astra 给你反馈。当然还有 记忆力 当摄像头开启时它会记住过去 10 分钟的图像和谈论的内容。我们也很兴奋的一点是 主动性它会自己判断你有什么需要然后在你没有指示的情况下提供帮助。 比如它可以提醒你一些事情「别忘了你回家路上需要买这个。」
Hannah Fry 所以你不需要主动打开它和它对话它可以在后台运行 并在它认为合适的时候提醒你。
Greg Wayne 是的。比如你快要回家的时候它会说「别忘了你需要买橙汁因为你今天早上喝完了。」
Astra 依然面临「鸡尾酒会问题」挑战
Hannah Fry 你会经常需要纠正它吗你会注意到一些小故障吗
Greg Wayne 是的。有时候它会说它看不见一些它明明能看见的东西。你会用某种方式影响它说「你能看见」它就会说「是的我能看见。」
Hannah Fry 所以它容易被鼓励
Greg Wayne 是的。
Hannah Fry 在哪些环境它会表现得不太好
Greg Wayne 在嘈杂的条件下它很难区分不同的声音。 它会将其误认为是用户的语音。嘈杂的环境会使它感到困惑。
Hannah Fry 当你说区分不同的声音时是指波形本身吗
Greg Wayne 是的。这有一个老问题叫鸡尾酒会问题技术上被称为源分离。指的是将一个声音源与另一个声音源区分开来。
Hannah Fry 我猜这在某种程度上使 Project Astra 如此困难但也赋予了它潜力。
Greg Wayne 是的它应该能够在更多背景信息下解决歧义。
Hannah Fry 不同的语言呢目前它只支持英语吗
Greg Wayne 它实际上是多语种的精通大约 20 种语言你甚至可以在同一对话中切换语言。
Hannah Fry 这太神奇了。
Greg Wayne 我对这个系统在语言学习方面的应用感到非常兴奋。比如四处走走然后问「那是什么」让它像我在学校里那样教你。
「主动记忆」灵感来自动物
Hannah Fry 如果你正在和它互动那么它的底层到底发生了什么有哪些不同的组件
Greg Wayne 首先有一个应用程序收集视频和音频。它连接到一个服务器服务器上有视觉编码器和音频编码器。还有专门的音频系统负责了解你何时停止说话。这些都与大型语言模型 Gemini 相邻。它们将来自这些感觉编码器的信息直接发送到 Gemini然后 Gemini 做出回应。 还有一个叫做「智能体」的东西它会获取视频和音频调用搜索工具 比如 Google Lens、Google Search 或 Google Maps还有一个记忆系统。
Hannah Fry 我尝试想象 我们只是用它来识别一本书就有计算机视觉、语音识别、大型语言模型、Google Search 在底层支持、还有你做出决策的代理层。 所有这些的回答几乎没有延迟。这真是非常复杂的事情。
Greg Wayne 是的非常复杂。很少有人能理解输入模型的数据。而且为什么它会产生这样的结果可能没有人真正理解。
Hannah Fry 让我们来谈谈它的历史。在播客的第一季你是第一集的嘉宾当时你从动物王国中汲取灵感来研究智能。特别是你向我们介绍了西丛鸦以此来激发 AI 更复杂的记忆能力。我放一段当时的录音。
播放 Greg Wayne 之前的录音 …… 拥有一个可以访问的庞大数据库存储你做过和看过的事情然后用它来指导你之后的有目标的行为——我饿了。我想现在吃一些虫子。我应该去哪里找这是我们想要复制的东西……
Hannah Fry 你们做到了吗
Greg Wayne 笑你好Project Astra。你能帮我找些虫子吗
Hannah Fry 这听起来很像你的橙汁例子不是吗
Greg Wayne 这是一个主动记忆的例子。
视频是「原始通用人工智能」的连接纤维
Hannah Fry 你的神经科学背景在多大程度上启发了 Project Astra
Greg Wayne 我们利用神经科学来了解我们何时做得足够好可以思考 「记忆的真正含义是什么」 . 另一方面如果我们想要一些与人类兼容的东西也许会朝着一种 更像我们而不是直接的文本界面的智能形式发展。 例如我对 Michael Tomasello 的工作很感兴趣他认为交流的基本前提是两个人在同一个地方从而共同推断目标然后进行协作。这正是我们在这项技术中建模的内容。
Hannah Fry 这个项目的第一个火花来自哪里它是什么时候开始的
Greg Wayne DeepMind 的 CEO Demis Hassabis 向公司提出了一个挑战让我们思考什么是「原始通用人工智能」。我更倾向于智能的社会性。我认为我们可以将「原始通用人工智能」与一个有益的助手联系起来其主要目标是为与之互动的人类带来好处。当我试图让它最终变得非常自然时我逐渐开始认为 视频是系统最终的连接纤维connecting tissue。
Hannah Fry 在这个过程中有没有出现过大的突破
Greg Wayne 当时的一个主要发现是我们意识到了「提示」的概念。 告诉系统它可以通过用户的摄像头看到世界这给了它一种对事物的自我视角。 以前我们不太了解是否可以很好地提示多模态系统。
Hannah Fry 这太有趣了。当提出要创建一个「原始通用人工智能」时有人怀疑或不相信这种东西是可能实现的吗
Greg Wayne 是的。事后看来AI 的发展很奇怪因为它发展得太快了 人们对理所当然的看法变化得太快了。 当时的人们对「系统是否真的能够理解世界」感到怀疑。我们甚至没有关于不同性能水平系统所需的数据量的基本知识。
Hannah Fry 那么有没有哪个时候你认为它不可能实现
Greg Wayne 没有。 我一直觉得它有可能实现。 有段时间我可能想放弃。我认为在 Gemini 出现之前有一段缓慢的时期那段日子很艰难。但我从未动摇过它一定能实现的事实。
Hannah Fry 我听说在测试阶段你们有一个 Project Astra 房间。那里发生了什么
Greg Wayne 我们在特别的房间里玩各种各样的游戏。那里有一个完整的酒吧所以 Astra 可以帮你调酒。还有一个美术馆你可以在屏幕上显示不同的画作然后问一些关于艺术的问题。
Astra 系统的低延迟实现
Hannah Fry 让我们更深入地了解 Astra 的幕后工作。延迟是一个非常关键的事情。你们是如何改进它的
Greg Wayne 我们改进了实际的视频流通过应用程序更快地发送信息。我们总是处理图像当视频进入视觉系统时它总是尽可能快地运行。然后它与大型语言模型位于同一位置、同一组计算机中因此它不必跨越国家或大陆进行调用。
Hannah Fry 所以为了实现这种实时的理解你必须将运行这些模型的计算机硬件物理地放置在一起
Greg Wayne 是的绝对是这样。我们还有使用原生音频的想法。以前的系统都有文本识别系统。这个系统是直接接收音频的因此它不需要二级系统。使用原生音频的一个简单效果是它可以理解罕见的词或词的发音。最后一点是团队在「端点检测」方面做了很多出色的工作 它能准确地知道你何时停止说话。然后它会在猜测这是我将要说的话。当它发现用户真的已经说完话后它会立即发送出去。
Hannah Fry 预先猜测答案会是什么。
Greg Wayne 是的。这很难。 我们的系统必须使用一些「语义理解」因为它也对上下文和声音有一定的理解。
Hannah Fry 你认为 Project Astra 是否能够推理
Greg Wayne 是的。它 **主要是通过神经网络内部结构进行推理**以一种无法观察到的、非常复杂的方式。然后是它所产生的对话。它有时通过对话进行推理。
记忆机制与隐私保护
Hannah Fry 现在我想多和你谈谈记忆。它可以记住过去 10 分钟内发生的事情对吗
Greg Wayne 是的 大概是 10 分钟。 极限在于芯片上的内存。
Hannah Fry 所以目前它实际上就像一个录像机记录了过去 10 分钟发生的一切。
Greg Wayne 是的。还有一个二级系统当你关闭系统时它会提取对话总结并提取相关的事实。
Hannah Fry 它是如何决定哪些信息足够重要值得记住
Greg Wayne 它有 启发式方法。 如果你要求它记住它肯定会记住。否则它会试图说「用户是否表达了任何有趣的、或与用户已经表达过的偏好不同的偏好」
Hannah Fry 让我们来谈谈隐私问题。你们如何缓解这些隐私问题
Greg Wayne 主要标准之一是同意。 用户可以访问他们之前记录的数据可以删除或查看存储的内容。
Hannah Fry 用户的确最终会控制它了解自己的信息。
Greg Wayne 是的。
Hannah Fry DeepMind 的伦理学家 Iason Gabriel 的工作在多大程度上影响了你们的 Astra
Greg Wayne 我们和 Iason 谈了很多。我们也和他的团队一起做了很多工作。他们一直在调查模型和整个代理探索它在不同情况下的表现。我们还有一层安全过滤器防止用户受到伤害。
未来重点主动视频交互和全双工对话
Hannah Fry 那么你们接下来的优先事项是什么
Greg Wayne 我对主动视频工作非常感兴趣。也就是说 系统不仅能在你说话时做出回应还能在持续的过程中帮助你。 例如这属于为盲人提供视觉解释器的问题。当你四处走动时因为你看不到它会说「小心那边的桌子」。它可以持续地引导你。我们还在音频输出方面做了很多工作所谓的「全双工」。它可以同时处理听和说这可能会有点烦人。 它可能会打断你。但它也更像自然的对话。 当你说话时我可能会说「嗯嗯」、「嗯嗯」它在同时听和说。这是用来确认的语言的一部分。正如你所说我们还会在推理、更深层次的记忆、反思等方面投入更多精力。当它调用工具进行更深入的查询和研究时是的还有太多事情需要做得更好。
Hannah Fry 非常感谢你参与我们的节目Greg。
Greg Wayne 谢谢你Hannah。
Hannah Fry 我们对 AI 的期望变化之快真是奇怪。我们现在有了这个多模态代理的雏形。它能看、能听能记忆、有上下文、能推理、能进行多语言实时对话。当然它不是 AGI。但我们已经比两年前讨论的系统有了显著的飞跃。
原视频https://www.youtube.com/watch?vctWfv4WUp2I 编译施苏娜、傅丰元 更多 Voice Agent 学习笔记
这家语音 AI 公司新融资 2700 万美元并预测了 2025 年语音技术趋势
语音即入口AI 语音交互如何重塑下一代智能应用
Gemini 2.0 来了这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语Speak 为何能估值 10 亿美元丨Voice Agent 学习笔记
市场规模超 60 亿美元语音如何改变对话式 AI
2024 语音模型前沿研究整理Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心这家 Voice Agent 公司已服务 100客户
WebRTC 创建者刚加入了 OpenAI他是如何思考语音 AI 的未来
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
语音 AI 革命未来消费者更可能倾向于与 AI 沟通而非人工客服