企业做app好还是网站好,做pc端网站用什么框架,建设银行南通通州支行网站,主图详情页设计2024年5月13日#xff0c;OpenAI 在官网正式发布了最新的旗舰模型 GPT-4o 它是一个 多模态模型#xff0c;可以实时推理音频、视频和文本。 * 发布会完整版视频回顾#xff1a;https://www.youtube.com/watch?vDQacCB9tDaw GPT-4o#xff08;“o”代表“omni”#xff0c… 2024年5月13日OpenAI 在官网正式发布了最新的旗舰模型 GPT-4o 它是一个 多模态模型可以实时推理音频、视频和文本。 * 发布会完整版视频回顾https://www.youtube.com/watch?vDQacCB9tDaw GPT-4o“o”代表“omni”意为“全能”是迈向更自然的人机交互的一大进步——它能够接受任意组合的文本、音频和图像作为输入并输出各种组合的文本、音频和图像。 它能够在232毫秒内对音频输入作出响应平均响应时间为320毫秒与人类在对话中的响应时间相近。 在英文和代码方面它与GPT-4 Turbo的性能相当而在非英文语言的文本方面有着显著的提升。 此外它在API方面不仅更快而且成本降低了50%。与现有模型相比GPT-4o在视觉和音频理解方面表现尤为出色。 * GPT-4o发布会前的预热视频 在这个发布会前的预热视频中OpenAI的员工拿着手机拍摄周围的场景GPT-4o非常快就提供了对周围环境的描述。接着员工让GPT-4o猜测今天要做什么它说可能会与OpenAI有关例如举办发布会之类的。 当员工提到这个发布会与“你”有关时GPT-4o的回答让人有些惊讶它竟然表现出人类般的 惊讶 和 停顿这是 以往任何语音助手都没有的技术特征。 曾于2013年获得奥斯卡最佳原创剧本的电影《Her》中就展现了一场人与AI的爱恨纠葛而11年后的今天无所不能的“Her”已经由GPT-4o变成了现实从今天起我们每个人都能拥有一个“Her” 01 GPT-4o功能展示 * 以下为部分功能展示之后我们将在视频号上公布GPT-4o的功能展示合辑欢迎大家关注 值得一提的是在第四个展示案例中家长要求GPT-4o 不要直接告诉答案而是像名师一般“授之于鱼不如授之于渔”并逐步 引导学生自我思维并最终学会解题思路 的方式。 02 GPT-4o功能评估 在传统基准测试中GPT-4o 在文本、推理和编码智能方面实现了与 GPT-4 Turbo 相当的性能同时在多语言、音频和视觉能力方面设立了新的高水平标杆。 1、文本性能 提升的文本推理能力GPT-4o在MMLU上取得了 88.7% 的新高分超过了包括Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0、Llama3 400b等目前市面上著名大模型。 2、音频ASR性能 音频ASR性能GPT-4o 在所有语言上显著提高了与Whisper-v3的语音识别性能特别是对于资源较少的语言。 3、音频翻译性能 音频翻译性能GPT-4o 在语音翻译方面取得了新的 最先进水平并在MLS基准上优于Whisper-v3。 4、视觉理解评估 视觉理解评估GPT-4o 在视觉感知基准测试上取得了 最先进的性能。 目前GPT-4o 的文本和图像功能已经对ChatGPT开放不久后OpenAI将在ChatGPT Plus中推出GPT-4o的语音模式的新Alpha版本。让我们期待更强大的语音助手出现吧。 --- End --- 欢迎关注微软 智汇AI 官方账号 一手资讯抢先了解 喜欢就点击一下 在看 吧~