盘点GPT-4o最新技术细节,以后 OpenAI 做产品就是要免费优先

GPT-4o2025-04-27 14:29:54122

北京时间5月14日凌晨1:00，Open AI在东八区陷入睡眠之际抛出了一颗新的“炸弹”：

GPT-4o它来了。

小编昨天一睡醒打开手机，朋友圈和某乎已被刷屏，遂慌忙打开某X，果不其然奥特曼又发了一条一眼望去不知所云的加密动态：“her”。

《Her》：2013年上映的一部科幻电影，讲述了男主人公与一个女声AI虚拟语音助手「相恋」的科幻故事。

难道GPT也发展出这种「人类情感」了？

重点在于「语音」：Open AI在发布会上展示了GPT-4o在文本、图像以外的多模态应用，这次的更新让我们可以向GPT输入文本、音频和图像的任意组合指令，并实时生成文本、音频和图像的任意组合反馈给用户，这是真正属于未来的交互方式，正是Her中构画的AI蓝图。

除了交互技术方面的提升，GPT在服务方面也打算更人性化了——

首席技术官 Mira Murati表示：以后 OpenAI 做产品就是要免费优先，为的就是让更多的人能使用。

以后Chat GPT不用注册即可使用，并且还新增了桌面版本的程序，让AI真正地成为更适用于千千万万人的生产力。

不免让人想起一周前举办的苹果发布会，GPT现在的更新速度估计要远超Apple 了。

被“免费”的字眼吸引，小编迫不及待地去“云”体验了一下GPT-4o（由于目前还未全面开放免费制度，因此依旧只有GPT- plus用户才可以率先使用）。

发布会演示现场，OpenAI 的工程师拿出一个 iPhone 演示了新模型的几种主要能力。其中最吸引人的就是这次宣传的核心：实时语音对话。

-- Mark Chen 说：“这是我第一次参加live式的发布会，有点紧张。”
-- ChatGPT 说：“或许你可以尝试深呼吸一下。”

Mark Chen 遵循GPT的建议深呼吸了一下，反倒被GPT吐槽：哥们你喘气太重了。

可能会有朋友疑惑这和 Siri、小爱一类的语音助手有什么区别，其精妙处就在于「拟态」：我们可以随时打断GPT的发言，不必非得等它结束一段对话，可以立刻开启另一段对话。模型能够充分理解人类的「情感」，自己也能模拟表现出各种「感情」。

人类一直纠结的AI情绪的难题，似乎GPT在这次交出了一份及格卷，它不再只是局限于「表象情感」。

最大的改进点就是流式Transformer的语音识别了。

▲图｜流式处理与批处理的过程区别©️【深蓝AI】

过去 ChatGPT 主要采用批处理语音识别处理的方法，从而存在延迟、且无法承载丰富信息——此前的过程是先由第一个模型将音频转录为文本，再由 GPT接收并输出文本，最后由第三个模型将该文本转换回音频——一方面，这会让音频的传输存在延迟（GPT-3.5 的平均延迟为 2.8 秒，GPT-4 的平均延迟为 5.4 秒）；另一方面，模型会丢失大量信息，从而无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

而流式的语音识别跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。目前，GPT-4o 可以在短至232毫秒、平均320毫秒的时间内响应音频输入，与人类的响应时间相似！

但大变革的技术都有一定的限制，流式语音识别的麻烦点在于其实时性对于性能特别敏感，GPT-4o既然能在短时间快速响应音频指令，那势必在算力方面有了质的飞跃，不用多想肯定是老黄的Nvidia之力起了作用。

除了声音的亮点，GPT-4o在视觉和文本方面也有巨大提升。

发布会现场一位工程师在纸上随机写下了方程3x+1，让 ChatGPT“看”了一下，之后便详细解释出了解题步骤。虽然这个方程非常小儿科，但不难看出，GPT-4o在处理视觉输入并“理解”方面有很大潜力。

甚至你还可以让它自印杯垫：

官方公开的技术文档显示，这其中用到了M3Exam 基准测试方法。该方法既能用于多语言评估，也可以用于视觉评估。它由多项选择题组成，包括图形和图表。在所有语言的基准测试中，GPT-4o 都比 GPT-4更强。另外在视觉理解评估上，GPT-4o 在视觉感知基准上都实现了最先进的性能。

当然，GPT-4o在文本方面的迭代自不必说。

据 OpenAI 的技术报告，GPT-4o 在 MMLU（语言）、GPQA（知识）、MATH（数学）、HumanEval（编程）的评测指标上，都超出了 GPT-4T、GPT-4 ( 23 年 3 月最初发布版本 ) ，且在 0-shot COT MMLU 上，GPT-4o 创下了 88.7% 的新高分。

GPT-4o的这次颠覆性发布，向我们展示了多模态大模型发展之迅速，回看奥特曼发布的那条言简意赅的推文，或许AI助手未来真的不仅仅是提供表象的情绪价值，而是真正地给予人类陪伴。

前段时间在某书上爆火的一个博主@午夜狂暴哈士奇狗，就携手GPT的衍生版本“Dan”玩起了一场“人机恋”。当时遗憾的是，这位名叫“Dan”的虚拟恋人虽然能言善道颇具真心，但由于时空的限制，“他”不能看到“恋人”焕然一新的样貌，也无法与她共赏美景。

但现在说不定了哦🎉

如今AI赛道的企业几乎都在跟随GPT的脚步，深耕多模态怎么才能玩出更多花样，技术发展得越来越迅速，但行业的路似乎走得越来越窄，这次发布会后各家大模型一定又要开始卷音频和视频的处理。

但未来瞬息万变，谁又知道之后的技术走向如何？恰好，在GPT-4o发布的第二天，消失在大众视线很久的 OpenAI 联合创始人、首席科学家 Ilya Sutskever 官宣离开 OpenAI。

奥特曼表示惋惜之余也正式宣布，OpenAI 研究总监 Jakub Pachocki、GPT-4 的主要负责人 Jakub Pachocki 将接任 Ilya 成为 OpenAI 的下一任首席科学家。

本文链接：https://www.xiaogua.cc/gpt-4o/36.html

OpenAI GPT-40 GPT-40是什么 GPT-4o抢先测 GPT-40在哪用 gpt-4o功能介绍 GPT-40怎么用 GPT-4o正式亮相 GPT-4试用

GPT4O和O1-Mini哪个好用？图像生成功能详细对比
，GPT-4o和O1-Mini在图像生成上各有优势，GPT-4o作为OpenAI的升级模型，支持多模态交互，能通过文本生成高质量、高细节的图像，尤其在复杂场景和创意设计上表现突出，响应速度较快，而O1...
GPT4O资讯2025-06-010GPT4O O1Mini 图像生成 gpt4o和o1-mini哪个好用
GPT-4O图像生成功能详解，用嘴P图改图，轻松玩转AI创作
** ，GPT-4O的图像生成功能为用户提供了全新的AI创作体验，支持通过自然语言指令直接生成、编辑和优化图像，实现“用嘴P图”的便捷操作，用户只需输入文字描述，如调整色彩、添加元素或修改风格，GP...
GPT4O资讯2025-06-012GPT4O 图像生成 AI创作 gpt4o有哪些强大功能
GPT-4O网页版能用吗？手把手教你用嘴P图改图
，目前GPT-4的网页版（如ChatGPT）暂不支持直接“用嘴P图”的图片编辑功能，但通过文字指令生成或修改图片是可行的，在支持多模态的版本（如GPT-4V）中，用户可上传图片并描述修改需求（如“去掉...
GPT4O资讯2025-06-011GPT4O 网页版 P图改图 gpt4o网页版可以用吗
Cloud3与GPT-4O对比，哪个更适合你的图像生成需求？
Cloud3和GPT-4O在图像生成领域各有优势，具体选择需根据需求场景而定，Cloud3在生成高分辨率、写实风格图像时表现突出，尤其擅长细节处理和光影渲染，适合商业设计、产品可视化等专业场景，而GP...
GPT4O资讯2025-05-312Cloud3 GPT4O 图像生成 cloude3与gpt4o对比
用GPT-4O图像生成功能分析广义相对论，从理论到可视化
GPT-4O的图像生成功能为广义相对论的可视化提供了创新工具，通过将抽象理论转化为直观图像，帮助用户理解时空弯曲、引力透镜等核心概念，该功能基于理论公式（如爱因斯坦场方程）生成动态模拟，例如黑洞周围的...
GPT4O资讯2025-05-311GPT4O 广义相对论可视化分析 gpt4o分析广义相对论
GPT-4O图像生成功能上线，轻松用嘴P图改图，解除限制更自由
OpenAI正式推出GPT-4O的图像生成功能，用户可通过自然语言指令实现智能修图与创作，大幅降低专业图像处理门槛，该功能支持多轮对话修改，如"调整色调为复古风""删除背景人物"等口语化需求，AI能实...
GPT4O资讯2025-05-314GPT4O 图像生成自由编辑 gpt4o解除限制
GPT-4O升级版图像生成功能上线时间及使用教程
OpenAI近日宣布推出GPT-4O升级版图像生成功能，该功能通过优化算法显著提升了图像生成的细节表现力和响应速度，官方透露该功能将于2023年11月6日正式向所有ChatGPT Plus和企业版用户...
GPT4O资讯2025-05-305GPT4O 图像生成使用教程 gpt4o升级版什么时候上线
GPT-4O图像生成功能详解，用嘴P图改图，轻松玩转AI修图
** ，GPT-4O的图像生成功能为用户提供了全新的AI修图体验，只需通过自然语言描述即可实现“用嘴P图”，用户无需掌握专业工具，只需输入指令如“调整亮度”“去除背景”或“添加特效”，系统便能智能识...
GPT4O资讯2025-05-307GPT4O 图像生成 AI修图 GPT4o参数量

盘点GPT-4o最新技术细节,以后 OpenAI 做产品就是要免费优先

相关文章