盘点GPT-4o最新技术细节,以后 OpenAI 做产品就是要免费优先

GPT-4o2025-04-27 14:29:54122

北京时间5月14日凌晨1:00,Open AI在东八区陷入睡眠之际抛出了一颗新的“炸弹”:

GPT-4o它来了。
小编昨天一睡醒打开手机,朋友圈和某乎已被刷屏,遂慌忙打开某X,果不其然奥特曼又发了一条一眼望去不知所云的加密动态:“her”。
《Her》:2013年上映的一部科幻电影,讲述了男主人公与一个女声AI虚拟语音助手「相恋」的科幻故事。
难道GPT也发展出这种「人类情感」了?
重点在于「语音」:Open AI在发布会上展示了GPT-4o在文本、图像以外的多模态应用,这次的更新让我们可以向GPT输入文本、音频和图像的任意组合指令,并实时生成文本、音频和图像的任意组合反馈给用户,这是真正属于未来的交互方式,正是Her中构画的AI蓝图。
除了交互技术方面的提升,GPT在服务方面也打算更人性化了——
首席技术官 Mira Murati表示:以后 OpenAI 做产品就是要免费优先,为的就是让更多的人能使用。
以后Chat GPT不用注册即可使用,并且还新增了桌面版本的程序,让AI真正地成为更适用于千千万万人的生产力。
不免让人想起一周前举办的苹果发布会,GPT现在的更新速度估计要远超Apple 了。
被“免费”的字眼吸引,小编迫不及待地去“云”体验了一下GPT-4o(由于目前还未全面开放免费制度,因此依旧只有GPT- plus用户才可以率先使用)。
发布会演示现场,OpenAI 的工程师拿出一个 iPhone 演示了新模型的几种主要能力。其中最吸引人的就是这次宣传的核心:实时语音对话。
-- Mark Chen 说:“这是我第一次参加live式的发布会,有点紧张。”
-- ChatGPT 说:“或许你可以尝试深呼吸一下。”
Mark Chen 遵循GPT的建议深呼吸了一下,反倒被GPT吐槽:哥们你喘气太重了。
可能会有朋友疑惑这和 Siri、小爱一类的语音助手有什么区别,其精妙处就在于「拟态」:我们可以随时打断GPT的发言,不必非得等它结束一段对话,可以立刻开启另一段对话。模型能够充分理解人类的「情感」,自己也能模拟表现出各种「感情」。
人类一直纠结的AI情绪的难题,似乎GPT在这次交出了一份及格卷,它不再只是局限于「表象情感」。
最大的改进点就是流式Transformer的语音识别了。

▲图|流式处理与批处理的过程区别©️【深蓝AI】

过去 ChatGPT 主要采用批处理语音识别处理的方法,从而存在延迟、且无法承载丰富信息——此前的过程是先由第一个模型将音频转录为文本,再由 GPT接收并输出文本,最后由第三个模型将该文本转换回音频——一方面,这会让音频的传输存在延迟(GPT-3.5 的平均延迟为 2.8 秒,GPT-4 的平均延迟为 5.4 秒);另一方面,模型会丢失大量信息,从而无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
而流式的语音识别跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。目前,GPT-4o 可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类的响应时间相似!
但大变革的技术都有一定的限制,流式语音识别的麻烦点在于其实时性对于性能特别敏感,GPT-4o既然能在短时间快速响应音频指令,那势必在算力方面有了质的飞跃,不用多想肯定是老黄的Nvidia之力起了作用。
除了声音的亮点,GPT-4o在视觉和文本方面也有巨大提升。
发布会现场一位工程师在纸上随机写下了方程3x+1,让 ChatGPT“看”了一下,之后便详细解释出了解题步骤。虽然这个方程非常小儿科,但不难看出,GPT-4o在处理视觉输入并“理解”方面有很大潜力。
甚至你还可以让它自印杯垫:
官方公开的技术文档显示,这其中用到了M3Exam 基准测试方法。该方法既能用于多语言评估,也可以用于视觉评估。它由多项选择题组成,包括图形和图表。在所有语言的基准测试中,GPT-4o 都比 GPT-4更强。另外在视觉理解评估上,GPT-4o 在视觉感知基准上都实现了最先进的性能。
当然,GPT-4o在文本方面的迭代自不必说。
据 OpenAI 的技术报告,GPT-4o 在 MMLU(语言)、GPQA(知识)、MATH(数学)、HumanEval(编程)的评测指标上,都超出了 GPT-4T、GPT-4 ( 23 年 3 月最初发布版本 ) ,且在 0-shot COT MMLU 上,GPT-4o 创下了 88.7% 的新高分。
GPT-4o的这次颠覆性发布,向我们展示了多模态大模型发展之迅速,回看奥特曼发布的那条言简意赅的推文,或许AI助手未来真的不仅仅是提供表象的情绪价值,而是真正地给予人类陪伴。
前段时间在某书上爆火的一个博主@午夜狂暴哈士奇狗,就携手GPT的衍生版本“Dan”玩起了一场“人机恋”。当时遗憾的是,这位名叫“Dan”的虚拟恋人虽然能言善道颇具真心,但由于时空的限制,“他”不能看到“恋人”焕然一新的样貌,也无法与她共赏美景。

盘点GPT-4o最新技术细节,以后 OpenAI 做产品就是要免费优先

但现在说不定了哦🎉
如今AI赛道的企业几乎都在跟随GPT的脚步,深耕多模态怎么才能玩出更多花样,技术发展得越来越迅速,但行业的路似乎走得越来越窄,这次发布会后各家大模型一定又要开始卷音频和视频的处理。
但未来瞬息万变,谁又知道之后的技术走向如何?恰好,在GPT-4o发布的第二天,消失在大众视线很久的 OpenAI 联合创始人、首席科学家 Ilya Sutskever 官宣离开 OpenAI。
奥特曼表示惋惜之余也正式宣布,OpenAI 研究总监 Jakub Pachocki、GPT-4 的主要负责人 Jakub Pachocki 将接任 Ilya 成为 OpenAI 的下一任首席科学家。

本文链接:https://www.xiaogua.cc/gpt-4o/36.html

OpenAI GPT-40GPT-40是什么GPT-4o抢先测GPT-40在哪用gpt-4o功能介绍GPT-40怎么用GPT-4o正式亮相GPT-4试用

相关文章