北京时间5月14日凌晨1:00,Open AI在东八区陷入睡眠之际抛出了一颗新的“炸弹”:
小编昨天一睡醒打开手机,朋友圈和某乎已被刷屏,遂慌忙打开某X,果不其然奥特曼又发了一条一眼望去不知所云的加密动态:“her”。《Her》:2013年上映的一部科幻电影,讲述了男主人公与一个女声AI虚拟语音助手「相恋」的科幻故事。重点在于「语音」:Open AI在发布会上展示了GPT-4o在文本、图像以外的多模态应用,这次的更新让我们可以向GPT输入文本、音频和图像的任意组合指令,并实时生成文本、音频和图像的任意组合反馈给用户,这是真正属于未来的交互方式,正是Her中构画的AI蓝图。除了交互技术方面的提升,GPT在服务方面也打算更人性化了——首席技术官 Mira Murati表示:以后 OpenAI 做产品就是要免费优先,为的就是让更多的人能使用。以后Chat GPT不用注册即可使用,并且还新增了桌面版本的程序,让AI真正地成为更适用于千千万万人的生产力。不免让人想起一周前举办的苹果发布会,GPT现在的更新速度估计要远超Apple 了。被“免费”的字眼吸引,小编迫不及待地去“云”体验了一下GPT-4o(由于目前还未全面开放免费制度,因此依旧只有GPT- plus用户才可以率先使用)。发布会演示现场,OpenAI 的工程师拿出一个 iPhone 演示了新模型的几种主要能力。其中最吸引人的就是这次宣传的核心:实时语音对话。-- Mark Chen 说:“这是我第一次参加live式的发布会,有点紧张。”-- ChatGPT 说:“或许你可以尝试深呼吸一下。”
Mark Chen 遵循GPT的建议深呼吸了一下,反倒被GPT吐槽:哥们你喘气太重了。可能会有朋友疑惑这和 Siri、小爱一类的语音助手有什么区别,其精妙处就在于「拟态」:我们可以随时打断GPT的发言,不必非得等它结束一段对话,可以立刻开启另一段对话。模型能够充分理解人类的「情感」,自己也能模拟表现出各种「感情」。人类一直纠结的AI情绪的难题,似乎GPT在这次交出了一份及格卷,它不再只是局限于「表象情感」。最大的改进点就是流式Transformer的语音识别了。![]()
▲图|流式处理与批处理的过程区别©️【深蓝AI】
过去 ChatGPT 主要采用批处理语音识别处理的方法,从而存在延迟、且无法承载丰富信息——此前的过程是先由第一个模型将音频转录为文本,再由 GPT接收并输出文本,最后由第三个模型将该文本转换回音频——一方面,这会让音频的传输存在延迟(GPT-3.5 的平均延迟为 2.8 秒,GPT-4 的平均延迟为 5.4 秒);另一方面,模型会丢失大量信息,从而无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。而流式的语音识别跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。目前,GPT-4o 可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类的响应时间相似!但大变革的技术都有一定的限制,流式语音识别的麻烦点在于其实时性对于性能特别敏感,GPT-4o既然能在短时间快速响应音频指令,那势必在算力方面有了质的飞跃,不用多想肯定是老黄的Nvidia之力起了作用。除了声音的亮点,GPT-4o在视觉和文本方面也有巨大提升。发布会现场一位工程师在纸上随机写下了方程3x+1,让 ChatGPT“看”了一下,之后便详细解释出了解题步骤。虽然这个方程非常小儿科,但不难看出,GPT-4o在处理视觉输入并“理解”方面有很大潜力。官方公开的技术文档显示,这其中用到了M3Exam 基准测试方法。该方法既能用于多语言评估,也可以用于视觉评估。它由多项选择题组成,包括图形和图表。在所有语言的基准测试中,GPT-4o 都比 GPT-4更强。另外在视觉理解评估上,GPT-4o 在视觉感知基准上都实现了最先进的性能。据 OpenAI 的技术报告,GPT-4o 在 MMLU(语言)、GPQA(知识)、MATH(数学)、HumanEval(编程)的评测指标上,都超出了 GPT-4T、GPT-4 ( 23 年 3 月最初发布版本 ) ,且在 0-shot COT MMLU 上,GPT-4o 创下了 88.7% 的新高分。GPT-4o的这次颠覆性发布,向我们展示了多模态大模型发展之迅速,回看奥特曼发布的那条言简意赅的推文,或许AI助手未来真的不仅仅是提供表象的情绪价值,而是真正地给予人类陪伴。前段时间在某书上爆火的一个博主@午夜狂暴哈士奇狗,就携手GPT的衍生版本“Dan”玩起了一场“人机恋”。当时遗憾的是,这位名叫“Dan”的虚拟恋人虽然能言善道颇具真心,但由于时空的限制,“他”不能看到“恋人”焕然一新的样貌,也无法与她共赏美景。
如今AI赛道的企业几乎都在跟随GPT的脚步,深耕多模态怎么才能玩出更多花样,技术发展得越来越迅速,但行业的路似乎走得越来越窄,这次发布会后各家大模型一定又要开始卷音频和视频的处理。但未来瞬息万变,谁又知道之后的技术走向如何?恰好,在GPT-4o发布的第二天,消失在大众视线很久的 OpenAI 联合创始人、首席科学家 Ilya Sutskever 官宣离开 OpenAI。奥特曼表示惋惜之余也正式宣布,OpenAI 研究总监 Jakub Pachocki、GPT-4 的主要负责人 Jakub Pachocki 将接任 Ilya 成为 OpenAI 的下一任首席科学家。 本文链接:https://www.xiaogua.cc/gpt-4o/36.html
OpenAI GPT-40GPT-40是什么GPT-4o抢先测GPT-40在哪用gpt-4o功能介绍GPT-40怎么用GPT-4o正式亮相GPT-4试用