OpenAI发布会:全新“GPT-4o”问世,全新多模态AI时代的转折点!

GPT-4o2025-04-26 01:17:40125

北京时间2024年5月14日凌晨一点,OpenAI举办了备受瞩目的Spring发布会。

在大众心目中,OpenAI早已成为了PR高手的代名词。每一次发布会都准确无误地点燃了业界的火药桶,给竞争对手们带来了不小的压力。而这一次,发布会的时间点也是如此精准,刚好赶在了5月15日 2024 Google IO开发者大会之前,让人不禁要为Google捏一把汗。

但是,今天OpenAI新品却是如此令人震撼,直接摧毁了一切竞争对手想象空间。

OpenAI GPT-4o 发布会现场

1. 新模型:GPT-4o

OpenAI正式发布了全新的模型——GPT-4o。

这个“o”代表着“Omni”,在拉丁语中意为“全体”、“所有”或“全面的”。而“omni”作为前缀在英语中表示“所有的”或“全体的”,如“omniscient”意为“无所不知的”,“omnipotent”意为“全能的”,“omnipresent”意为“无所不在的”。

在GPT-4o之前,使用Voice Mode与ChatGPT进行对话的延迟平均为2.8秒(GPT-3.5)和5.4秒(GPT-4)。通过使用三个独立模型的管道,即一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,以及第三个简单模型将文本转换为音频。但是这种处理方式导致主要智能来源的GPT-4失去了很多信息。三个过程都会产生延迟,累计起来延迟非常的大。

GPT-4o的问世标志着一种全新的多模态时代的到来,它不仅能处理文本,还能实时推理音频和视觉,让传统的GPT-4V相形见绌。

在多项基准测试中,GPT-4o几乎碾压了以往的所有模型,尤其在图表理解和视觉回答等方面表现出色。

文本推理能力(多项评测均处于第一的水平):

语音识别能力(甚至强于专门训练的whisperv3的能力):

多语言考试测试(包括不同语言的多选题):

视觉理解能力(GPT-4o获得全新的SOTA视觉模型成绩):

2. 全新ChatGPT

基于GPT-4o打造的全新ChatGPT

"GPT4-o"在语音对话中几乎没有延迟,并且能够实时响应,甚至可以理解对话中的情绪和呼吸声音。它的情感表达和真实性让人不禁为之惊叹,仿佛在面对真人一般。

更令人惊叹的是,"GPT4-o"还具备了视觉功能,可以直接打开摄像头,实时感知周围环境,并对其做出相应的回应。

测试人员利用摄像头让GPT4-o对人物和环境进行感知

另外,他们还推出了适用于macOS的ChatGPT桌面应用程序,可以方便用户快速进行提问、讨论截图以及进行语音对话等。

支持对桌面的画面进行聊天会话,如对代码的介绍、函数的实现等

支持对桌面的画面进行聊天会话,如对图表信息描述和分析

在这次发布会之后,我们不禁要思考,人类在AI时代该何去何从?

OpenAI的新产品GPT-4o无疑给我们带来了无限的想象空间,但与此同时,也让我们思考人类与技术的关系,以及如何更好地融合人类的情感与智慧。

总之,OpenAI的这次发布会可谓是AI领域的一次里程碑,让我们拭目以待,期待着更多的创新和突破。如果您对这篇文章感兴趣,别忘了点赞、转发,并关注我们的微信公众号,获取更多精彩内容!

本文链接:https://www.xiaogua.cc/gpt-4o/24.html

gpt-4o检测人的情绪gpt-4o多模态大模型发布GPT-4o官网GPT4o官网

相关文章