太震撼了!兄弟们!先看视频:
OpenAI 在 5 月 13 日宣布了其新的旗舰模型 GPT-4o,其中 "o" 代表 "omni",意指全方位。
GPT-4o 能够接受并生成文本、音频和图像的任意组合输入和输出,响应时间可低至 232 毫秒,平均为 320 毫秒,与人类对话的反应时间相当。
该模型在文本、特别是非英语文本的理解上表现出色,同时在视觉和音频理解方面超越了现有模型。GPT-4o 在传统基准测试上达到了与 GPT-4 Turbo 相当的文本、推理和编码智能水平,同时在多语言、音频和视觉能力方面创下了新的最高水平。
有趣的是,GPT-4o模型还能以多种语言进行自我介绍,从“こんにちは、私の名前はGPT−4oです。”到“Hola, me llamo GPT-4o”,每一种语言都透露出GPT-4o模型的友好和开放性。这种自我介绍的方式,不仅展示了GPT-4o的语言能力,也体现了人工智能在模仿人类交流方式上的进步。
GPT-4o 通过端到端的训练方式处理所有输入和输出,这意味着同一个神经网络处理文本、视觉和音频数据。尽管 GPT-4o 在多种模态上的探索和评估表明其具有强大的能力,但 OpenAI 也承认该模型存在局限性,并鼓励反馈以帮助进一步改进模型。
GPT-4o 在安全性方面也进行了设计,通过过滤训练数据和后训练优化模型行为,以及新的安全系统来限制语音输出的风险。该模型在 OpenAI 的准备性框架和自愿承诺中进行了评估,并且在网络安全、CBRN、说服力和模型自主性等方面的风险评估显示其在这些类别中的风险均不超过中等水平。
GPT-4o 的文本和图像功能将在 ChatGPT 中逐步推出,并且在免费层和 Plus 用户中提供更高的消息限制。开发者也可以通过 API 访问 GPT-4o 的文本和视觉模型,该模型比 GPT-4 Turbo 更快、价格更低,且具有更高的速率限制。