gpt-4o多模态大模型

OpenAI刚刚发布了GPT-4o,这是一种新的人工智能模式,集合了文本、图片、视频、语音的全能模型。能够实时响应用户的需求,并通过语音来实时回答你,你可以随时打断它。还具有视觉能力,能识别视觉物体并根据视觉作出快速的响应和应答,具有非常强的逻辑推理能力。它的比GPT4-turbo快2倍,价格便宜50%!

GPT-4o是什么?真的有这么强吗?

相比GPT-4多了一个o,这个o代表了全能的意思,GPT-4o是一个真正的多模态大模型,相比GPT-4,4o是文字、语音、图片、视频样样精通。和去年很火的谷歌Gemini1.5演示效果差不多的,不过很可惜,Gemini1.5被爆出是剪辑效果,而4o确是实打实的多模态。
使用次数:
ChatGPT 免费用户:GPT-4o每三小时可以使用10次,满10次自动变成3.5。
ChatGPT Plus用户:GPT-4o每三小时可以使用80次,前40次额度和GPT-4额度共享,优先消耗。

GPT-4o都能做什么?

1、听:GPT-4o可以从音频中识别说话者的情绪甚至呼吸声。现场演示中,OpenAI 的工作人员向ChatGPT提问怎么能缓解他的紧张情绪。接着一个温柔自然的女声建议他做个深呼吸,当听到对方呼吸得很大声时,就立马跟他开玩笑说你不是吸尘器吧!当听到说话者平稳呼气吐气时,就立马鼓励和表扬。而且在你可以随时开口打断它,就像和一个真正的人在聊天一样。

2、说:GPT-4o的对话能力简直绝了,它不仅可以想朋友一样的对话,有自己的情绪,语气等等。而且几乎是零延迟,基本达到正常人与人之间的对话水平,它甚至可以在你生日的时候为你唱一首生日快乐歌。有这样一个声音好听,风趣幽默、善解人意的红颜知己谁不爱呢?

3、看:4o几乎拥有了象人一样的实时视觉能力,已经做到可以和GPT打视频电话的地步了,它可以通过摄像头来分析你的环境,表情等信息,并且解答你的各种问题。还可以来辅导你来解数学题,甚至和你一起逗狗。

4、写:GPT-4o的文本推理和编码能力都可以达到目前人工智能可以做的的最高标准。各个语言的考试能力都由于GPT-4;而且可以实现在电脑上安装GPT客户端后,GPT通过查看屏幕,对着屏幕直接编写代码。

GPT4o官网入口:
https://openai.com/index/hello-gpt-4o(国内无法直接访问)