阻击谷歌的Gemini!OpenAI深夜放出GPT-4o的生图能力!

GPT-4o2025-04-21 11:37:0736


蓝色字关注“AI小小将”



在去年5月份,OpenAI放出了新一代大模型GPT-4o,和GPT-4相比,GPT-4o是首个实现文本、视觉和音频端到端统一训练的全模态模型——所有输入输出均由同一神经网络处理。


GPT‑4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs.

GPT-4o("o"代表"omni/全能")标志着人机交互向更自然方向迈出重要一步——该系统能接收任意组合的文本、音频、图像及视频输入,并生成任意组合的文本、音频和图像输出。


虽然当时OpenAI展示了一些GPT-4o生成图像的一些例子,但是这项功能并没有开放。但是今年谷歌却早于OpenAI放出了Gemini 2.0 Flash的图像生成能力,而且一下子在业内引起了轰动。而今晚OpenAI终于也坐不住了,专门开了一个线上直播发布GPT-4o的生图能力。



GPT-4o 图像生成是一种全新的、比早期的 DALL·E 3 系列模型强大得多的图像生成方法。它可以创建逼真的图像输出。它能够以图像作为输入并对其进行转换。它可以遵循详细指令,包括可靠地将文本融入图像中。而且,由于它被嵌入在多模态 GPT‑4o 模型的架构深处,4o 图像生成可以运用它所掌握的一切知识,以细腻且富有表现力的方式运用这些能力,生成的图像不仅美观,而且实用。



GPT‑4o 图像生成在精确呈现文本、精准遵循提示以及利用 4o 内在的知识库和聊天上下文方面表现出色——包括转换上传的图像或将它们用作视觉灵感。这些能力使得创建你所设想的图像变得更加容易,帮助你通过视觉图像更有效地进行沟通,并将图像生成推进为一个具备精确性和强大功能的实用工具。模型在图像和文本的联合分布上训练,不仅学习了图像与语言之间的关系,还学习了图像之间的相互关系。结合激进的后训练(post-training),最终的模型展现出了令人惊讶的视觉流畅性,能够生成有用、连贯且具有上下文感知能力的图像。


文本渲染

一图胜千言,但有时在恰当的位置生成几个文字,却能提升图像的意义。4o将精确的符号与图像相结合的能力,使图像生成成为一种视觉交流的工具。



4o可以精确地生成长文字,而且生成的图像质量也很好。


多轮生成


GPT-4o现已原生支持图像生成功能,用户可通过自然对话持续优化图像。模型能基于聊天上下文中的图文内容进行迭代创作,确保生成结果的一致性。例如在设计游戏角色时,即使经过多轮修改调试,角色形象仍能保持视觉特征的连贯性。


指令遵循

GPT‑4o的图像生成能够细致地遵循详细提示,并注重细节。当其他系统在处理大约5到8个对象时还存在困难时,GPT‑4o能够处理多达10到20个不同的对象。对象与其特征和关系的更紧密绑定,使得控制更加精准。


上下文学习

GPT‑4o能够分析并从用户上传的图像中学习,将其细节无缝整合到上下文中,以指导图像生成。


世界知识

原生的图像生成能力使得4o能够将它的知识在文本和图像之间建立联系,从而形成一个感觉更智能、更高效的模型。



而且,GPT-4o在涵盖丰富多样的图像风格的图片上进行训练,使得模型能够令人信服地创建或转换图像。



不过,GPT-4o模型的生图并非完美无缺,目前存在诸多局限性。

比如生成长图片(如海报)会出现裁剪:



和文本模型一样,模型生图的时候可能出现幻觉:



在生成依赖其知识库的图像时,它可能难以一次性准确呈现超过10到20个不同的概念,比如一个完整的元素周期表。



模型有时在呈现非拉丁字母语言时会遇到困难,字符可能会不准确或出现幻觉化的情况,尤其是在语言更复杂时。



图像编辑有时候不准确,比如会改变图像的其他部分:



模型在被要求以非常小的尺寸呈现详细信息时,也会有问题:



从目前官方的例子来看,4o的生图能力和谷歌Gemini的生图能力差不多,比如多轮生成与图像编辑,在生成图像质量上,感觉4o更胜一筹,但是在图像编辑的精准度上,感觉Gemini更好。这大概两个模型的后训练策略存在较大差异。


从今天开始,4o 图像生成将作为 ChatGPT 中的默认图像生成器向 Plus、Pro、Team 和 Free 用户推出,Enterprise 和 Edu 用户的使用权限也将很快开放。它也可以在 Sora 中使用。对于那些对 DALL·E 情有独钟的用户,仍然可以通过专门的 DALL·E GPT 访问它。开发者将很快能够通过 API 使用 GPT‑4o 生成图像,访问权限将在接下来的几周内逐步开放。创建和定制图像就像使用 GPT‑4o 聊天一样简单——只需描述你的需求,包括任何具体要求,如宽高比、使用十六进制代码的确切颜色或透明背景。由于该模型生成的图像更加详细,因此图像渲染时间会更长,通常需要长达一分钟。


不过我目前还用不了,等能用了再来实测一波。





如果觉得文章不错,欢迎点赞转发

进群,请公众号回复“进群”!




本文链接:https://www.xiaogua.cc/gpt-4o/82.html

相关文章