阻击谷歌的Gemini！OpenAI深夜放出GPT-4o的生图能力！

GPT-4o2025-04-21 11:37:0736

⇧点蓝色字关注“AI小小将”

在去年5月份，OpenAI放出了新一代大模型GPT-4o，和GPT-4相比，GPT-4o是首个实现文本、视觉和音频端到端统一训练的全模态模型——所有输入输出均由同一神经网络处理。

GPT‑4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs.

GPT-4o（"o"代表"omni/全能"）标志着人机交互向更自然方向迈出重要一步——该系统能接收任意组合的文本、音频、图像及视频输入，并生成任意组合的文本、音频和图像输出。

虽然当时OpenAI展示了一些GPT-4o生成图像的一些例子，但是这项功能并没有开放。但是今年谷歌却早于OpenAI放出了Gemini 2.0 Flash的图像生成能力，而且一下子在业内引起了轰动。而今晚OpenAI终于也坐不住了，专门开了一个线上直播发布GPT-4o的生图能力。

GPT-4o 图像生成是一种全新的、比早期的 DALL·E 3 系列模型强大得多的图像生成方法。它可以创建逼真的图像输出。它能够以图像作为输入并对其进行转换。它可以遵循详细指令，包括可靠地将文本融入图像中。而且，由于它被嵌入在多模态 GPT‑4o 模型的架构深处，4o 图像生成可以运用它所掌握的一切知识，以细腻且富有表现力的方式运用这些能力，生成的图像不仅美观，而且实用。

GPT‑4o 图像生成在精确呈现文本、精准遵循提示以及利用 4o 内在的知识库和聊天上下文方面表现出色——包括转换上传的图像或将它们用作视觉灵感。这些能力使得创建你所设想的图像变得更加容易，帮助你通过视觉图像更有效地进行沟通，并将图像生成推进为一个具备精确性和强大功能的实用工具。模型在图像和文本的联合分布上训练，不仅学习了图像与语言之间的关系，还学习了图像之间的相互关系。结合激进的后训练（post-training），最终的模型展现出了令人惊讶的视觉流畅性，能够生成有用、连贯且具有上下文感知能力的图像。

文本渲染

一图胜千言，但有时在恰当的位置生成几个文字，却能提升图像的意义。4o将精确的符号与图像相结合的能力，使图像生成成为一种视觉交流的工具。

4o可以精确地生成长文字，而且生成的图像质量也很好。

多轮生成

GPT-4o现已原生支持图像生成功能，用户可通过自然对话持续优化图像。模型能基于聊天上下文中的图文内容进行迭代创作，确保生成结果的一致性。例如在设计游戏角色时，即使经过多轮修改调试，角色形象仍能保持视觉特征的连贯性。

指令遵循

GPT‑4o的图像生成能够细致地遵循详细提示，并注重细节。当其他系统在处理大约5到8个对象时还存在困难时，GPT‑4o能够处理多达10到20个不同的对象。对象与其特征和关系的更紧密绑定，使得控制更加精准。

上下文学习

GPT‑4o能够分析并从用户上传的图像中学习，将其细节无缝整合到上下文中，以指导图像生成。

世界知识

原生的图像生成能力使得4o能够将它的知识在文本和图像之间建立联系，从而形成一个感觉更智能、更高效的模型。

而且，GPT-4o在涵盖丰富多样的图像风格的图片上进行训练，使得模型能够令人信服地创建或转换图像。

不过，GPT-4o模型的生图并非完美无缺，目前存在诸多局限性。

比如生成长图片（如海报）会出现裁剪：

和文本模型一样，模型生图的时候可能出现幻觉：

在生成依赖其知识库的图像时，它可能难以一次性准确呈现超过10到20个不同的概念，比如一个完整的元素周期表。

模型有时在呈现非拉丁字母语言时会遇到困难，字符可能会不准确或出现幻觉化的情况，尤其是在语言更复杂时。

图像编辑有时候不准确，比如会改变图像的其他部分：

模型在被要求以非常小的尺寸呈现详细信息时，也会有问题：

从目前官方的例子来看，4o的生图能力和谷歌Gemini的生图能力差不多，比如多轮生成与图像编辑，在生成图像质量上，感觉4o更胜一筹，但是在图像编辑的精准度上，感觉Gemini更好。这大概两个模型的后训练策略存在较大差异。

从今天开始，4o 图像生成将作为 ChatGPT 中的默认图像生成器向 Plus、Pro、Team 和 Free 用户推出，Enterprise 和 Edu 用户的使用权限也将很快开放。它也可以在 Sora 中使用。对于那些对 DALL·E 情有独钟的用户，仍然可以通过专门的 DALL·E GPT 访问它。开发者将很快能够通过 API 使用 GPT‑4o 生成图像，访问权限将在接下来的几周内逐步开放。创建和定制图像就像使用 GPT‑4o 聊天一样简单——只需描述你的需求，包括任何具体要求，如宽高比、使用十六进制代码的确切颜色或透明背景。由于该模型生成的图像更加详细，因此图像渲染时间会更长，通常需要长达一分钟。

不过我目前还用不了，等能用了再来实测一波。

如果觉得文章不错，欢迎点赞与转发！

进群，请公众号回复“进群”！

本文链接：https://www.xiaogua.cc/gpt-4o/82.html

GPT-4O图像生成功能详解，用嘴P图改图，轻松玩转AI创作
** ，GPT-4O的图像生成功能为用户提供了全新的AI创作体验，支持通过自然语言指令直接生成、编辑和优化图像，实现“用嘴P图”的便捷操作，用户只需输入文字描述，如调整色彩、添加元素或修改风格，GP...
GPT4O资讯2025-06-012GPT4O 图像生成 AI创作 gpt4o有哪些强大功能
GPT-4O网页版能用吗？手把手教你用嘴P图改图
，目前GPT-4的网页版（如ChatGPT）暂不支持直接“用嘴P图”的图片编辑功能，但通过文字指令生成或修改图片是可行的，在支持多模态的版本（如GPT-4V）中，用户可上传图片并描述修改需求（如“去掉...
GPT4O资讯2025-06-011GPT4O 网页版 P图改图 gpt4o网页版可以用吗
Cloud3与GPT-4O对比，哪个更适合你的图像生成需求？
Cloud3和GPT-4O在图像生成领域各有优势，具体选择需根据需求场景而定，Cloud3在生成高分辨率、写实风格图像时表现突出，尤其擅长细节处理和光影渲染，适合商业设计、产品可视化等专业场景，而GP...
GPT4O资讯2025-05-312Cloud3 GPT4O 图像生成 cloude3与gpt4o对比
用GPT-4O图像生成功能分析广义相对论，从理论到可视化
GPT-4O的图像生成功能为广义相对论的可视化提供了创新工具，通过将抽象理论转化为直观图像，帮助用户理解时空弯曲、引力透镜等核心概念，该功能基于理论公式（如爱因斯坦场方程）生成动态模拟，例如黑洞周围的...
GPT4O资讯2025-05-311GPT4O 广义相对论可视化分析 gpt4o分析广义相对论
GPT-4O图像生成功能上线，轻松用嘴P图改图，解除限制更自由
OpenAI正式推出GPT-4O的图像生成功能，用户可通过自然语言指令实现智能修图与创作，大幅降低专业图像处理门槛，该功能支持多轮对话修改，如"调整色调为复古风""删除背景人物"等口语化需求，AI能实...
GPT4O资讯2025-05-314GPT4O 图像生成自由编辑 gpt4o解除限制
GPT-4O升级版图像生成功能上线时间及使用教程
OpenAI近日宣布推出GPT-4O升级版图像生成功能，该功能通过优化算法显著提升了图像生成的细节表现力和响应速度，官方透露该功能将于2023年11月6日正式向所有ChatGPT Plus和企业版用户...
GPT4O资讯2025-05-304GPT4O 图像生成使用教程 gpt4o升级版什么时候上线
GPT-4O图像生成功能详解，用嘴P图改图，轻松玩转AI修图
** ，GPT-4O的图像生成功能为用户提供了全新的AI修图体验，只需通过自然语言描述即可实现“用嘴P图”，用户无需掌握专业工具，只需输入指令如“调整亮度”“去除背景”或“添加特效”，系统便能智能识...
GPT4O资讯2025-05-307GPT4O 图像生成 AI修图 GPT4o参数量
设置你的API密钥
由于您没有提供具体的内容，我无法生成摘要，请您提供需要摘要的文本内容，我可以为您生成一段100-200字的简洁摘要。，如果您需要设置API密钥（例如用于OpenAI或其他服务），通常需要在相应的平...
GPT4O资讯2025-05-306API 密钥设置 gpt4o写的代码