今儿凌晨,ChatGPT 正式上线了基于 GPT - 4o 模型的原生图像生成功能,这可算得上是这几年 ChatGPT 在图片处理能力这块的一次重大升级。
早先前发布 GPT - 4o 的时候,OpenAI 就说这模型具备超厉害的多模态推理能力,语音、文本还有视觉信息都能处理。可之前呢,ChatGPT 就只能生成和编辑文本,没办法生成图像。
嘿,今天这新的图片生成功能终于亮相啦!
感觉还挺不错的,看来 OpenAI 是受了 DeepSeek 的影响,开始慢慢把重要功能向更多免费用户开放了。这算是今年 OpenAI 在策略上的一个重大转变,他们想让 AI 变得更普及、更开放。
不过,这个图像功能对用户来讲其实不算陌生。就在不久前,谷歌也给自家旗舰模型之一 Gemini 2.0 Flash 推出了实验性的原生图像输出功能。
2023 年 9 月的时候,OpenAI 发布过新一代的作图模型 DALL·E3 。从今天起,GPT - 4o 的图像生成功能在 ChatGPT 里正式取代了 DALL·E3 。相对而言,GPT - 4o 生成图像的时候,“思考”时间会长一些,OpenAI 说这样能生成更精准、细节更丰富的图像。而且 GPT - 4o 还能编辑现有的图像,哪怕是有人物的图像也不在话下,能对图像进行变形处理,或者“修复”像前景、背景里物体的细节。
为了实现这个新的图像功能,OpenAI 跟媒体透露,他们训练 GPT - 4o 用的是“公开能获取的数据”,还有像 Shutterstock 这些合作伙伴提供的专有数据。在图像输出这块儿,OpenAI 会尊重艺术家的权益,并且有相应策略避免生成直接模仿在世艺术家作品的图像。
说真的,OpenAI 的实力确实不容小觑,就目前呈现的效果来看,它的能力可比 Google 强多了。给你们看几个例子哈。
提示词大致描述的是一张用手机拍摄的玻璃白板广角图像,拍摄地点在能俯瞰海湾大桥的房间里。画面中能看到一名女性正在写字,她穿着一件印有大大的 OpenAI 标志的 T 恤。字迹看上去很自然,还有点小凌乱,甚至还能看到摄影师的倒影。而且,提示词里还指定了白板上的文字内容。
最后生成的图像效果那叫一个逼真。
再进一步修改提示词:
从今天起,4o图像生成功能作为ChatGPT里的默认图像生成器,面向Plus、Pro、Team以及Free用户开放啦,Enterprise和Edu用户也快能用上了。而且在Sora里同样可以使用这个功能。要是有人心里还惦记着DALL·E,它依然能通过专门的DALL·E GPT来使用。
眼下,这项功能已经在ChatGPT和Sora上,供所有付费和免费用户使用了。API也马上就会推出,已经在推进当中咯。