GPT-4o(GPT-4 omni 的缩写)是由ChatGPT背后的公司 OpenAI 制作的人工智能模型。它作为聊天机器人的默认模型,可以通过该公司的 API集成到其他生成式 AI工具中。
什么是 GPT-4o?
GPT-4o 是 OpenAI 开发的大型语言模型。它是多模态的,这意味着它可以实时推理文本、视觉和音频。
与 OpenAI 的其他大型语言模型类似,GPT-4o 可用于生成书面内容并与用户进行基于文本的对话。它也是多模式的,这意味着除了文本之外,它还可以理解和生成图像和音频等。OpenAI发言人称, 所有这些都是在单个系统中完成的,这有助于实现更自然的人机交互。
OpenAI 首席技术官 Mira Murati 在 GPT-4o 的直播演示中表示:“我们正在展望人类与机器之间互动的未来。我们认为 GPT-4o 确实将这种模式转变为协作的未来,这种互动将变得更加自然和容易。”
什么是 GPT-4o?
GPT-4o 于 2024 年 5 月推出,是 OpenAI 公司开发的多语言、多模式 AI 模型。在功能和性能方面,它是该公司所有模型中能力最强的,提供与其前身GPT-4类似的语言处理能力,但速度更快、成本更低。GPT-4o 还擅长复杂推理、语言翻译、数学和编码。
GPT-4o 旨在通过一个神经网络处理和整合文本、视觉效果和音频,让模型能够更全面地理解所有这些模态中的主题。例如,如果用户给 GPT-4o 一张生日蛋糕的照片并询问制作该蛋糕的食谱,该模型可以分析图像——识别出这是生日蛋糕,记下它的尺寸和其他细节——并生成准确的食谱。
北德克萨斯大学信息科学助理教授 Brady Lund 研究过GPT -4o 的功能,他表示,这种原生多模态性“显著”提高了 GPT-4o 的速度和效率。 它还使 ChatGPT 能够更像人类一样工作,同时处理来自多个来源的信息,以更好地帮助用户。
“除了大脑,[人类]还有眼睛和耳朵。我们能够倾听,能够看到事物,”生成式人工智能专家 Ritesh Vajariya 声称。“[GPT-4o] 能够将所有这些功能结合到一起。”
GPT-4o 能做什么?
据 OpenAI 介绍,该模型最突出的能力包括:
文本摘要和生成: GPT-4o 可以执行常见的 LLM 任务,例如文本摘要、内容生成和与用户的基于文本的聊天。此外,凭借高达 128,000 个标记的上下文窗口和 4,096 个标记的输出限制,该模型可以处理更大的文档输入,并与 GPT-4 保持更长时间的用户对话。
多模态推理和生成: GPT-4o 将文本、音频和视觉效果集成到一个模型中,这意味着它可以比在多个不同模型上更快地处理和生成这些数据类型的组合。
图像生成: GPT-4o 可以根据文本提示生成图像,类似于Stable Diffusion 和 Midjourney 等其他AI 艺术生成器。
视觉处理和分析: GPT-4o 可以分析图像输入,然后以文本形式解释其内容。
语音生成: GPT-4o 可以生成口语,提供与人类演员合作创作的一系列独特的声音。
音频对话: GPT-4o 可以通过接收用户的语音输入并用 AI 生成的音频回复来进行实时口头对话。该模型的平均响应时间为 320 毫秒,与典型的人类响应时间相似。
语言翻译: GPT-4o 支持 50 多种语言的实时翻译。与 GPT-4 相比,它对非英语语言的文本处理能力更强,尤其是对于不使用西方字母的语言,如韩语、阿拉伯语和俄语。
并非所有上述功能都已广泛开放。有些功能仅供ChatGPT Plus订阅者或部分 API 用户使用,而其他功能则根本不向公众开放。
GPT-4o 的局限性
尽管 GPT-4o 在能力速度和成本效益方面超越了多个基准,但它仍在不断完善中。该模型的多模式功能为 ChatGPT 引入了各种新方式来产生幻觉并出错。而且它的训练数据只延伸到 2023 年 10 月,因此可能会生成虚假或过时的信息。
在他们的研究中,隆德 和他的同事还发现 GPT-4o 倾向于误解“复杂且模糊的输入”,尤其是当这些输入是音频或视觉时。但他认为这主要是因为这些功能太新了。“我认为它会随着时间的推移而得到完善。”
GPT-4o 与 GPT-4
GPT-4o 现在是 ChatGPT 的默认 AI 模型,取代了 GPT-4。虽然它们有一些相似之处,但这两个模型在能力、性能和效率方面存在很大差异。
GPT-4o 以不同的方式处理多模态
GPT-4 主要用于文本处理,这意味着它没有内置处理音频或视觉输入的支持。相反,它将这些模式隔离到单独的模型中。例如,在 ChatGPT 界面中,GPT-4 必须调用其他 OpenAI 模型来处理任何非文本数据,例如用于图像的 DALL-E 和用于音频的 Whisper。这可能会导致更长的响应时间和更高的计算成本。
相比之下,GPT-4o 从一开始就是为多模态设计的。OpenAI 表示,该模型在大量文本、图像、视频和音频数据上进行训练,可以将所有这些功能合并到一个神经网络上——这意味着更快的响应时间和更顺畅的任务转换。
GPT-4o 更快、更便宜
GPT-4o 的设计目标是全面比 GPT-4 更快、更经济,而不仅仅是针对多模式任务。据 OpenAI 称,总体而言,GPT-4o 的速度是 GPT-4 Turbo(GPT-4 的最新版本)的两倍,而运行成本只有 GPT-4 Turbo 的一半。
GPT-4o 掌握更多语言
OpenAI 表示,得益于新的标记器, GPT-4o 在非英语语言上的表现“明显”优于 GPT-4。标记器可将文本转换为模型可以通过数学理解的较小块。这在翻译非基于拉丁字母的语言(如印地语、日语和土耳其语)时尤其有用。这一变化解决了机器翻译中长期存在的问题,即模型历来主要针对西方语言进行优化,而牺牲了其他地区的模型。
GPT-4o 更擅长推理任务
隆德 发现,GPT-4o 在执行归纳推理任务方面比 GPT-4 和其他以前的 GPT 模型更好——推理“如何从 A 点到达 B 点”,他说。例如,如果用户询问 GPT-4o 如何建造棚屋,该模型可以找出建造棚屋所需的步骤。
GPT-4o 在演绎推理和推理方面也略胜一筹,这意味着它既可以“从信息中得出有效的结论”,也可以“利用有限的知识产生可信的假设”,Lund 和他的同事写道。
OpenAI 通过 GPT-4o 强调安全性
OpenAI 发言人表示,GPT-4o 从一开始就注重安全性,并在开发过程的每一步都得到了加强。这是通过过滤训练数据和通过后训练优化模型行为等技术实现的。该模型还进行了“广泛的”外部红队测试,以帮助识别新添加的模式引入或放大的风险。
该公司发言人表示,除了评估模型的文本和视觉功能的安全性外,OpenAI 还重点关注了音频功能,并指出了一些新风险,例如未经授权的语音生成和生成受版权保护的内容的可能性。基于这些评估,OpenAI 表示已实施新的安全护栏,以专门降低语音输出的风险。
最后,OpenAI 根据其准备框架,将 GPT-4o 评为“中等风险”——这是公司部署该模型所能显示的最高风险级别。
Vajariya 表示:“在之前的模型中,他们并不公开如何发放记分卡。而有了 GPT-4o,他们更加直言不讳地谈论记分卡系统以及他们的准备框架,这些框架都围绕着他们如何看待风险。”
GPT-4o 有一个“迷你”版本
在宣布 GPT-4o 后不久,OpenAI 发布了该模型的更紧凑版本,称为GPT-4o mini。据该公司称,它比 GPT-4o 更快、更便宜,并且在行业基准测试中的表现优于其他几款类似尺寸的模型,包括Gemini Flash 和Claude Haiku。
“GPT-4o 是一把火箭筒,你不需要每天都带着火箭筒,”Vajariya 说,并补充说 GPT-4o mini 更像是一把左轮手枪,专为日常使用而设计。“它更节能,操作起来也更便宜。它可能没有所有的花哨功能,或者不像 GPT-4o 那样精确,但你不需要一直保持这种精确度。”
GPT-4o mini 现已作为文本和视觉模型提供给使用 OpenAI API 的开发人员。它还为 ChatGPT 的免费版、Plus 版和 Team 版提供支持。
如何访问 GPT-4o
用户可以通过多种方式访问 GPT-4o:
ChatGPT: GPT-4o 是 ChatGPT 的默认模型。免费用户无法使用该模型的一些高级功能,包括视觉、文件上传和数据分析,并且输入数量受到限制——此时聊天机器人将恢复为 GPT-4o mini。海外官网每月需支付 20 美元购买 ChatGPT Plus 的用户可以获得 GPT-4o 的完整访问权限,没有任何功能限制或输入限制。
API:开发人员可以通过 OpenAI 的 API 和微软的 Azure AI 平台访问 GPT-4o,这意味着他们可以对该模型的所有公开可用功能进行微调并将其集成到自己的应用程序中。
桌面: OpenAI 已将 GPT-4o 集成到新的ChatGPT 桌面应用程序中,该应用程序可通过 Apple 的 macOS 访问。
官方版ChatGPT直通站点(待GPT-5同步),无需魔法、无需注册、无需担心封号,而且比海外官网便宜很多,一键即可使用官方版ChatGPT所有模型和功能,方便快捷,可随意切换使用官网所有账号(Plus和40 mini)。会员用户一个授权码4.0/4o的plus次数是每24小时300次,如果当前plus账号没次数,请点右上方换号新建对话可继续使用!
直通官网站点的优势:
1、无需魔法、无需注册即可跳转进入ChatGPT官网,后台账号全部由我们批量购买。价格比国外官网低很多;
2、聊天记录将会跟随您的授权码进入任何一个账号;独享授权码聊天记录是唯一的,并不会被让他人看见,只有自己知晓,保障用户的高度隐私性。每个授权码对应这个授权码所提问的聊天记录数据,不同授权码之间不会相互可见,具有独立私密性;
3、不用担心封号,即使被封号全部由我们自己承担,不会影响您的使用。只要授权码不变,聊天记录会存在。
4、4.0/4o次数很多,每24小时300次plus次数。4o mini则是无限次数,官网账号100+,可随意一键换号使用。
5、……
本文链接:https://www.xiaogua.cc/gpt-4o/68.html
GPT-4o正式亮相GPT-40亮相后科技股不所动GPT4o可检测人的情绪gpt4收费gpt4o免费多少次gpt4o免费吗gpt4o免费开放gpt4o 开源gpt4o语音gpt4o测评