今天凌晨2点,OpenAI开启了第9天技术分享直播,今天的焦点主要集中在全新升级的 API 和开发者服务上,正式发布了o1模型的API,并且对实时API进行大升级支持WebRTC,这真是一次开发者的盛会。
o1模型的API与以前的预览版本相比,思考成本降低了60%,同时还增加了高级视觉功能。GPT-4o的音频成本也下降了60%,而mini版本的价格更是降低了10倍。
此外,OpenAI还发布了全新的偏好微调方法,通过直接优化用户偏好风格的算法,使大模型更好地理解用户的偏好。
“
o1模型API
满血版o1 已经开放 API 调用功能,支持最多 20万 个上下文 tokens,并且最多可以输出 10万 个 tokens 的长度。
这次 OpenAI 开放 API 的模型被命名为 o1-2024-12-17,它是基于两周前的 o1 满血版进行训练的全新版本。未来还可能会有进一步的更新。
今天发布的正式版本o1模型API集成了许多新功能。其中包括函数调用、结构化输出、开发者消息以及推理工作量。
函数调用允许模型根据输入数据自动调用适当的后端服务或外部API,从而实现复杂任务处理能力。
结构化输出支持以JSON格式返回数据,确保输出结果符合预期的结构,方便后续解析和应用。
开发者消息是一种新型的系统消息形式,赋予开发者更大的控制权,以指导模型的行为。
而推理工作量参数用于调整模型的思考时间,以平衡性能和准确性之间的关系。
在演示环节中,OpenAI展示了一款基于高级视觉功能的应用案例,即检测错误表单。通过上传填写有误的文本表格图片,o1模型成功识别出其中存在的计算错误,并提供了详细的修正建议。
此外,对于某些需要精确执行的任务,o1模型还可以利用内置函数库与后台服务器通信,获取最新税率等信息,以确保最终结果的准确性和时效性。
“
实时API增强、支持WebRTC
WebRTC是一种为互联网构建的实时通信技术,广泛应用于会议和低延迟视频流传输等领域。OpenAI在其实时API中支持WebRTC,使开发的AI应用能够自动应对互联网环境的变化,例如自动调整比特率和消除回声,从而提升实时语音应用的性能和稳定性。
与之前的 Websockets 集成相比,WebRTC 的代码简化效果显著。在使用 Websockets 时,开发者需要处理大约 200 - 250 行代码来应对反压等问题。然而,采用 WebRTC 仅需 12 行代码即可实现相同的功能。以实时语音聊天应用为例,WebRTC 的使用能够加快开发者构建功能强大的应用程序的速度,提高开发效率。
在演示环节中,使用了简单的 HTML 代码来创建对等连接,以实现音频流的发送和接收。这展示了在使用 WebRTC 进行实时语音应用开发时的便捷性。开发者只需专注于应用逻辑,而无需处理繁琐的网络通信细节,从而大大降低了开发的难度。
此外,为了进一步方便开发者集成实时 API,OpenAI推出了PythonSDK支持,同时大幅度降低价格。
“
偏好微调
偏好微调与传统的监督式微调有所不同,它采用成对样本比较学习的方式,让模型能够理解并适应特定应用场景中的微小差异。在进行偏好微调时,开发者需要准备一组数据集,其中包含两个不同版本的回答,其中一个版本被认为是更优的选择。
然后,将这些数据送入模型进行训练,使其学会区分好坏答案之间的差异,并根据用户的反馈不断调整自己的行为准则。
偏好微调特别适用于对回答格式、语气或抽象特质(如友好度和创造力)有较高要求的应用场景。举例来说,在构建金融咨询聊天机器人时,开发团队希望模型不仅能够提供专业准确的财务建议,还能以友好且易于理解的方式进行沟通。
现在可以使用偏好微调方法来通过向模型展示多种不同的对话示例来找到最理想的表达方式。这种方法可以显著改善模型的性能,尤其适用于涉及主观评价的任务、客户服务或个性化推荐系统等。
此外,偏好微调不仅限于文本生成任务,还适用于其他类型的输出,如图像生成、代码补全等。通过学习大量样例,模型可以逐渐形成一套稳定的行为模式,从而更好地满足用户需求。最重要的是,这种微调方式支持持续的迭代和改进,随着更多高质量数据的积累,模型的性能也会不断提高。
本文链接:https://www.xiaogua.cc/gpt-4o/76.html
gpt4o api 图片gpt3.5和4.0区别openai推出gpt4ogpt4o将免费GPT4o可检测人的情绪gpt4o免费用户gpt4o实测gpt4o openai微软gpt4ogpt4o免费