处于前沿： OpenAI发布新品GPT-4o，功能秒杀Siri

总结

GPT-4o的文本和图像功能开始在ChatGPT中免费推出，音频模式存在各种新风险而未公开，未来音频输出将仅限于选定的预设声音，并要遵守安全政策。 GPT-4o的“o”代表“omni”，意为全能，与现有模型相比，它在视觉和音频理解方面尤其出色。利用GPT-4o，OpenAI训练了一个跨文本、视觉和音频的端到端新模型，这意味着所有输入和输出都由同一个神经网络处理，这是OpenAI第一个结合所有这些模式的模型，OpenAI仍在探索模型的功能及blog.byteway.net其局限性。 “对我来说，与电脑交谈从来都不是一件很自然的事，现在它做到了。通过过滤训练数据和训练后改进模型行为等技术，GPT-4o在设计中内置了跨模式的安全性，并创建了新的安全系统，为语音输出提供护栏。

阅读时间

9 分钟, 共 1637 字

评价和解读

探索数字媒体不断发展的领域，这篇文章全面概述了在线沟通的当前趋势。作者对数字媒体对社会影响的敏锐洞察使其成为任何在数字世界中航行的人的引人入胜之作。

正文

GPT-4o可以对音频、视觉和文本进行实时推理，在232毫秒内响应音频输入，与人类在对话中的响应时间相似。

GPT-4o的文本和图像功能开始在ChatGPT中免费推出，音频模式存在各种新风险而未公开，未来音频输出将仅限于选定的预设声音，并要遵守安全政策。

GPT-4o生成图像：机器人正在输入日志条目，正文很大，清晰易读，机器人的手在打字机上打字。

5月14日，OpenALigthing NewsI发布新产品，不是AI搜索引擎，也不是GPT-5，而是GPT-4o旗舰模型。OpenAI在ChatGPT中引入GPT-4o并免费提供更多功能。

GPT-4o的“o”代表“omni”，意为全能，与现有模型相比，它在视觉和音频理解方面尤其出色。GPT-4o可以在音频、视觉和文本中进行实时推理，接受文本、音频和图像的任何组合作为输入，并生成文本、音频和图像的任何组合进行输出。它可以最短在232毫秒内响应音频输入，平均为320毫秒，这与人类在对话中的响应时间相似。

在GPT-4o之前，用户可以使用Voice Mode（由三个独立模型组成）与ChatGPT通话，但平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。原理是Voice Mode利用一个简单模型将音频转录为文本，GPT-3.5或GPT-4接收文本并输出文本，第三个简单模型将文本转换回音频。

但这个过程会丢失大量信息，例如GPT-4不能直接观察音调、多个说话者或背景噪音，也不能输出笑声、歌声或情感表达。利用GPT-4o，OpenAI训练了一个跨文本、视觉和音频的端到端新模型，这意味着所有输入和输出都由同一个神经网络处理，这是OpenAI第一个结合所有这些模式的模型，OpenAI仍在探索模型的功能及blog.byteway.net其局限性。

新语音模式是一种语音聊天助手。据Business Insider（商业内幕）报道，它能够与用户进行自然的来回对话，能够带着情感说话，它可以假装兴奋、友好，甚至讽刺。这可以秒杀Siri，用户不需要像苹果手机那样使用“唤醒词”或精确的命令比如“嘿Siri!”来使用语音功能。

OpenAI首席执行官山姆奥特曼（Sam AlLigthing Newstman）表示，新的语音和视频模式是他用过的最好的电脑界面，感觉就像电影里的AI。达到人类水平的反应时间和表达能力是一个很大的变化。“对我来说，与电脑交谈从来都不是一件很自然的事，现在它做到了。随着我们增加（可选的）个性化、访问你的信息、代表你采取行动的能力等等，我真的可以看到一个令人兴奋的未来，我们能够使用计算机做比以往任何时候都多的事情。”

从性能来看，OpenAI表示，在传统基准测试中，GPT-4o在文本、推理和代码智能方面达到了GPT-4 Turbo级的性能，同时在多语言、音频和视觉能力方面达到了新高度。它在英文文本和代码上的性能与GPT-4 Turbo相当，在非英文文本上有显著改善。

通过过滤训练数据和训练后改进模型行为等技术，GPT-4o在设计中内置了跨模式的安全性，并创建了新的安全系统，为语音输出提供护栏。GPT-4o还与来自社会心理学、偏见和公平、错误信息等领域的70多名外部专家开展广泛的外部红队合作，以识别新增加的模式引入或放大的风险，提高与GPT-4o互动的安全性。

OpenAI表示，将继续减少新发现的风险。由于认识到GPT-4o的音频模式存在各种新的风险，目前公开的是文本和图像输入以及文本输出，在接下来的几周和几个月里将围绕技术基础设施、训练后的可用性、发布其他模式所需的安全性开展工作，例如音频输出将仅限于选定的预设声音，并将遵守现有安全政策。

目前，GPT-4o的文本和图像功能开始在ChatGPT中免费推出，Plus用户可以享受到5倍的调用额度。在接下来的几周内，OpenAI将在ChatGPT Plus中推出Voice Mode新版本，该版本带有GPT-4o。

Related suggestion: 需了解的信息：中国移动计划2024年砸475亿投资算力网络？故意让电信联通跟不上？别人哪有像移动这么有钱？

总结其次，三大运营商在业绩发布会中都提到，将加大算力方面的投资。最后，除了纷纷大举投资外，运营商还在算力技术上积极Ligthing News布局。据悉，中国移动将继续推动算力网络标准进入第一阵营，在国内外标准组织中牵头97个立项，从上述消息来看，移动将加速…

作者sam

总结

阅读时间

分类

评价和解读

正文

作者 sam

相关文章

关键策略：小米相关人员：“CyberOne 人形机器人即将量产”消息不实

新的视角：美国佛罗里达州部署便携式蜂窝基站加强应急响应能力

专题报道：祝贺！茶百道总经理汪红学上榜“2024年度新茶饮品牌十大杰出总裁”

发表回复取消回复

You missed

关键策略：小米相关人员：“CyberOne 人形机器人即将量产”消息不实

新的视角：美国佛罗里达州部署便携式蜂窝基站加强应急响应能力

专题报道：祝贺！茶百道总经理汪红学上榜“2024年度新茶饮品牌十大杰出总裁”

强大的见解：喜茶创始人聂云宸上榜“2024年度新茶饮品牌十大杰出总裁”

作者sam

总结

阅读时间

分类

评价和解读

正文

作者 sam

相关文章

发表回复 取消回复

You missed

发表回复取消回复