GPT-4o 补齐了 AI 的另一个能力，更多是开发者的机会

24-05-14

如果智能的边际成本趋近于零，那么你会做很多原本不会做的事情

免费

OpenAI

AIGC

OpenAI 今天终于发布了大家期待已久的更新，推出了 GPT-4o，可以进行实时推理音频、视觉和文本。

GPT-4o 的能力到底有多强，或许从我们的一些媒体标题也可以感受得到，比方说：《OpenAI 一夜改写历史...》《OpenAI 颠覆世界...》《GPT-4o 深夜炸场...》《深夜重磅！GPT-4o...》《GPT-4o 屠龙式震撼...》等。

我看了一下 OpenAI 的 Demo 视频和整个官方介绍，各种能力方面确实是一次巨大的提升，但给我印象最深的，是它或许补齐了 AI 在情感这方面的能力，或者 OpenAI 官方说的更自然的人机交互，这点直接体现在了此次的命名上。

官方博客解释说，GPT-4o 里的“o”代表“omni”，是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。

它可以在短短 232 毫秒内响应音频输入，平均为 320 毫秒，这与对话中的人类响应时间相似。它在英语文本和代码上与 GPT-4 Turbo 性能差不多，在非英语语言的文本上有显著改进，同时在 API 方面速度更快，价格更便宜50％。与现有模型相比，GPT-4o 在视觉和音频理解方面表现特别出色。

博客里解释了一下他们实现的方式：

在 GPT-4o 之前，你可以使用语音模式与 ChatGPT 交谈，平均延迟为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。为了实现这一点，语音模式是由三个单独的模型组成的：一个简单的模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将文本转换回音频。这个过程意味着主要来源于 GPT-4 的智能失去了很多信息——它无法直接观察语气、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

使用 GPT-4o，我们训练了一个全新的模型，跨文本、视觉和音频进行端到端的训练，这意味着所有的输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模态的模型，我们仍然只是在探索模型能做什么以及它的局限性方面初露头角。

通常情况下，我们将 AI 的能力归类为生产力的提升，这点体现在绝大多数产品的价值里面，比方说我最近介绍的这几个小产品：用 AI 教你面试教男性美容、教你 Dating、给 VC 投资人用的 AI 以及 HeyGen 这种对视觉叙事的改变等。

但是 Hume AI 的出现让我第一次感受到了 AI 在情绪这块的强大能力，而 Character AI 和各种 AI Companion 类产品的受欢迎程度，让我感受到了人类对情绪价值的巨大需求。

而声音（包含视频）相对于文本就更侧重于情绪的表达和传递，这也是此次 GPT-4o 非常重要的一部分，从而实现更自然的人机交互。

所以之前大部分快速发展的 AI 应用基本上都基于对文本的处理，即使是视频类产品也聚焦于信息的传递，此次 GPT-4o 的发布或许会让更具情绪表达的应用场景得到更进一步的释放，而 AI 所具备的千人千面能力可以真正带来个性化的体验，比方说教育行业就很值得期待。

每一次类似 OpenAI 这些大模型能力的提升，都会引发一波开发者（创业者）被直接干掉的声音，我相信会有一些场景会被大模型直接取代。但从整体来看，我觉得大模型能力的提升，更多还是开发者的机会，因为你可以用 AI 做的事情更多了。

我比较认同英伟达 CEO 黄仁勋最近一个分享里表达的观点：如果智能的边际成本趋近于零，那么你会做很多原本不会做的事情。

HeyGen 创始人 Joshua 的这个观点也表达了大概的意思：

面对新兴技术，区分 Demo 价值和用户价值可能具有挑战性，许多技术 Demo 看起来非常酷，我同意（我自己曾经是一个狂热的爱好者）。但从长远来看，Demo 价值很快就会消失，只剩下用户价值。

用 AI 帮男性美容的开发者也曾说：他发现 AI 里有一个非常有趣的事情，就是那些发布了 AI 大模型（GPT-3、GPT-4）的公司可能也不完全了解其所有的能力，所以你一定要亲自去尝试一下，而不是只看别人的评论。

此次 GPT-4o 发布后他非常兴奋，发推文说之前 OpenAI 发布 Vision API 不到 6 个月他就构建了一个 ARR 达 600 万美金的产品，现在他会重新寻找想法完全基于 GPT-4o 来构建。

而 Sam Altman 在今天的发布会虽然没有出场，但是他写了一篇关于 GPT-4o 的博客，文章中他说想强调 2 件事：一个是将强大的 AI 工具给到用户，另一个就是语音（和视频）模式。

Sam 说当他们开始做 OpenAI 时，最初的想法是将创造人工智能，并用它来为世界创造各种好处。但现在是他们将创造人工智能，然后由其他人用它来创造各种令人惊奇的东西，我们都从中受益。

下面贴一下其博客全文：

在我们今天的发布中，我想强调两件事。

首先，我们使命的一个关键部分是将非常强大的人工智能工具免费（或以一个合适的价格）交到人们手中。我感到非常自豪的是，我们在 ChatGPT 中免费提供了世界上最好的模型，没有广告或类似的东西。

当我们开始做 OpenAI 时，我们最初的想法是，我们将创造人工智能，并用它来为世界创造各种好处。相反，现在看起来我们将创造人工智能，然后其他人将用它来创造各种令人惊奇的东西，我们都从中受益。

我们是一家企业，会发现很多东西可以收费，这将有助于我们为（希望）数十亿人提供免费、出色的人工智能服务。

其次，新的语音（和视频）模式是我用过的最好的计算机界面。它感觉就像电影中的人工智能；而且我仍然有点惊讶它是真实存在的。达到人类级别的响应时间和表现力结果是一个很大的改变。

最初的 ChatGPT 暗示了语言界面的可能性；这个新事物给人的感觉是发自内心的不同。它快速、智能、有趣、自然且有用。

对我来说，与电脑交谈从未感到真正自然，现在它做到了。随着我们添加（可选）个性化、访问你的信息、代表你采取行动的能力等等，我真的可以看到一个令人兴奋的未来，我们能够使用计算机做比以往更多的事情。

Memo Team

Signal, not noise!

GPT-4o 补齐了 AI 的另一个能力，更多是开发者的机会

Memo Newsletter