GPT-4o 补齐了 AI 的另一个能力,更多是开发者的机会
OpenAI 今天终于发布了大家期待已久的更新,推出了 GPT-4o,可以进行实时推理音频、视觉和文本。
GPT-4o 的能力到底有多强,或许从我们的一些媒体标题也可以感受得到,比方说:《OpenAI 一夜改写历史...》《OpenAI 颠覆世界...》《GPT-4o 深夜炸场...》《深夜重磅!GPT-4o...》《GPT-4o 屠龙式震撼...》等。
我看了一下 OpenAI 的 Demo 视频和整个官方介绍,各种能力方面确实是一次巨大的提升,但给我印象最深的,是它或许补齐了 AI 在情感这方面的能力,或者 OpenAI 官方说的更自然的人机交互,这点直接体现在了此次的命名上。
官方博客解释说,GPT-4o 里的“o”代表“omni”,是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。
它可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这与对话中的人类响应时间相似。它在英语文本和代码上与 GPT-4 Turbo 性能差不多,在非英语语言的文本上有显著改进,同时在 API 方面速度更快,价格更便宜50%。与现有模型相比,GPT-4o 在视觉和音频理解方面表现特别出色。
博客里解释了一下他们实现的方式:
在 GPT-4o 之前,你可以使用语音模式与 ChatGPT 交谈,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。为了实现这一点,语音模式是由三个单独的模型组成的:一个简单的模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将文本转换回音频。这个过程意味着主要来源于 GPT-4 的智能失去了很多信息——它无法直接观察语气、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
使用 GPT-4o,我们训练了一个全新的模型,跨文本、视觉和音频进行端到端的训练,这意味着所有的输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模态的模型,我们仍然只是在探索模型能做什么以及它的局限性方面初露头角。
通常情况下,我们将 AI 的能力归类为生产力的提升,这点体现在绝大多数产品的价值里面,比方说我最近介绍的这几个小产品:用 AI 教你面试教男性美容、教你 Dating、给 VC 投资人用的 AI 以及 HeyGen 这种对视觉叙事的改变等。
但是 Hume AI 的出现让我第一次感受到了 AI 在情绪这块的强大能力,而 Character AI 和各种 AI Companion 类产品的受欢迎程度,让我感受到了人类对情绪价值的巨大需求。
而声音(包含视频)相对于文本就更侧重于情绪的表达和传递,这也是此次 GPT-4o 非常重要的一部分,从而实现更自然的人机交互。
所以之前大部分快速发展的 AI 应用基本上都基于对文本的处理,即使是视频类产品也聚焦于信息的传递,此次 GPT-4o 的发布或许会让更具情绪表达的应用场景得到更进一步的释放,而 AI 所具备的千人千面能力可以真正带来个性化的体验,比方说教育行业就很值得期待。
每一次类似 OpenAI 这些大模型能力的提升,都会引发一波开发者(创业者)被直接干掉的声音,我相信会有一些场景会被大模型直接取代。但从整体来看,我觉得大模型能力的提升,更多还是开发者的机会,因为你可以用 AI 做的事情更多了。
我比较认同英伟达 CEO 黄仁勋最近一个分享里表达的观点:如果智能的边际成本趋近于零,那么你会做很多原本不会做的事情。
HeyGen 创始人 Joshua 的这个观点也表达了大概的意思:
面对新兴技术,区分 Demo 价值和用户价值可能具有挑战性,许多技术 Demo 看起来非常酷,我同意(我自己曾经是一个狂热的爱好者)。但从长远来看,Demo 价值很快就会消失,只剩下用户价值。
用 AI 帮男性美容的开发者也曾说:他发现 AI 里有一个非常有趣的事情,就是那些发布了 AI 大模型(GPT-3、GPT-4)的公司可能也不完全了解其所有的能力,所以你一定要亲自去尝试一下,而不是只看别人的评论。
此次 GPT-4o 发布后他非常兴奋,发推文说之前 OpenAI 发布 Vision API 不到 6 个月他就构建了一个 ARR 达 600 万美金的产品,现在他会重新寻找想法完全基于 GPT-4o 来构建。
而 Sam Altman 在今天的发布会虽然没有出场,但是他写了一篇关于 GPT-4o 的博客,文章中他说想强调 2 件事:一个是将强大的 AI 工具给到用户,另一个就是语音(和视频)模式。
Sam 说当他们开始做 OpenAI 时,最初的想法是将创造人工智能,并用它来为世界创造各种好处。但现在是他们将创造人工智能,然后由其他人用它来创造各种令人惊奇的东西,我们都从中受益。
下面贴一下其博客全文:
在我们今天的发布中,我想强调两件事。
首先,我们使命的一个关键部分是将非常强大的人工智能工具免费(或以一个合适的价格)交到人们手中。我感到非常自豪的是,我们在 ChatGPT 中免费提供了世界上最好的模型,没有广告或类似的东西。
当我们开始做 OpenAI 时,我们最初的想法是,我们将创造人工智能,并用它来为世界创造各种好处。相反,现在看起来我们将创造人工智能,然后其他人将用它来创造各种令人惊奇的东西,我们都从中受益。
我们是一家企业,会发现很多东西可以收费,这将有助于我们为(希望)数十亿人提供免费、出色的人工智能服务。
其次,新的语音(和视频)模式是我用过的最好的计算机界面。它感觉就像电影中的人工智能;而且我仍然有点惊讶它是真实存在的。达到人类级别的响应时间和表现力结果是一个很大的改变。
最初的 ChatGPT 暗示了语言界面的可能性;这个新事物给人的感觉是发自内心的不同。它快速、智能、有趣、自然且有用。
对我来说,与电脑交谈从未感到真正自然,现在它做到了。随着我们添加(可选)个性化、访问你的信息、代表你采取行动的能力等等,我真的可以看到一个令人兴奋的未来,我们能够使用计算机做比以往更多的事情。