估值超 1 亿美金，它将实时语音和视频无缝嵌入到任何应用

24-06-06

如果说 OpenAI / Anthropic / Mistral / Meta 正在构建大脑（基础模型），那么这个产品正在构建一个神经系统（网络基础设施），将信号传递到大脑（基础模型）并从大脑传递出来

会员

AIGC

这个 AI 拿钱了

一直比较关注语音（和视频）这块，核心原因是我觉得语音（和视频）作为人类最为重要的一种沟通方式并且内容已经大爆发，但其内容形态一直都没有得到更好的利用起来。

这主要在于技术的限制，直到这波 AI 爆发，似乎让我们看到了语音（和视频）有可能得到像处理文字一样更高效的处理，这也是我对昨天文章里英伟达投资的视频搜索 AI 这个方向比较看好的原因，也让像 ElevenLabs 和 HeyGen 这样的产品获得爆发式增长。

在上周分享的语音 AI 行业图谱一文中，a16z 甚至把它作为了一个独立的投资主题，我想关于这块的机会也会是 VC 接下来比较关注的一个领域。

今天体验了一下 YC 最近孵化的 PocketPod，我觉得这是未来播客发展方向的一个探索，它完全由 AI 生成，根据你的兴趣爱好从互联网上获取内容生成播客。无论是每日新闻更新还是对特定主题的深入研究，它都可以让人们以熟悉的播客方式来消费信息。

其声音基本上让你感受不到是一个 AI 生成的，我设定了技术、创业公司以及 AI 作为核心的三个关键词，很快就给我生成了一个 16 分钟的两人对话式（一男一女）播客，内容基本上都是关于这几个关键词的。

它还将整个播客的内容还分成了 4 个部分（类似于段落），并且整个播客的过程中可以选择不同类型的背景音乐（目前只有 3 种可选），你还可以将它同步到播客分发平台比方说 Spotify。整个产品目前还比较简单，但已经很有基于 AI 来构建个性化播客的雏形了。

市场对语音的需求自然就催生了对基础设施产品的需求，我之前关注过的一个产品在最近就又拿了 2000 多万美金的投资，估值超过了 1 亿美金。

其解决的核心问题是为构建实时语音和视频驱动的 AI 应用提供基础设施，它可以将实时语音和视频无缝嵌入到任何应用中。

其定位比较意思，如果说 OpenAI / Anthropic / Mistral / Meta 正在构建大脑（基础模型），那么这个产品正在构建一个神经系统（网络基础设施），将信号传递到大脑（基础模型）并从大脑传递出来。

而它能快速拿到这轮融资的主要原因就是 AI 大模型多模态的快速发展，之前大家一直觉得 AI 能实现看、听以及说这种多模态需要 5 年时间，但没想到在今年就突破了。

这是一篇只对付费会员开放的文章，请先订阅成为会员

Memo Team

Signal, not noise!