估值超 1 亿美金,它将实时语音和视频无缝嵌入到任何应用
这主要在于技术的限制,直到这波 AI 爆发,似乎让我们看到了语音(和视频)有可能得到像处理文字一样更高效的处理,这也是我对昨天文章里英伟达投资的视频搜索 AI 这个方向比较看好的原因,也让像 ElevenLabs 和 HeyGen 这样的产品获得爆发式增长。
在上周分享的语音 AI 行业图谱一文中,a16z 甚至把它作为了一个独立的投资主题,我想关于这块的机会也会是 VC 接下来比较关注的一个领域。
今天体验了一下 YC 最近孵化的 PocketPod,我觉得这是未来播客发展方向的一个探索,它完全由 AI 生成,根据你的兴趣爱好从互联网上获取内容生成播客。无论是每日新闻更新还是对特定主题的深入研究,它都可以让人们以熟悉的播客方式来消费信息。
其声音基本上让你感受不到是一个 AI 生成的,我设定了技术、创业公司以及 AI 作为核心的三个关键词,很快就给我生成了一个 16 分钟的两人对话式(一男一女)播客,内容基本上都是关于这几个关键词的。
它还将整个播客的内容还分成了 4 个部分(类似于段落),并且整个播客的过程中可以选择不同类型的背景音乐(目前只有 3 种可选),你还可以将它同步到播客分发平台比方说 Spotify。整个产品目前还比较简单,但已经很有基于 AI 来构建个性化播客的雏形了。
市场对语音的需求自然就催生了对基础设施产品的需求,我之前关注过的一个产品在最近就又拿了 2000 多万美金的投资,估值超过了 1 亿美金。
其解决的核心问题是为构建实时语音和视频驱动的 AI 应用提供基础设施,它可以将实时语音和视频无缝嵌入到任何应用中。
其定位比较意思,如果说 OpenAI / Anthropic / Mistral / Meta 正在构建大脑(基础模型),那么这个产品正在构建一个神经系统(网络基础设施),将信号传递到大脑(基础模型)并从大脑传递出来。
而它能快速拿到这轮融资的主要原因就是 AI 大模型多模态的快速发展,之前大家一直觉得 AI 能实现看、听以及说这种多模态需要 5 年时间,但没想到在今年就突破了。
Memo Newsletter
订阅 Memo 邮件列表,过滤噪音,捕捉最具价值的创投行业信号
最顶尖的 AI 行业创业者和投资人都在看