Pika和ElevenLabs分享他们成功的秘诀
在最近的#GenNYC活动中,Lightspeed与Pika和ElevenLabs的创始人就人工智能音频和视频的未来进行了深入对话,并探讨了如何与行业巨头竞争。
过去18个月,生成性人工智能(gen AI)经历了一场过山车般的发展,每天都有新的突破,众多初创公司涌现,大量资金涌入,既令人兴奋又令人疲惫。
在这段时间里,Lightspeed举办了十几场聚会,从旧金山、洛杉矶到巴黎和纽约,让在生成性AI领域的成熟和有抱负的创始人们能够聚集、连接并相互学习。他们还推出了一个名为Generative Now的播客。
今年夏天的一个雨夜,他们在纽约再次聚集,有幸主持了市场上两家最令人兴奋的初创公司的领导者:Pika的联合创始人兼首席执行官Demi Guo,Pika使视频创作对每个人都变得容易;以及ElevenLabs的联合创始人兼首席执行官Mati Staniszewski,ElevenLabs是一个生成性声音平台,使音频内容能够以任何语言和任何声音普遍获取。
在他们存在的短暂时间里,Pika和ElevenLabs推出了让数百万用户感到高兴的产品,训练了一些他们类别中最令人兴奋的模型,并各自筹集了超过1亿美元的风险资本。
他们与Demi和Mati讨论了构建一个伟大的AI模型需要什么,他们如何设法与生成性AI领域的千斤大猩猩竞争,以及扩大公司的最佳筹资方式。
以下是我们对话的一些亮点,为清晰和简洁进行了编辑。你可以在这里找到完整录音。
构建一个真正伟大的AI模型的秘诀是什么?
Demi:这真的始于我们研究工程团队的质量。我们的创始团队成员来自谷歌DeepMind和Facebook AI等顶级AI行业实验室,以及斯坦福和麻省理工等学校。但这不仅仅是关于技术技能——在构建模型的过程中,艺术和科学一样重要。这就是为什么我们的许多团队成员都有电影、艺术和音乐背景,为模型构建过程带来创造性视角。
Mati:我完全同意Demi所说的。组建一个令人难以置信的研究团队至关重要,同样重要的是让这个团队专注于一个非常具体的一组目标。在我们的情况下,那就是音频。总有扩展到视频或文本的诱惑,但我们试图忠于我们最擅长的事情,并探索音频的不同用例,例如更有效地制作有声读物或处理短格式媒体。
像Pika和ElevenLabs这样的小初创公司如何与资金雄厚的巨头竞争?
Demi:我们主要感兴趣的是构建一个伟大的模型。我们的优势是我们可以专注于体验的质量,并提供更多的用户控制,而不必平衡像谷歌或OpenAI这样的公司可能拥有的其他优先事项和需求。我们还更擅长构建更小、更高效的模型(成本更低,生产更快),这给我们在定价上带来了优势。
Mati:我们比现有企业拥有的巨大优势是我们模型的质量。我们打赌我们可以构建世界上最好的音频AI工具。但除了API之外,我们还提供了一个平台,提供各种不同的音频工具和工作流程来获取价值。有许多挑战,但几个关键的挑战是确保我们继续在研究层面进行创新,继续构建正确的工作流程(不要太多),最后找到智能的方式来分发我们的工作,让人们知道它提供价值并且值得支付更多。我们渴望与许多客户对齐并证明价值,这就是为什么我们为感兴趣的客户提供了免费的三个月试用期,让他们可以轻松尝试。
你们正在探索哪些新的用例?
Demi:Pika的基本目的是使AI视频创作更加易于访问。我认为我们已经在这方面做得很好。现在我们希望启用基本上只是美丽的视频创作。我们目前正在孵化一个新平台,并探索它的新用例,可能比专业更面向消费者,但这就是我现在能透露的所有内容。敬请期待。
Mati:我们实际上已经与Pika合作,将他们的视频与我们的音频结合起来,这带来了更加沉浸和吸引人的体验。听着有声读物,但让你最喜欢的角色和声音出现在视频剪辑中,这将是多么令人难以置信?我认为这将是惊人的。我们还在客户服务、语言学习或医疗保健领域与企业客户合作,例如,我们帮助自动化医生和护士经常没有时间打的电话,比如提醒患者服药或询问他们的感受。
你们在筹集投资资本方面都非常成功。有什么建议可以提供给其他人吗?
Demi:我们不会为了筹资而筹资。我们考虑下一个我们需要达到的里程碑,以及我们需要筹集多少资金以达到那个里程碑并推动公司向前发展。展示稳定的进步是吸引投资者注意的最佳方式。
Mati:我认为创始人应该尽可能少地花时间在筹资上。但当他们这样做时,他们应该一次性完成,在几周内。这不仅是更有效的时间使用