深度剖析AI推理初创公司
在上一篇文章《投资于生成性AI时代》中,作者提出了一个投资生成性AI初创公司的框架,并强调了风险投资对“镐和铁锹”类型初创公司的兴趣增加。这些公司涵盖了从模型微调到可观测性,再到AI“抽象化”(例如,AI推理作为服务)。这里的赌注是,随着初创公司和企业在其产品供应中增加AI,他们可能不愿意或无法在内部构建这些能力,更倾向于购买而非自建。
在这篇文章中,作者深入探讨了AaaS(AI即服务)初创公司,特别关注AI推理初创公司。文章将涵盖以下内容:
- 为什么需要AI推理抽象化
- 开发者体验、性能和价格在推理抽象平台中的融合意味着快速的商品化
- 残酷的竞争动态以及当前可用的TAM(总可寻址市场)实际上受到高度限制
- 投资者需要相信什么才能投资AI推理公司,重点关注TAM的大规模扩展、产品扩展和潜在的并购机会。作者还认为,只有大型基金才能在这一层“玩”
- 使用可组合构建块的初创公司,如AI推理抽象平台,将在短期内受益,但在长期内受苦
文章可能是关于生成性AI公司“堆栈”不同层次的多部分系列的第一部分。让我们深入探讨。
理解AI推理公司需求的一个好方法是比较公司想要部署AI模型时需要做什么(之前的世界),与推理抽象公司提供的便利性/上市时间优势(现在的世界)。
之前的世界
想要超越基础模型API(例如OpenAI、Anthropic)的公司面临各种挑战。在工程方面,构建和维护基础设施存在挑战(例如,GPU机群的编排、操作系统/CUDA/配置管理、监控/可观测性)。即使这些集群运行起来,它们还需要针对诸如最大化利用率、弹性和减少长时间的冷启动时间等进行优化。Erik Bernhardsson(Modal Labs)在最近的一次演讲中讨论了这些挑战,感兴趣的人可以看看。
现在的世界
公司可以选择使用AI基础设施抽象提供商,而不是雇佣专业人才来构建/管理GPU推理集群(这是每位员工六位数的成本!)。这允许公司使用现成的模型或自定义训练模型,部署这些模型,然后通过API端点访问这些模型。推理提供商随后处理诸如上下扩展等复杂性,并收取一些超出原始计算的费用。
鉴于上述复杂性,许多初创公司应运而生,承诺抽象掉这种复杂性,以便客户可以更快地将AI功能带入其产品(我在下面包括了这些公司的一个子集)。我主要关注更“推理导向”的初创公司,而不是全栈公司(推理和训练/微调)。
在开发者体验和人体工程学方面,评估AI推理平台的公司需要在两层抽象之间进行选择:提供API体验的平台和提供一定程度可定制旋钮的平台。
像Replicate、Fireworks AI和Deepinfra这样的API-only初创公司已经完全抽象掉了所有复杂性,以便通过API调用访问模型。这类似于OpenAI等基础模型提供商提供的开发者体验。因此,这些平台通常不允许用户自定义诸如为给定模型选择要使用的GPU等事项。Replicate有Cog用于部署自定义模型等。
与此同时,Modal和Baseten提供了一种“中间”体验,开发人员可以有更多的“旋钮”来控制他们的基础设施,但这仍然比构建自定义基础设施更容易。这种更细粒度的控制级别允许Modal和Baseten支持超出简单文本补全和图像生成的使用情况。
更有趣的是,提供的“旋钮”类型是相似的:
-
容器镜像配置:Modal使用Python定义镜像,而Baseten使用YAML文件。熟悉Docker的开发人员应该会感到宾至如归。
-
GPU资源:Modal使用Python装饰器来定义GPU资源或并发级别,而Baseten再次使用YAML文件。
使用过这两种抽象层次的解决方案后,我发现大多数有能力的工程师应该能够在几个小时内设置这些服务,而不是花费几天或几周来设置自定义基础设施。因此,选择合适的平台更多是开发人员的“口味”问题,以及最终用户想要多少控制权。在这两种情况下