从 7400 万美金年收入的 AI App 看今天的 AI 应用
本文来自张宁,ML Engineer@教育公司,Master from NUS。前几天他还写了一篇文章《从 Character AI 融资艰难说起》(如果你有一些行业观察想投稿,欢迎联系我)。
在这篇文章中,他将 AI 模型做了一个非常有意思的类比,将其比作 Soft Chips 软芯片,并推导了其在未来一段时间的发展路径,我觉得很有启发。而在最近,a16z 两位创始人认为 AI 的发展更类似于微处理器或大型机时代。
它处理数据、从中学习并生成输出。它是一个信息处理系统,而不是一个网络。全文参见《a16z 两位创始人:AI 热潮和互联网热潮的区别在哪》,建议将两篇文章结合起来阅读。以下是全文:
随着 AI 的发展,一个可预见的边界和确定性的效果已经确认。应用层应该如何做一直是被热烈讨论的一个问题,这里试图从技术角度做一个 3 年内的预判,AI 在应用层应该先模仿“单机软件”的做法,先做端侧单体软件,收费模型采用一次性付费或免费模式。
AI Models 是“软芯片” - Soft Chips
人们一直试图从历史中寻找 AI 的相似技术进展,以便预测本轮技术带来的增长点和方法。内燃机、PC、智能手机、CPU 芯片、互联网、SaaS 软件,等等有很多类比。
事实上目前的 AI Models 可以称之为“软芯片”。甚至这一点其实早已在上一轮 2012 年开始的人脸识别、工业检测的 CV AI 时代的经历上印证了。那么“软芯片”有什么特征,和“硬芯片”有什么相似和不同点:
- 【初期的高投资】预训练(pretrain) 就像芯片的设计流片,是一种初期高投资高风险高启动门槛的行为,尤其是对于大型模型,Next generation models ,可类比与最尖端的高性能 CPU 芯片的初期投资。
- 【分发成本低】一旦完成初期训练,后续的分发成本非常低,甚至比硬芯片低很多。因此可以支撑一些免费业务模型。这一点是和硬芯片有不同的地方。
- 【自带软件能力】AI models 天然具备了相当的软件能力,甚至有些只需少量的编程或简单定制即可实用(所谓 AI wrapper)这一点更像硬芯片直接叠加了算法 firmware 装上就可以指纹识别,回声消除,传输协议内置之类。
- 【即插即用】AI models 和芯片以及硬芯片有一点极大不同的是,异构硬件层支持、推理框架支持等基础设施在未来 3 年必然是广泛支持的,开发套件也是广泛的兼容。毕竟全世界的硬件开发 Toolchain 没有 Huggingface 等全世界广泛支持和兼容的氛围。这进一步给 AI as Soft Chips 的流通与开发成本消除了几乎所有的门槛障碍,成本非常的低。这会极大的鼓励定制化和二次开发的 IDH(Independant Design House)和个人开发者参与。
- 【1 亿种模型】Civita 和 liblib 上已经有百万级别的图像模型及插件模型。可以预见各种 AI models(soft chips) 的定制版在这种情况会出现上亿种型号,甚至每个人类个体都会拥有 10 个左右的不同模型,也是很正常的事情。
- 【数据是定制的关键】和硬芯片的定制的最大成本区别在于特定数据的采集、获取和构造。这一成本和方法是最需要探索的。
硬芯片的制造和分发成本几乎为零会发生什么
只要 AI models 可以比较容易的实现端侧部署,那么开源、低价格的一次性收费、甚至免费赠送的现象一定会发生,对么?
所以开源必然存在和闭源互补
一直有类似 Sequoia、Benchmark 以及 Founders Fund 之类的 VC 在探讨开源是不是在 AI models 领域没什么价值,未来必然会消失,闭源统一天下之类的问题。
其实 ARM 和 ASIC 已经回答了这个问题。由于分发成本为零,开发套件兼容性极好且繁荣,开源社区只会比开源硬件社区繁荣很多倍:
- 对于那些登月宇航级别场景的研究和探索,由于 chips 的高资本投入,3 年内甚至更远期一些必然是闭源公司为主导的;
- 对于登月宇航级别的 AGI 或者 SuperAGI 的高资本投入探索,由于技术天然的扩散性和可向下兼容性,从中发展出来的 new learnable structure (例如 MoE 就是一种 learnable structure),会天然的溢出到普通 chip/model (0.5-30b 参数 model) ,通过开源社区的方式,给全球大众市场受益。(有点宇航技术扩散到民用市场的那种味道);
- 同时在学术界,开源社区或者小型企业,在低资源投入的情况下,对于技术改善的探索,通过学术论文和开源复现(reproduce)这一目前人类已知最优秀的创新诞生的温床机制,也会诞生出很多创新思路,可以供 AGI/SuperAGI 高资本投入的国家或者企业得到灵感、思路和养料,形成一种循环共生。
单机付费和免费软件的复兴
由于联网形态的场景几乎已经完全被今日的巨头科技公司(2C)和 SaaS 公司(2B)全面占领几乎所有的应用场景领域。所以新一轮的 startup 几乎别无选择,农村包围城市,曾经的单机付费和免费软件这一端侧形态一定会复兴。
联网功能当然仍会存在,但是初期是用于一些必须的延展性服务或者高级服务,等 1 亿用户都拥有多个 AI soft chips & bots 的时候,新一代的 Human-like Internet 的特殊场景的繁荣或许才会真正来临。原因如下:
- 小型化的软芯片(models)能力在 3 年内必然可以完成几乎绝大多数常见的任务需求,例如法律、客服、分诊、心理常识、日常知识、趣味知识、课程或特定领域知识等等;
- 小型化软芯片(models)的初期资本投入很快低于 500 万人民币,甚至 100 万人民币,迅速的下滑;
- 个人化或者家庭化、车载化的 Edge Computing 的能力可以很轻松的支撑多个(例如 3-5 个) AI 软芯片的运行;
- 小型 AI Soft chips 必然如前所述,必然会广泛的由开源社区和学术界做出大量的创新和贡献;
- 定制开发的工具链和基础设施会非常完善且易用。特定数据的采集、获取和构造的自动化工具链会迅速的在 1-2 年后成熟,这里可以参考 Andrew Ng 投资的他的学生的公司 lamini.ai。
开源 AI 的付费模型 vs. 闭源 AI 的付费场景
旧的广告和订阅式不变。严重依赖大规模且实时更新的数据的场景,例如全网资料的搜索更新,全网商品价格的搜索更新,全网路况情况的搜索更新等这一类的场景,无论小型软芯片能力是否能追上闭源登月级 AGI(其实已知搜索场景大概率用不着这种 Next Generation Model/Chip)这一产品应用场景,必然是联网的,集中式云服务提供的,倾向于由集中式服务商(例如 Perplexity, kFind, Genshark 等)提供的一种服务场景。
这一方向的公司的核心竞争力不在于 AI 模型,更多的是一种数据公司,所以其实应该更鼓励开源生态,因为对于他们有利。比如 Mistral 这种模型企业就是这类公司喜欢的玩家。
一次性付费单机软件。另外一些场景,例如教育类的典型应用,拍照搜题、OCR、题目答疑讲解。法律、医疗类的常见家庭病状小助手,常见儿童情况问答,常人应该了解的基础法律税务知识,心理类的情绪与心理状态解析,星座性格运势,情感事业问题分析,求职技能助手,刷题助手,简历助手等类似《十万个为什么》的这一列的我们称之为有限知识集领域内能力的软芯片 models。
这一类场景 3 年内必然走向端侧本地化,那么在收费上,对于数据搜集和整理难度低的,会像当初的 free software 一样免费软件形式。
对于有比较高的数据搜集难度,比如 2000 万道化学题之类的,会出现一些高级版的一次性收费的软件服务。其他的则会有很多免费版的软件。
音频模态也是单机付费。音频类模型 chips 和上述文本类同理,3 年内音频类的能力因为天然的序列化特征,speech、music 和 song 会成为一种特别的语言类别,而统一纳入一维 sequence models/chips 范畴被解决。所以无需单独讨论。
图像软件插件式付费。视觉类模型中,常规的图片类工具软芯片和基于图形学的做图软件不同的是,会有足够多的本地免费软件形态的分发。
这一点在 Civita, Liblib 的流行趋势上已经看到未来的端倪。Civita/Liblib 是软件下载 Hub,少量的付费,设计师创意者们即可下载足够多软芯片或者类似滤镜插件一样的子模块使用是必然的。
视频工具闭源订阅和特效工业定制。视频类,按照周昕宇和苏剑林的说法是麦克斯韦方程组叠加动力学的有损世界模拟器。
虽然觉得有点过于夸张,不过 3 年内的技术边界可见,视频类应用的算力集中于云端,那么大众级别的订阅付费模式,以及面向影视工业或者专业级工作室创作者的企业级大额付费(类似当前的特效付费,不过远比当前的特效工业付费价格低)的商业化是简单可见的。
一些 SaaS 订阅会被杀死。当 Soft Chip 能力变强,单机可以实现的功能强大,某些目前停滞的 SaaS 会发现只是个伪装,会被一次性付费的软件用价格杀死。事实上 SaaS 的价格非常昂贵,这一点美国很多大企业的支出早已意识到了这一点。例如,语音客服的 AI 化,替代掉的可不只是人力,还有相关的 SaaS 软件。
端侧硬件的升级费用。端侧计算的免费化或者一次费用的低收费趋势,会给端侧设备硬件的全面升级带来 200 亿设备以上数量的市场空间,并且会鼓励个人数据库产品的发展。⠀那么互联网商业难道会萎缩么?云计算厂商呢?
云端计算服务商,需要类西部世界带来的海量付费。类西部世界那样的未来网路应用场景,必须且适合在云端进行的新型大规模娱乐服务。
例如,当 60 亿用户已经拥有了个人端侧算力运行一个 Avatar Models/Chips,那么这时候一个大型的类西部世界的大型娱乐服务,允许个人算力接入,统一的 Interface protocols (next generation ai-to-ai protocols) ,这时候云计算服务厂商,以及这种在线实时大型娱乐服务运营商(类似今天的 Meta, 抖音)将同时大规模获利。并且可以以一种非常经济的方式来提供商业化服务。
对于 startup 更有利的 AI 场景在哪里
在这里我们可以总结一个小的规律,因为 AI models(软芯片) 是对于知识信息的压缩(包括简单的逻辑推理过程也是一种信息语句序列),那么所有的有限知识领域(例如小学英语的知识点就那么多,非常有限,变化远低于 2B 模型的有损压缩容量,类似的财会知识,简单的法律知识,案例库,合同格式等等都属于很有限的知识领域)并且更新频率非常低(往往是以年为单位,毕竟教材或者考试什么的不能以月迭代),3 年内会很快被各种从业者压缩到可以端侧运行的,低启动资本投入的小型化模型/软芯片中。
那么就意味着,以前需要通过云端数据库联网获取的,或者需要人对人面对面获取的信息,3 年内就可以广泛的由用户在个人手机终端,PC 终端在端侧获取。
AI Soft Chips 是对信息的压缩,信息从互联网和数据库被大量的压缩到了用户手边的硬件设备里,就像当年 iPod 可以装全世界所有的歌曲,那么相应的付费模式会怎样,影响哪些行业和应用场景?
初期 AI Chips 的对于 new startup 更有利的商业形态必然出现在更类似的软件行业,而不是互联网行业。免费软件,广告免费软件,付费软件,企业付费软件,等典型方式的组合并行出现。
这就好比 3A 一次买断型游戏或者独立游戏,和联网抽卡式游戏之间的竞合。即使是内容富含的存储密集的,Steam 上的买断大作,不是也可以几十个 G 么。
同样的,抽卡式的网游、小队竞技的网游、滚服氪金打榜式的网游、大型 MMORPG 团队合作式的网游,各种云端大型网络服务式的游戏存在必要性是什么,区别与买断式游戏的价值是什么。
作为一个 1500 亿美金的市场,也给了 AI 应用市场一些思考。在没有真正想出个体联网服务的真正价值点之前,不妨先从端侧买断制模式入手,先用成本优势直接提供有价值的服务。或许等到端侧设备大量普及的同时,也就想出了,联网 AI 服务的核心价值点。 找到 startup 公司的新增长点。
上一个 AI 周期的真实例子
说了很多分析和理论,给一个上一个周期的真实的例子形色 Picture This 这个产品,从 0 做到 2.9 亿美金流水,并且在非游戏应用的出海排行跻身前三。
它在国内深耕了 2 年,很早做到了第一名,免费服务。然后出海,通过订阅式付费,39 美金/年,一年收入做到了 7400 万美金。具体的故事,可以参考相关的各种访谈,这里不赘述了。
这个例子可遇不可求,但是完美符合了上述原理,虽然因为那个时候模型还比较难直接做到 iPhone 里面运行,但是对于 startup 来说,整个业务逻辑是高度相似的。也是非常值得这一轮 AI 应用场景公司在 2023-25 年这段时间参考的。