从 Character AI 融资艰难说起
本文来自张宁,ML Engineer@教育公司,Master from NUS。以下是他最近的一些观察与分享,全文如下:
前段时间,有消息称 Character AI 融资艰难寻求与巨头合作,于是激发了我对于 6 月份一些思考的总结。
C.AI 已经是第二次还是第三次爆出了在硅谷投资圈融资艰难的新闻了。公司的 Founder 是 Transformer 的 8 作者之一,C.AI 本身的模型技术也没什么大问题。
虽然模型规模还不知道,但是从融资总金额来说,肯定参数量不在 Top 5 的公司的队列中。不过反过来说,就文字Role Play 这个场景的信息量和变化,说得难听一点,还真就用不上超高的信息压缩比。
满足一下普通大众的想象空间,信息含量没多高,这一点看看国产剧,古偶剧,美剧,好莱坞的剧本的信息含量就知道了。满足 90% 人类的 role play 信息量没那么大,那么从压缩比效应来说,模型的参数量上 2 个台阶并不是融资最重要的重点。
数据构造和外包清洗是一大部分(其实 ScaleAI 可以考虑投资 C.AI)开销,此外,更重要的致命问题是,作为一个偏应用端的公司,创始人团队对于产品的定义是有问题的。在这一点上,看看字节系的几个核心 AI 产品,或许字节的模型没什么出彩只是在跟随,但是在产品感觉上却非常到位。这点后面会具体说。
总之,从这个新闻激发,本文目的是对于整个 AI Companion 赛道以及最近对于 AI 应用层的一些理解,本文做个思考总结。对应 2024 年 6 月总结。
Role Play and AI Companion 是什么价值
从 CharacterAI 当前的产品体验来说,创始人大概是很懂如何做角色扮演模型的,但是根本不懂如何做应用。
从做产品角度说结论:要做 PGC 就联合好莱坞、Netflix 之类的内容公司。要做 UGC 就要把生产者和消费者分开,允许生产者自由使用任何自制模型,以提供真正扎实的服务。现在这个就是两头不靠,说不定连 VTube 也竞争不过。
让我们回过头溯源根本来看为什么要这么做产品价值。
- 首先 Role play AI Companion 的根本价值是什么?是仰望价值。
- Role play 的核心是什么,是 AI 超级像人。那么像什么‘人’才产生价值呢?产生长期价值呢?
让我看看历史。以 LinkedIn 为例,这是把人的职业属性工作属性单独从人身上抽离出来的一个社交网络,在这个社交网络中人们连接的主动欲望,来自于对于职业工作属性的一种仰望。
比如,如果我是盖茨的 2 度好友?我是 Peter Thiel 的一度好友?LeCun 的 1 度还有几次互动评论?那可太酷了。难道有谁去 LinkedIn 最初的目的是为了把自己办公室的 12 个同事全都加一遍,然后形成一个社交网络进行 chat,相互看看最近 Post 了什么的么?
-
社交网络的核心是“仰望”,或者叫“高能量”“势能”“Untouchable" ,随便你叫什么吧。
- 微博的早期因为 140 字和一种从无到有带来的好奇,后期到目前是普通大众对于娱乐及文化名人的“仰望”维持了这个社交网络。
- 对于 Untouchable 俊男美女的荷尔蒙冲动维持了另一些社交产品网络,具体名字不提了。
- 微信是人类最基础的通信需求,是抢了移动电信国家的饭碗,不是社交网络。微信里面的公众号、视频号以及评论区可以算是社交,是对于各种偏好类的人的一种“仰望”。例如百万妈妈对于头部妈妈公众号的一种羡慕和仰望感。
- 小红书起家是对陌生人的生活的羡慕,也是一种”仰望“感。也有一部分是有‘猎奇’含量,不过一般来说猎奇不持久。
从‘仰望’出发判断某些产品功能是否该做
不去一个一个分析历史产品了,大概表达这么一个意思即可,那么从这个角度再来看最近的几个 AI Companion 赛道产品。
- 经营8年的 Replika
- Snap 的员工出来做的 Butterflies
- Character.AI
- 星野/Glow/Talkie
其中一个共同的产品特征,上来先让用户填写一大堆信息创造一个 AI Avatar。这个步骤就非常反常识,AI Role play model 的最大价值就是“模仿像人”。那么模仿像人怎么就产生价值了呢?
- 既然“仰望”路线是广泛被证明的产品路线,那么对于大多数人来说,这个 "HER"-liked Avatar 就不应该是由自己创造出来的,由自己详细定义一切细节,甚至 Replika 还提供精确修改自己创造出来的 AI 的记忆的功能,简直无厘头。
- 如果"Her"电影里面的"Her"是男主角自己精细定义出来每一步细节的,他还会那么沉迷么?毫无神秘感可言。“西部世界”里面玩家是喜欢那里的互动和故事,还是喜欢定制一个自己的替身的制造细节的过程??
所以,让每个用户自定义 AI 这个功能就很离谱,很不产品化,很不商业化。
Character.AI 最应该做的是,仔细看当前已经非常大量级的用户细节,看看是什么样的 Avatar 最让人沉迷。不同类型的占比是多少,时长是多少。持续时间是多少。
如果是名人类,那么就应该赶紧和例如好莱坞的版权团队和专业内容团队合作,引入足够多的,有着丰富故事和名气的人物,供消费者尽情探索未知和神秘。这样未来的走向就是偏内容向,娱乐向,会逐步短剧化。
另一个可能是,占比最高的是少数创造者创造出来的有趣的 Avatar 或者一些功能性 Avatar,那么就应该放开模型接口开发接口,进行创作者社区招募和管理,经营创作者社区。让占人口比例必然比较少的有创造力的创作者,产出 Avatar ,供单纯的消费者来消费互动。
这种情况下,就不要执着于自己的 Model,应该打开整个工具链,并且支持尽可能多的定制模型,总之,激发创作者社区在混沌中诞生创新的能力。
而目前观察到的 Character.AI 就有点经过初期的兴奋之后,随着人群的扩散和出圈,有点两头不靠的感觉。这一点就和开头提到的字节系的产品能力大大不如,扣子这个产品算是字节系其实做得很晚的产品了,并没什么先机,也没什么宣传全球最强大模型支撑什么的。
但是从 Bot Builder 来说,可以说扣子是目前全球做得最好的工具之一,在创作端非常的开放,毕竟是做过内容产品的公司,非常了解如何在早期经营创作者的节奏。在发布端利用优势打通了抖音和微信号,钉钉等。
看了扣子近期的高速迭代,基本上这一块的工具链,国内创业公司没什么机会,dify 也很勉强,只能吃海外市场和少量私有化部署。
是否给一个 AI Companion 赛道的产品的普通用户,开放 Bot builder 功能只是一个判断案例。如果我们从其根本价值再去看这条赛道新出的各种产品提供的功能点,是否应该做,应该在哪些方面用力加强,这里我提供了一个工具辅助分析判断。
养成系 vs. 仰望系
这里可能有人会提出 Bot builder 符合养成系的社交需求,仰望不是唯一的社交动力。这个也是有问题的,养成系不论是宠物,还是类人角色,未知感都是非常重要的。哪怕起点是已知的,我可以选个猫猫狗狗品种,但是后续的每一步发展定义一定要是有未知性才有神秘感,趣味感。微操级别的记忆大修改术,那个不是养成系是奴隶系。
Future Work
通过上述分析可见,一个很明显的点是,为什么在 AI Companion 赛道低延迟实时性全双工语音那么的重要。我们的团队近期致力于此,考虑到 GPT-4o 迟迟没有公开发布,原本想在 8 月份成为全球第一个发布完全语音端到端低延迟全双工带情感的 AI 模型的。
可惜截止上周, 法国的水下公司 Kyutai Labs 发布了 Moshi.chat 语音端到端模型,支持英法等语言。预计会开源 7B 版本。查询团队成员是 Meta 的 DINOv2,Faiss 作者,Google 的 Soundstream, AudioPaLM, AudioLDM 作者, 以及前微软成员等组成的 8人明星团队。
对此也可以理解了,全球第一个语音端到端模型已经发布。希望在中文甚至东亚市场,我们能率先展示出出色的作品。未来我们可以对语音 AI 的细节有了更多总结之后,在下一次文章进行详细的思考总结。
为什么未来应该投入语音 AI,核心的原因在于,语音由于富含很多纯文字损失掉的丰富的信息,所以尤其在 AI Companion 赛道,语音交互这种形式可以带来非常大的增值价值。谁不想和斯嘉丽聊天,由莓莓的耳语伴随睡去呢。如果是语音,和范志毅讲个脱口秀,和胡歌聊聊天,哪怕和汪小姐吵个架也不错呀是不是?