a16z 领投 1 亿估值 7.5 亿美金,最近 AI 中间层这个领域实在太火
之前介绍各大 VC 疯狂投 AI 中间层细分领域时,就一直想说说向量数据库(也叫矢量数据库,下面就统一称向量数据库)这块,因为最近这块实在是太火了,仅仅是最近一段时间,就已经有好几家公司拿了不少的钱。作为基础模型与应用层之间的中间层,它们在 AI 未来整个生态里面可能会扮演非常重要的角色。
刚刚,向量数据库这个领域的 Pincone 正式官宣了新的 1 亿美金 B 轮融资,由 a16z 领投,ICONIQ Growth、Menlo Ventures 以及 Wing Venture Capital 跟投,估值达到了 7.5 亿美金,是目前这个领域估值最高的一家公司。加上种子轮的 1000 万美金和 A 轮的 2800 万美金,Pincone 目前总共融了 1.38 亿美金。
虽然圈内很早就已经知道 Pincone 这轮融资的大概情况,但今天 Pincone 正式对外宣布了这个事情。之前还有说 Index 也在抢着领投,现在看来 a16z 最终胜出了,而 Index 前两天正式官宣领投了另一家 Weaviate 5000 万美金的 B 轮融资。目前 Pincone 官网也公布了主要的投资人:
向量数据库这个概念对于大部分人来说可能都比较陌生,作为非技术人员我也很难将其说的非常清楚,但是如果你是 AI 领域的开发者,对它肯定一点都不陌生,它很多时候都是和类似 Langchain 这样的开发工具产品同时出现。Pincone 官网有一篇文章专门介绍了向量数据库(Vector Database)这个概念,其英文是这么说的:
A vector database indexes and stores vector embeddings for fast retrieval and similarity search, with capabilities like CRUD operations, metadata filtering, and horizontal scaling。
简单翻译为中文就是,向量数据库索引和存储矢量嵌入以进行快速检索和相似性搜索,具有 CRUD 操作、元数据过滤和水平缩放等功能。
当我们说向量数据库索引向量嵌入时,我们的意思是它们以一种我们可以将任何向量相互比较或与搜索查询的向量进行比较的方式组织它们。向量数据库还负责执行 CRUD 操作(创建、读取、更新和删除)和元数据过滤。传统数据库功能与在索引中搜索和比较向量的能力相结合,使向量数据库成为强大的工具。下图是 Pincone 官网关于向量数据库介绍的一个截图:
对于为什么会使用到向量数据库,这篇科普文章是这样说的:
生产中的向量搜索是使用向量数据库的最常见原因。向量搜索将多个对象的相似性与搜索查询或主题项进行比较。为了找到相似的匹配项,你可以使用用于创建向量嵌入的相同 ML 嵌入模型将主题项或查询转换为矢量。矢量数据库比较这些对象的相似性以找到最接近的匹配项,提供准确的结果,同时消除传统搜索技术可能返回的不相关结果。
它通常用于这样一些场景:
-
语义搜索
-
图像、音频、视频、JSON等非结构化数据的相似度搜索
-
排名和推荐引擎
-
去重和记录匹配
-
异常检测
简答来说,它是 Memory for AI,用于存储、索引和搜索来自机器学习模型嵌入的海量非结构化数据集。通过向量数据库提供的能力,可以将数据对象翻译成人工智能的语言。
Pincone 在其官方博客里说,其使命是为 AI 提供长期记忆。目前已经有不少付费客户,比方说 Shopify、Gong、HubSpot 和 Zapier 等公司。a16z 则在其投资博客里披露称,Pincone 在过去三个月里付费客户增长了 8 倍,现在的付费客户已经超过了 1600 个,主要分布在企业软件、消费者应用程序、电子商务、金融科技、保险、媒体和人工智能/机器学习等行业。。
a16z 说,越来越多人认识到,某种程度上来说 LLMs 实际上是一种新型的计算机。它们可以运行用自然语言编写的“程序”(即提示),执行任意的计算任务(例如编写 Python 代码或搜索 Google),并以人类可读的形式将结果返回给用户。这是一个重要的进展,原因有两个:
其一是现在有了围绕摘要和生成内容的新型应用程序类别,这将导致消费者在软件消费方面的行为变化。
现在有了一类新型开发人员可以编写软件。计算机编程现在只需要掌握英语(或其他人类语言),而不需要像 Python 或 JavaScript 这样的传统编程语言的培训。
而现在 LLMs 的最大问题是其数据不是实时的,它是在大量第三方互联网数据的基础上进行训练的,很多时候用户需要的信息根本不在训练集中,因此我们需要实时向 LLMs 提供上下文相关的数据,于是向量数据库作为 LLM 的存储层就非常自然的出现了。
投资机构 Madrona 之前做了 AI 领域这个 Mapping 图,将基础模型和应用层之间的中间层分成了 Tooling、Data Sources 和 Actions,显然向量数据库就处于这个机会。
虽然向量数据库的发展还处于非常早期阶段,但在过去一个月里资本正在疯狂涌入这个赛道,这个领域的创业梯队也逐渐浮现。估值在一亿美金以内的有 Chroma 和 Qdrant,总融资金额在千万美金级别;估值在五亿美金之内区间的有 Weaviate,总融资金额在5000万美金级别;估值在五亿美金之上的有两家公司 Pinecone 和 Zilliz,总融资金额都超过了一亿美金。
Zilliz 是一家源自中国的公司,总部设立在美国硅谷。它是向量数据数据库领域全球最早的开拓者,在五年前就推出了全球首个开源向量数据库产品 Milvus。Milvus 现在是全球最流行的开源向量数据库产品,在全球拥有超过 1000 家企业用户。Zilliz 是 OpenAI 和英伟达最近发布的向量存储的官方合作伙伴,在一年前 B 轮融资估值就已经接近惊人的 7 亿美金。此次 Pinecone 以 7.5 亿美金估值完成融资,我猜有在资本市场进行争夺的考虑因素。
Zilliz 创始人 Charles 星爵是甲骨文的工程师,多年前他刚从甲骨文出来创业时我们曾在硅谷有过深度交流,刚好最近我也会跟他详细聊聊向量数据库这块,后续会有一个深度内容出来,欢迎大家到时候关注。