Scale AI 发布首个 LLM 排行榜,对特定领域的 AI 模型性能进行排名
24-05-30
刚以 138 亿美金估值完成 10 亿美金 F 轮融资的 Scale AI,今天发布了首个 LLM 排行榜,对特定领域的 AI 模型性能进行排名。
这一排名体系基于独特、精心筛选且未公开的数据集,旨在为前沿大语言模型的性能提供一个全面的新评价标准,涵盖了诸如生成代码、多语言、指令执行及数学处理等核心应用场景。
在 SEAL 排行榜的初步评估中,OpenAI 的 GPT 系列语言模型在其四大评估类别中的三项排名第一,而 Anthropic PBC 广受欢迎的 Claude 3 Opus 在第四个类别中排名第一。 Google LLC 的 Gemini 模型也表现出色,在几个领域与 GPT 模型并列第一。