Scale AI 发布首个 LLM 排行榜，对特定领域的 AI 模型性能进行排名

24-05-30

免费

快讯

Scale AI

刚以 138 亿美金估值完成 10 亿美金 F 轮融资的 Scale AI，今天发布了首个 LLM 排行榜，对特定领域的 AI 模型性能进行排名。

这一排名体系基于独特、精心筛选且未公开的数据集，旨在为前沿大语言模型的性能提供一个全面的新评价标准，涵盖了诸如生成代码、多语言、指令执行及数学处理等核心应用场景。

在 SEAL 排行榜的初步评估中，OpenAI 的 GPT 系列语言模型在其四大评估类别中的三项排名第一，而 Anthropic PBC 广受欢迎的 Claude 3 Opus 在第四个类别中排名第一。 Google LLC 的 Gemini 模型也表现出色，在几个领域与 GPT 模型并列第一。

Memo Team

Signal, not noise!

Scale AI 发布首个 LLM 排行榜，对特定领域的 AI 模型性能进行排名

Memo Newsletter