登录
首页
快讯
邮件订阅
会员专属
Memo AI
联系我们

DeepSeek 发布轻量级推理模型 R1-0528-Qwen3-8B,单 GPU 即可运行

25-05-30
免费
快讯

DeepSeek 推出其最新轻量级推理模型 DeepSeek-R1-0528-Qwen3-8B。该模型基于阿里巴巴于 5 月发布的 Qwen3-8B 模型,并通过 DeepSeek 自家 R1 模型生成的文本进行微调训练。尽管体积较小,但在 AIME 2025 等数学推理基准测试中表现优于同类模型,并在 HMMT 测试中接近微软的 Phi 4 reasoning plus 模型 。

与需要多个高端 GPU 的完整版 R1 模型不同,R1-0528-Qwen3-8B 仅需一块配备 40GB 至 80GB 显存的 GPU(如 Nvidia H100)即可运行 。该模型已在 Hugging Face 平台上线,并采用 MIT 开源许可证,允许商业用途。此外,包括 LM Studio 在内的多家平台已通过 API 提供该模型的服务 。

DeepSeek 表示,R1-0528-Qwen3-8B 适用于学术研究和小规模工业开发,尤其适合资源有限的开发者和研究人员。这一发布标志着 DeepSeek 在推动 AI 模型轻量化、开放化方面迈出了重要一步。

Memo Newsletter

订阅 Memo 邮件列表,过滤噪音,捕捉最具价值的创投行业信号

最顶尖的 AI 行业创业者和投资人都在看

Subscribe
头像
Memo Team
Signal, not noise!
最新快讯