不仅开源还便宜好用，硅谷员工直呼“火烧屁股”的DeepSeek大模型强在哪

2025-01-26 15:28:59上传人：`M**g.
Aa 小中大

分享到：

　　国产大模型公司深度求索（DeepSeek）发布的最新AI（人工智能）大模型在海外引起开发者和投资者的热议。

　　1月20日，量化巨头幻方量化旗下大模型公司DeepSeek正式发布推理大模型DeepSeek-R1。作为一款开源模型，R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版，并采用MIT许可协议，支持免费商用、任意修改和衍生开发等。目前，在国外大模型排名榜Chatbot Arena上，DeepSeek-R1的基准测试排名已经升至全类别大模型第三，与OpenAI的ChatGPT-4o最新版并列，并在风格控制类模型（StyleCtrl）分类中与OpenAI的o1模型并列第一。

　　更令市场惊讶的是，据DeepSeek介绍，R1的预训练费用只有557.6万美元，在2048块英伟达H800 GPU（针对中国市场的低配版GPU）集群上运行55天完成，仅是OpenAI GPT-4o模型训练成本的不到十分之一。DeepSeek表示，R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。此外，DeepSeek不仅将R1训练技术全部公开，还蒸馏了6个小模型向社区开源，允许用户借此训练其他模型。