别吵deepseek了，直接上数据对比（发这里是不是没人看）

Ranni · 2025 年1 月 31 日 22:38

我自己做的表格，对比了最近比较火的模型，因为大部分指标都很难在所有模型公开数据同时找到，就找了3个代表性的。

结论：
R1确实是很优秀的模型，但是比起state of the art还是差了挺大一截的。他们官网提供的benchmark主要是对比其他没有思维链的模型。可以看出利用强化学习可以有效提高性能。DeepSeek R1的价值有以下几个：

倒逼openai拿出先进模型开放给用户，特别是我这种只白嫖的用户。
自带思维链的开源模型终于有了比较好用的foundational model，开发者可以自己本地部署，而且由于license很宽松，企业也可以部署。
问题也是有的：
训练数据不透明，R1的回答有很强的GPT味，高度怀疑是抽了GPT的输出来训练。
成本不透明。500万美金训练一个模型实在不合理。大模型在前期实验过程中要跑大量的备选模型，这部分的成本是很昂贵的。
未来能否真的继续创新也有待考察。本次模型训练的方案其实还是参考了业内同类产品的优化套餐，除了降低成本之外乏善可陈（对比表格内数据可以看出很多人说性能略低于O1根本是扯淡，这个性能低了几十个百分数了）。

Ranni · 2025 年1 月 31 日 22:54

市场定位上mini版本的o1和o3对应r1模型。

zhirizhi · 2025 年2 月 3 日 06:16

老献中肯