我自己做的表格,对比了最近比较火的模型,因为大部分指标都很难在所有模型公开数据同时找到,就找了3个代表性的。
结论:
R1确实是很优秀的模型,但是比起state of the art还是差了挺大一截的。他们官网提供的benchmark主要是对比其他没有思维链的模型。可以看出利用强化学习可以有效提高性能。DeepSeek R1的价值有以下几个:
- 倒逼openai拿出先进模型开放给用户,特别是我这种只白嫖的用户。
- 自带思维链的开源模型终于有了比较好用的foundational model,开发者可以自己本地部署,而且由于license很宽松,企业也可以部署。
问题也是有的: - 训练数据不透明,R1的回答有很强的GPT味,高度怀疑是抽了GPT的输出来训练。
- 成本不透明。500万美金训练一个模型实在不合理。大模型在前期实验过程中要跑大量的备选模型,这部分的成本是很昂贵的。
- 未来能否真的继续创新也有待考察。本次模型训练的方案其实还是参考了业内同类产品的优化套餐,除了降低成本之外乏善可陈(对比表格内数据可以看出很多人说性能略低于O1根本是扯淡,这个性能低了几十个百分数了)。