别吵deepseek了,直接上数据对比(发这里是不是没人看)

我自己做的表格,对比了最近比较火的模型,因为大部分指标都很难在所有模型公开数据同时找到,就找了3个代表性的。


结论:
R1确实是很优秀的模型,但是比起state of the art还是差了挺大一截的。他们官网提供的benchmark主要是对比其他没有思维链的模型。可以看出利用强化学习可以有效提高性能。DeepSeek R1的价值有以下几个:

  1. 倒逼openai拿出先进模型开放给用户,特别是我这种只白嫖的用户。
  2. 自带思维链的开源模型终于有了比较好用的foundational model,开发者可以自己本地部署,而且由于license很宽松,企业也可以部署。
    问题也是有的:
  3. 训练数据不透明,R1的回答有很强的GPT味,高度怀疑是抽了GPT的输出来训练。
  4. 成本不透明。500万美金训练一个模型实在不合理。大模型在前期实验过程中要跑大量的备选模型,这部分的成本是很昂贵的。
  5. 未来能否真的继续创新也有待考察。本次模型训练的方案其实还是参考了业内同类产品的优化套餐,除了降低成本之外乏善可陈(对比表格内数据可以看出很多人说性能略低于O1根本是扯淡,这个性能低了几十个百分数了)。
1 个赞

市场定位上mini版本的o1和o3对应r1模型。

老献中肯

1 个赞