DeepSeek算是真正意义上的大模型开源吗?
DeepSeek只属于开源AI模型(这与Github开放源代码的方式有区别),只开源了部分推理代码和模型权重,完整的训练框架、系统代码、数据处理等都没有开源,所以这不算真正意义上的软件开源。
市面上主流的大模型,都是开放技术报告和开源权重。如果你不了解真正的开源含义,可以去了解一下OSI(Open Source Initiative),这里面还针对AI开源提出了几种概念,比如开源AI模型、开源AI系统、开源AI权重等。
而真正的大模型开源是要将训练代码、训练数据集等全部开放,能够让开发者将你开源的软件进行复现;如果不能复现,就不是真正意义上的开源;再加上大模型训练是需要大投入,几乎没有那个公司愿意将核心业务数据、训练代码等全部开源。
如果真的将大模型开源,就目前的训练方法还很难做到可重现构建,无论如何都不可能做到完全复现,所以开放训练代码也就没有多大意义;毕竟大模型训练是需要资本的,就资金成本已经劝退单打独斗的开发者了。
完全开源的大模型几乎没有,比如Olmo2的模型就只是开源了训练数据、评估代码、部分训练得到的权重等;
有了开源权重,我们只需要使用代码进行调用、推理等,这对开发者来讲,使用成本低,也方便。
虽然DeepSeek在性能优化方面做出了一些改变,比如采用汇编和编写PTX模式,但该代码不具备可移植性,大部分人也无法将DeepSeek的硬件集群复现;