软件开源与AI开源的区别
一.软件开源
软件开源是指软件的源代码对公众开放,允许用户自由使用、修改和分发的软件。
核心特性:低成本(通常免费)、高可定制性(源代码可用,开发人员可以修改)、社区支持(庞大的用户社区为文档、Bug修复和改进做出贡献)、透明度(用户可以看到软件的工作原理以及它收集的数据)。
二.AI开源
1.AI开源分类
为了适应时代发展,OSI(Open Source Initiative,开源代码促进会)专门针对 AI 提出了三种开源概念,分别是:
开源 AI 系统:包括训练数据、训练代码和模型权重。代码和权重需要按照开源协议提供,而训练数据只需要公开出处(因为一些数据集确实无法公开提供)。
开源 AI 模型:只需要提供模型权重和推理代码,并按照开源协议提供。
开源 AI 权重:只需要提供模型权重,并按照开源协议提供。
所谓推理代码,就是让大模型跑起来的代码,或者说大模型的使用代码,这也是一个相当复杂的系统性工程,涉及到了 GPU 调用和模型架构。
2.DeepSeek开源介绍
(1)DeepSeek 只开源了权重,并没有开源训练代码、数据集和推理代码,所以属于第三种开源形式。
DeepSeek 官方一直都在说自己开源了模型权重,用词也是相当精确了,没有一丝一毫的欺骗。
其实第二种和第三种区别不大,因为在实际部署中,一般都会借助 Ollama 工具包,它已经包含了推理代码(llama.cpp),所以即使官方公布了推理代码,也不一定会被使用。
(2)再说一下第一种开源模式,就算把训练代码和数据集都给你,你也得拉起一个顶尖团队,花费几百万几千万甚至几个亿,才能复现出类似的模型权重。除了理想主义者,或者吃饱了撑的,否则没人会干这个事,直接把官方开源的模型权重拿来使用即可。
也就是说,对于大模型用户而言,只开源权重就足够了,他们并不需要知道权重是怎么来的。
当然,开源训练代码和数据集,对于学术研究还是有重大帮助的,它能快速推动产业进步,让人类早点从 AGI 时代进入 ASI 时代,所以第一种开源模式的意义也不能被忽视。
(3)虽然 DeepSeek 只开源了模型权重,没有开源模型代码,但是官方通过技术报告/论文公布了很多核心算法,以及降本增效的工程解决方案,同时也为强化学习指明了一种新的范式,打破了 OpenAI 对推理技术的封锁(甚至是误导),让业界重新看到了 AI 持续进步的希望。
另外,DeepSeek 还允许二次蒸馏,不管是商业的还是公益的,你可以随便用,这让小模型的训练变得更加简单和廉价。你再看看 OpenAI,明确写着不允许竞品进行二次蒸馏,并且妄图以此来指控 DeepSeek。
DeepSeek 的格局是人类,OpenAI 的格局是自己!
总之,对于一家商业公司来说,DeepSeek 的开放程度可以说是非常透明,透明到了毁灭自己的地步。包括 Hugging Face、伯克利大学、香港大学在内的某些机构,已经在尝试复现 DeepSeek 了;尤其是 Hugging Face,据说进度还不错,希望他能成功。
3.关于模型权重
大模型说白了就是超大规模的神经网络,它类似于人类的大脑,由无数个神经元(权重/参数)构成。
刚开始的时候,大模型的所有权重都是随机的,就类似于婴儿刚出生时大脑一片空白。训练大模型的过程,就是不断调整权重的过程,这和人类通过学习来调整神经元的连接是一个道理。把训练好的大模型开源,就相当于把学富五车的大脑仍给你,你可以让它做很多事情。
满血版 DeepSeek R1(671B 版本,一个 B 等于 10 个亿)有 6710 亿个参数,模型文件的体积达到了 720GB,相当恐怖。别说个人电脑了,单台服务器都无法运行,只能依赖集群了。
为了方便大家部署,官方又在满血版 R1 的基础上蒸馏出了多个小模型,减少了参数的数量,具体如下:70B 版本,模型体积约 16GB;32B 版本,模型体积约 16GB;7B 版本,模型体积约 4.7GB;1.5B 版本,模型体积约 3.6GB。
最后两个模型在配置强大的个人电脑上勉强能跑起来。
模型权重都是超大型文件,而且有指定的压缩格式(比如 .safetensors 格式),一般都是放在 Hugging Face(抱抱脸)上开源,而不是放在传统的 GitHub 上。
DeepSeek R1 的开源地址为:https://huggingface.co/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d(需要梯子才能访问)