当前位置：首页 > article >正文

软件开源与AI开源的区别

article 2025/2/25 12:09:41

一.软件开源

软件开源是指软件的源代码对公众开放，允许用户自由使用、修改和分发的软件。

核心特性：低成本（通常免费）、高可定制性（源代码可用，开发人员可以修改）、社区支持（庞大的用户社区为文档、Bug修复和改进做出贡献）、透明度（用户可以看到软件的工作原理以及它收集的数据）。

二.AI开源

1.AI开源分类

为了适应时代发展，OSI（Open Source Initiative，开源代码促进会）专门针对 AI 提出了三种开源概念，分别是：

开源 AI 系统：包括训练数据、训练代码和模型权重。代码和权重需要按照开源协议提供，而训练数据只需要公开出处（因为一些数据集确实无法公开提供）。

开源 AI 模型：只需要提供模型权重和推理代码，并按照开源协议提供。

开源 AI 权重：只需要提供模型权重，并按照开源协议提供。

所谓推理代码，就是让大模型跑起来的代码，或者说大模型的使用代码，这也是一个相当复杂的系统性工程，涉及到了 GPU 调用和模型架构。

2.DeepSeek开源介绍

（1）DeepSeek 只开源了权重，并没有开源训练代码、数据集和推理代码，所以属于第三种开源形式。

DeepSeek 官方一直都在说自己开源了模型权重，用词也是相当精确了，没有一丝一毫的欺骗。

其实第二种和第三种区别不大，因为在实际部署中，一般都会借助 Ollama 工具包，它已经包含了推理代码（llama.cpp），所以即使官方公布了推理代码，也不一定会被使用。

（2）再说一下第一种开源模式，就算把训练代码和数据集都给你，你也得拉起一个顶尖团队，花费几百万几千万甚至几个亿，才能复现出类似的模型权重。除了理想主义者，或者吃饱了撑的，否则没人会干这个事，直接把官方开源的模型权重拿来使用即可。

也就是说，对于大模型用户而言，只开源权重就足够了，他们并不需要知道权重是怎么来的。

当然，开源训练代码和数据集，对于学术研究还是有重大帮助的，它能快速推动产业进步，让人类早点从 AGI 时代进入 ASI 时代，所以第一种开源模式的意义也不能被忽视。

（3）虽然 DeepSeek 只开源了模型权重，没有开源模型代码，但是官方通过技术报告/论文公布了很多核心算法，以及降本增效的工程解决方案，同时也为强化学习指明了一种新的范式，打破了 OpenAI 对推理技术的封锁（甚至是误导），让业界重新看到了 AI 持续进步的希望。

另外，DeepSeek 还允许二次蒸馏，不管是商业的还是公益的，你可以随便用，这让小模型的训练变得更加简单和廉价。你再看看 OpenAI，明确写着不允许竞品进行二次蒸馏，并且妄图以此来指控 DeepSeek。

DeepSeek 的格局是人类，OpenAI 的格局是自己！

总之，对于一家商业公司来说，DeepSeek 的开放程度可以说是非常透明，透明到了毁灭自己的地步。包括 Hugging Face、伯克利大学、香港大学在内的某些机构，已经在尝试复现 DeepSeek 了；尤其是 Hugging Face，据说进度还不错，希望他能成功。

3.关于模型权重

大模型说白了就是超大规模的神经网络，它类似于人类的大脑，由无数个神经元（权重/参数）构成。

刚开始的时候，大模型的所有权重都是随机的，就类似于婴儿刚出生时大脑一片空白。训练大模型的过程，就是不断调整权重的过程，这和人类通过学习来调整神经元的连接是一个道理。把训练好的大模型开源，就相当于把学富五车的大脑仍给你，你可以让它做很多事情。

满血版 DeepSeek R1（671B 版本，一个 B 等于 10 个亿）有 6710 亿个参数，模型文件的体积达到了 720GB，相当恐怖。别说个人电脑了，单台服务器都无法运行，只能依赖集群了。

为了方便大家部署，官方又在满血版 R1 的基础上蒸馏出了多个小模型，减少了参数的数量，具体如下：70B 版本，模型体积约 16GB；32B 版本，模型体积约 16GB；7B 版本，模型体积约 4.7GB；1.5B 版本，模型体积约 3.6GB。

最后两个模型在配置强大的个人电脑上勉强能跑起来。

模型权重都是超大型文件，而且有指定的压缩格式（比如 .safetensors 格式），一般都是放在 Hugging Face（抱抱脸）上开源，而不是放在传统的 GitHub 上。

DeepSeek R1 的开源地址为：https://huggingface.co/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d（需要梯子才能访问）

查看全文

http://www.kler.cn/a/553186.html

Shapr3D在ipad上无法识别鼠标点击问题

机器翻译中的编码器、自注意和解码器

6.编写正排索引切分字符串|倒排索引原理|引入jieba到项目(C++)

树（数据结构·）

原生稀疏注意力机制(NSA)：硬件对齐且可原生训练的稀疏注意力机制-论文阅读

美股分钟级高频数据在量化研究中的时间序列分析

deepin 下安装nvm（npm+node）

感想-人工智能：AI 的优缺点 / AI是一把好的锄头，但它永远不能自己去种地

Word接入DeepSeek（API的作用）

使用 Certbot 自动获取和更新 Let‘s Encrypt SSL 证书

数据湖与数据仓库：初学者的指南

MongoDB：listDatabases failed : not master and slaveOk=false

理解计算机系统_虚拟内存(二)缓存

【核心算法篇十六】《DeepSeek强化学习：MuZero算法核心解析》

Spring AI 接入 DeepSeek：开启智能应用的新篇章

“深入浅出”系列之C++：（8）libevent 库

如何开发一个大模型应用？

Node events模块

ImportError: cannot import name ‘FixtureDef‘ from ‘pytest‘

长文档处理痛点：GPT-4 Turbo引文提取优化策略与替代方案讨论

相关文章：