当前位置: 首页 > article >正文

软件开源与AI开源的区别

一.软件开源

  软件开源是指软件的源代码对公众开放,允许用户自由使用、修改和分发的软件。

核心特性:低成本(通常免费)、高可定制性(源代码可用,开发人员可以修改)、社区支持(庞大的用户社区为文档、Bug修复和改进做出贡献)、透明度(用户可以看到软件的工作原理以及它收集的数据)。

二.AI开源

1.AI开源分类

为了适应时代发展,OSI(Open Source Initiative,开源代码促进会)专门针对 AI 提出了三种开源概念,分别是:

  开源 AI 系统:包括训练数据、训练代码和模型权重。代码和权重需要按照开源协议提供,而训练数据只需要公开出处(因为一些数据集确实无法公开提供)。

  开源 AI 模型:只需要提供模型权重和推理代码,并按照开源协议提供。

  开源 AI 权重:只需要提供模型权重,并按照开源协议提供。

所谓推理代码,就是让大模型跑起来的代码,或者说大模型的使用代码,这也是一个相当复杂的系统性工程,涉及到了 GPU 调用和模型架构。

2.DeepSeek开源介绍

 (1)DeepSeek 只开源了权重,并没有开源训练代码、数据集和推理代码,所以属于第三种开源形式。

DeepSeek 官方一直都在说自己开源了模型权重,用词也是相当精确了,没有一丝一毫的欺骗。

其实第二种和第三种区别不大,因为在实际部署中,一般都会借助 Ollama 工具包,它已经包含了推理代码(llama.cpp),所以即使官方公布了推理代码,也不一定会被使用。

(2)再说一下第一种开源模式,就算把训练代码和数据集都给你,你也得拉起一个顶尖团队,花费几百万几千万甚至几个亿,才能复现出类似的模型权重。除了理想主义者,或者吃饱了撑的,否则没人会干这个事,直接把官方开源的模型权重拿来使用即可。

也就是说,对于大模型用户而言,只开源权重就足够了,他们并不需要知道权重是怎么来的。

当然,开源训练代码和数据集,对于学术研究还是有重大帮助的,它能快速推动产业进步,让人类早点从 AGI 时代进入 ASI 时代,所以第一种开源模式的意义也不能被忽视。

(3)虽然 DeepSeek 只开源了模型权重,没有开源模型代码,但是官方通过技术报告/论文公布了很多核心算法,以及降本增效的工程解决方案,同时也为强化学习指明了一种新的范式,打破了 OpenAI 对推理技术的封锁(甚至是误导),让业界重新看到了 AI 持续进步的希望。

另外,DeepSeek 还允许二次蒸馏,不管是商业的还是公益的,你可以随便用,这让小模型的训练变得更加简单和廉价。你再看看 OpenAI,明确写着不允许竞品进行二次蒸馏,并且妄图以此来指控 DeepSeek。

DeepSeek 的格局是人类,OpenAI 的格局是自己!

总之,对于一家商业公司来说,DeepSeek 的开放程度可以说是非常透明,透明到了毁灭自己的地步。包括 Hugging Face、伯克利大学、香港大学在内的某些机构,已经在尝试复现 DeepSeek 了;尤其是 Hugging Face,据说进度还不错,希望他能成功。

3.关于模型权重

  大模型说白了就是超大规模的神经网络,它类似于人类的大脑,由无数个神经元(权重/参数)构成。

刚开始的时候,大模型的所有权重都是随机的,就类似于婴儿刚出生时大脑一片空白。训练大模型的过程,就是不断调整权重的过程,这和人类通过学习来调整神经元的连接是一个道理。把训练好的大模型开源,就相当于把学富五车的大脑仍给你,你可以让它做很多事情。

满血版 DeepSeek R1(671B 版本,一个 B 等于 10 个亿)有 6710 亿个参数,模型文件的体积达到了 720GB,相当恐怖。别说个人电脑了,单台服务器都无法运行,只能依赖集群了。

为了方便大家部署,官方又在满血版 R1 的基础上蒸馏出了多个小模型,减少了参数的数量,具体如下:70B 版本,模型体积约 16GB;32B 版本,模型体积约 16GB;7B 版本,模型体积约 4.7GB;1.5B 版本,模型体积约 3.6GB。

最后两个模型在配置强大的个人电脑上勉强能跑起来。

模型权重都是超大型文件,而且有指定的压缩格式(比如 .safetensors 格式),一般都是放在 Hugging Face(抱抱脸)上开源,而不是放在传统的 GitHub 上。

DeepSeek R1 的开源地址为:https://huggingface.co/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d(需要梯子才能访问)


http://www.kler.cn/a/553186.html

相关文章:

  • Shapr3D在ipad上无法识别鼠标点击问题
  • 机器翻译中的编码器、自注意和解码器
  • 6.编写正排索引切分字符串|倒排索引原理|引入jieba到项目(C++)
  • 树(数据结构·)
  • 原生稀疏注意力机制(NSA):硬件对齐且可原生训练的稀疏注意力机制-论文阅读
  • 美股分钟级高频数据在量化研究中的时间序列分析
  • deepin 下安装nvm(npm+node)
  • 感想-人工智能:AI 的优缺点 / AI是一把好的锄头,但它永远不能自己去种地
  • Word接入DeepSeek(API的作用)
  • 使用 Certbot 自动获取和更新 Let‘s Encrypt SSL 证书
  • 数据湖与数据仓库:初学者的指南
  • MongoDB:listDatabases failed : not master and slaveOk=false
  • 理解计算机系统_虚拟内存(二)缓存
  • 【核心算法篇十六】《DeepSeek强化学习:MuZero算法核心解析》
  • Spring AI 接入 DeepSeek:开启智能应用的新篇章
  • “深入浅出”系列之C++:(8)libevent 库
  • 如何开发一个大模型应用?
  • Node events模块
  • ImportError: cannot import name ‘FixtureDef‘ from ‘pytest‘
  • 长文档处理痛点:GPT-4 Turbo引文提取优化策略与替代方案讨论