当前位置：首页 > article >正文

从外行人的角度解释1Bit的模型，是怎样改变世界的

article 2024/10/23 3:13:14

一个框架，和一篇论文，改变了模型训练的规则

框架是BitNET
论文https://arxiv.org/abs/2410.16144
在这里插入图片描述
有人问我什么是1.58Bit

是这样的。

fp16是一般情况下模型训练后产物的精度。

比如qwen2 8B fp16，文件大小15GB

如果量化成Q_4O，也就4GB

量化相当于模型压缩，会损失精度，常见的精度是INT4 INT8

量化后，模型小了，小机器也能跑了。

但是比全精度fp16更容易产生幻觉，胡说八道。

也就是说，精度高=硬件要求高=更智能，精度低=硬件要求低=更愚蠢

—好戏来了—

那篇论文，提出了一种新的精度，叫1.58bit，约等于1bit

这种精度的模型，如果按常理，几乎无法使用，因为精度太低。

但它提出了一种新的训练方法，将模型中神经元的状态定义为三种，-1 0 1

这种定义，和SNN脉冲神经网络的神经元类似，和人类大脑的神经元运作方式也类似。

-1低电压
0 正常
1 高于阀值

这种训练方式，降低了精度为1.58bit，但是训练后的模型和fp16精度的模型，推理效果相差不大。

这意味着，找到了一种低耗电，低资源占用，高产出的模型训练方法。

意味着，在一台普通计算机上，可以轻松运行8B，甚至70B的模型。而且是全精度。

在更强性能的计算机上，可以轻松运行406B的模型。并且和fp16精度性能相当。

我们使用的云的chat，例如通义千问官网的chat，不知道是全精度的，还是量化后的。

如果拿全精度的跑分，拿量化后的给用户用，那纯粹是骗人。

但是1bit的诞生，意味着厂商可以轻易的允许406B的模型，并且性能等同于全精度fp16，而耗能低的离谱。

但是也有缺陷，将先有模型转换成1bit，会导致模型幻觉增加，想要实现最好的效果，需要从头开始训练。

论文是中国人写的，还封装了一个框架 BitNET，这个框架隶属于微软。

总之，这是深度学习领域比较疯狂的改变，短短几天时间，那个仓库就有了很多issue。

降低算力需求，才能让模型走进千家万户。

这样也有助于提高模型的大小，说不定，未来我们使用的chat，都是1000B的。

到那个时候，AGI或许不再是问题，人们也不需要工作了。都要饭去了。

查看全文

http://www.kler.cn/news/361013.html

Qt编写的modbus模拟器/支持网络和串口以及websocket/支持网络rtu

Standard_Matrix

异步优化看板查询接口，从29s优化至2.8s

如何自定义一个自己的 Spring Boot Starter 组件（从入门到实践）

Tcp协议讲解与守护进程

第二十八篇：TCP协议概述，TCP系列二

华为OD机试2024年真题（基站维修工程师）

【二】企业级JavaScript开发之代码编辑器

Vue day06（路由进阶）

Segment Routing IPv6简介

《保护你的网站：多维度防护策略分析》

AcWing 11 背包问题求方案数

2024第四届中国RPA+AI开发者大赛圆满收官获奖名单公示

小新学习Docker之Docker--harbor私有仓库部署与管理

Comsol 低频宽带排气消声器

案例分析：拒绝服务攻击引发的网络调优之旅

blender分离含有多个动作的模型，并导出含有材质的fbx模型

软件分享丨火绒应用商店

【C++指南】类和对象（四）:类的默认成员函数——全面剖析：拷贝构造函数

Leetcode 1857. 有向图中最大颜色值

一个框架，和一篇论文，改变了模型训练的规则

相关文章：