当前位置：首页 > article >正文

大模型涌现判定

article 2024/10/24 21:40:04

什么是大模型？

大模型：是“规模足够大，训练足够充分，出现了涌现”的深度学习系统；

大模型技术的革命性：延申了人的器官的功能，带来了生产效率量级提升，展现了AGI的可行路径；

大模型的三个关键能力（涌现的行为）：ICL(情景学习能力)，CoT（深度推理能力），LNI（自然指令学习）

大模型智能涌现现象：

数据型规模达到一定水平时，在新任务上的性能显著提高，超出平均水平。

大模型的尺度（scaling laws)：

大模型的泛化表现与学习质量、训练数据规模、参数规模呈指数率关系。

智能涌现：自然现象与多学科启示

智能涌现：由个体的相互作用（简单规则）导致非常智能（复杂而有序）的整体行为。

物理观点：对称性破缺是基础（Anderson，more is different，Science，1972）：尺度是根本要素：1）划分尺度 2）出现新的因果 3）选择最强因果性——因果涌现。

数学观点：极限所展示的行为（极限是开拓认知边界的利器）

$e= \sum_{n=0}^{\infty }\frac{1}{n!}=\lim_{x\rightarrow \infty }(1+\frac{1}{x})^{x}$

$\Pi =4\sum_{n=0}^{\infty }\frac{(-1)^{n}}{2n+1}$

$\sqrt{2} =\lim_{n\rightarrow \infty }x_{n},x_{n}=1+\frac{1}{1+x_{n}}$

大模型智能涌现与尺度率：数学建模

假设 $\varepsilon (N,P,\partial l)$ 是解决任务T的性态函数（如泛化性度量）大模型的智能行为能够通过性态函数反应。

$\varepsilon (N,P,\partial l)\rightarrow \varepsilon (\infty ,\infty ,0)$ (任何意义下)

由此推得

$\varepsilon (\infty ,\infty ,0)-\epsilon \leq inf_{N,P,\partial l} (\varepsilon (N,P,\partial l))\leq \varepsilon (\infty ,\infty ,0)+\epsilon$

大模型是否存在相变？ 存在性就意味着相变！

大模型能不能工作更好？ $\varepsilon (\infty ,\infty ,0)$ 度量了相变后行为！

大模型涌现的判定准则

大模型与极限架构：有限vs无限

模型架构：以“功能块+基块周期性重复”为结构的大规模深度神经网络（映射功能）

一个大模型架构由若干个功能块组成。固定一个功能块，假设该功能含k个基块，且第i个基块定义映射 $T_{i }$ ，则该功能可以表示为k个算子的复合，即

$f_{wp}=T_{w_{k}}\cdot T_{w_{K-1}}\cdot ...\cdot T_{w_{1}}:\chi \rightarrow y$

假设宽度有限，P是K个基块的参数总规模， $w_{p}= [w_{1}...w_{n}]$ 是功能块所有参数。

而无限维系统为

$f_{w}^{*}=\lim_{p\rightarrow \infty }f_{wp}$

本模型极限架构的存在性等价于算子无穷乘积的收敛性。

通过引入非线性Lipschitz算子及特征数（涉及泛函分析，此处不细讲）可以用于描述大模型涌现或尺度率的判定条件。

结论：涌现存在的条件

1）通常假设1和假设3作为A的前提假设，因而上述定理说明：如果大模型的权值能最优设置，而且其基块满足Lip $Lip(T_{i})\leq 1$ 且满足自映射条件，或 $m(A_{i})\geq 0$ 且满足极大单调性条件，则当模型规模，训练数据规模趋于无穷时，则大模型一定会出现涌现。

2) 极限架构行为即表现为涌现具体可刻画可通过选择特定的 $\varepsilon$ 形式（包括线性和损失函数）

结论：模型规模尺度率

模型规模尺度率为指数律或幂率，取决于模型基块的组装方式：A.模式（残差式）要求的条件m（A）>0，一般总是弱于T模式（堆叠式）条件 $Lip(T)$ <1，但以收敛速度更慢为代价。

只剩下偏差（红线），即大模型的插值性将导致泛化性，大模型具有抗耐噪性

一些可以进一步深化的问题？

来自徐宗本院士的分享！

http://www.kler.cn/news/363526.html

相关文章：

Ubutu下的Python如何打包

wx.navigateTo和wx.reLaunch

Android 两种方式实现类似水波扩散效果

文案创作新思路：Python与文心一言API的完美结合

一文搞懂大模型量化和大模型微调

[分享] SQL在线编辑工具（好用）

每天五分钟深度学习pytorch：L1和L2范数、L1和L2归一化

Spring面试题

Deformable Detr

几张图就让你掌握InnoDB 存储引擎底层逻辑架构

linux_c IPC消息队列练习

OpenHarmony 目前所有体系详细介绍

Git的多人协作模式与企业级开发模型

【NodeJS】NodeJS+mongoDB在线版开发简单RestfulAPI (三)：Cors的设置及.env文件的设置

2024年03月中国电子学会青少年软件编程（图形化）等级考试试卷（四级）答案 + 解析

java字段判空方法Assert.hasText()详细讲解

智慧城市垃圾分类可视化

提示词高级阶段学习day3.1什么是结构化 Prompt ？

算法魅力-双指针之滑动窗口的叛逆

吴恩达深度学习笔记：卷积神经网络（Foundations of Convolutional Neural Networks）3.9-3.10

【vue + mockjs】Mockjs——数据接口模拟

git clone卡在Receiving objects

matlab生成mipi crc值

MySQL 中的连表是怎样实现的？为什么大厂不使用连表查询？

Python 文件路径与文件系统操作

springboot RedisTemplate支持多个序列化方式