关于预训练后训练、LLM和视频大模型相关学习记录
Pre-training与Post-training
预训练主要是“模仿”,而后训练则是“创造”
预训练对数据质量的要求不高,而后训练对数据质量的要求较高
预训练:模型通过预测海量互联网文本数据中的下一个 token,学习语言的通用规律,得到基础模型。
后训练:在预训练模型基础上,进行指令微调、偏好微调(RLHF)和强化微调等,使模型具备更符合人类期望的行为。
语言大模型与视频大模型
对于LLM而言,预训练基本到顶,原因之一就是开源模型的性能已经非常接近闭源模型的性能
对于视频模型的预训练而言,仍在发展的初级阶段,目前视频大模型的参数量仍停留在百亿(几十B)的水平
LLM可用的数据已基本耗尽,但是视频大模型可用的数据仍非常多;视频数据相比文本数据太大,导致在现有算力条件下,一方面视频大模型的参数量难以达到LLM的量级,同时训练使用的数据量也不能有则尽用
LLM更偏重于概率,而视频大模型则更需要关注对物理规律的理解
具身智能
难点在于大部分情况属于 extrapolation(外推)情形,即训练数据未覆盖到的场景
与外推对应的是插值(Interpolation),即测试数据在训练数据分布范围内
LLM分为指令模型和推理模型两种
学习原文:https://mp.weixin.qq.com/s?__biz=MzkzNDQxOTU2MQ==&mid=2247496067&idx=1&sn=e8e0a317dea0f9a53f040e455ba7da43&scene=21#wechat_redirect
https://mp.weixin.qq.com/s?__biz=Mzg5NTc0MjgwMw==&mid=2247514014&idx=1&sn=9741f66499dae7ca6eee728828cf6dc1&scene=21#wechat_redirect