当前位置: 首页 > article >正文

流式学习(简易版)

最近读论文看到了这个概念,感觉还挺有意思的

流形(Manifold) 广泛应用于多个领域,如几何学、物理学、机器学习等。流形本质上是一个局部类似于欧几里得空间的空间,即它在某些尺度下看起来像我们熟悉的平面或曲面,但整体结构可能是复杂的。简单来说,你可以把流形想象成一个“弯曲的”空间,在局部上看起来像我们熟悉的平面,但全局上可能是弯曲或折叠的。

流形学习(Manifold Learning)是一种用于降维(Dimensionality Reduction)非线性数据建模的技术,基于假设:
高维数据往往在低维流形(manifold)上存在某种结构化模式。
换句话说,尽管数据可能存在于 高维空间它实际上可以被映射到一个较低维的空间同时仍然保持原始的几何结构。


1. 为什么需要流形学习?

现实世界中的许多数据(如图像、文本、语音)通常高维但存在低维结构

  • 图像数据(( 64 \times 64 = 4096 ) 维):自然图像可能仅由几个关键因素(如光照、角度、物体形状)决定,因此本质上是低维的。
  • 文本数据(数万维 one-hot):语言具有语法结构,实际可映射到较低维的流形上。
  • 生物数据(如基因表达):不同基因的表达存在相关性,数据实际可能位于较低维的流形上。

简单来说,流形学习可以帮助:

  1. 降维(Dimensionality Reduction):减少计算复杂度,如 PCA、t-SNE。
  2. 去除噪声(Denoising):学习数据的本质结构。
  3. 数据可视化(Data Visualization):如 t-SNE、UMAP 进行二维或三维投影。

2. 直观理解流形

假设有一个 “瑞士卷”(Swiss Roll) 数据集,如下图:

📌 **瑞士卷(Swiss Roll)示例:
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 这是一个三维数据集((x, y, z)),但如果展开,它其实是二维的
  • 普通的线性方法(如 PCA)无法有效降维,因为它不能保留局部结构。
  • 流形学习方法(如 Isomap、LLE)可以正确地学习到它的二维结构

3. 常见的流形学习算法

方法核心思想优点缺点
PCA(主成分分析)线性变换,将数据投影到方差最大的方向上简单高效,适用于线性数据不能处理非线性流形
t-SNE(t-分布随机邻域嵌入)通过概率分布保持局部结构,进行非线性降维适合数据可视化计算复杂度高
UMAP(统一流形逼近)通过测度空间上的局部和全局结构降维计算速度比 t-SNE 快仍需调参
Isomap(等距映射)计算数据点间的测地距离(Shortest Path)能够保持流形结构对噪声敏感
LLE(局部线性嵌入)通过局部线性关系重构低维表示能保持局部结构不能处理流形间的折叠

这些方法大多用于数据降维和可视化,但在深度学习中,流形学习的概念被进一步扩展,例如:

  • 自监督学习(Self-Supervised Learning):学习高维数据的低维表示,如 SimCLR、BYOL
  • 图神经网络(GNNs):学习图结构数据的嵌入,如 GraphSAGE、GAT
  • 生成模型(GAN/VAE):学习数据的潜在流形表示。

4. 流形学习 vs. 传统机器学习

传统方法(PCA、SVM等)流形学习(t-SNE, UMAP, Isomap等)
数据类型线性数据(如股票价格)非线性数据(如图像、语音)
目标发现全局模式保持局部几何结构
降维方式线性投影非线性映射
计算复杂度

简单来说,流形学习适用于 复杂的、非线性数据,能够更准确地发现数据中的潜在低维结构。


5. 深度学习中的流形学习

在深度学习(Deep Learning)中,流形学习的思想被广泛应用:

  • Autoencoders(自编码器):学习输入数据的低维嵌入(潜在变量)。
  • Contrastive Learning(对比学习):通过流形上的样本对比学习(SimCLR, MoCo)。
  • Graph Neural Networks(图神经网络):学习图结构数据上的流形信息。
  • GAN/VAE(生成模型):学习数据分布的低维流形,并生成新数据。

📌 示例:图神经网络(GNN)

  • 许多现实世界的数据是图数据(如社交网络、分子结构)。
  • GNN 通过邻接结构学习数据的低维流形表示,使得节点的表示能够捕捉数据的拓扑信息。

总结

  • 流形学习 研究高维数据中的 低维结构,主要用于 降维、可视化和数据建模
  • 许多现实世界数据本质上具有低维流形结构(如图像、语音、社交网络)。
  • 常见算法:Isomap、LLE、t-SNE、UMAP 等,主要用于非线性降维
  • 深度学习中的应用
    • GNN、Autoencoders、对比学习、GAN/VAE 等模型都利用流形学习的思想来学习更好的数据表示。

http://www.kler.cn/a/532089.html

相关文章:

  • PVE纵览-解锁 PVE 的潜力:配置显卡直通
  • 大年初六,风很大
  • 为AI聊天工具添加一个知识系统 之85 详细设计之26 批流一体式 与数据提取器
  • SAP HCM 回溯分析
  • ieee模版如何修改参考文献的格式以及多作者省略等
  • 对象的实例化、内存布局与访问定位
  • 刷题笔记 哈希表-1 哈希表理论基础
  • AI 编程工具—Cursor进阶使用 Agent模式
  • 【棋弈云端】网页五子棋项目测试报告
  • 趣味Python100例初学者练习01
  • Chapter 6 -Fine-tuning for classification
  • 解析Python装饰器高级用法6项
  • 算法随笔_38: 最多能完成排序的块
  • 蓝桥杯真题 - 子串简写 - 题解
  • 开源 CSS 框架 Tailwind CSS
  • upload-labs安装与配置
  • SQL Server中DENSE_RANK()函数:简洁处理连续排名
  • 数据结构:树和二叉树概念_堆篇
  • apikey存储方案探秘(deepseek-R1对话)
  • 九. Redis 持久化-RDB(详细讲解说明,一个配置一个说明分析,步步讲解到位)
  • RabbitMQ深度探索:死信队列
  • PHP开发小记-消息推送
  • 《深度揭秘LDA:开启人工智能降维与分类优化的大门》
  • Android学习21 -- launcher
  • 设计一个特殊token以从1亿词表中动态采样8192个词来表达当前序列
  • CSS工程化概述