当前位置：首页 > article >正文

MOE论文汇总

article 2025/4/2 12:45:24

最近对MOE感兴趣，现汇总MOE+无监督相关的文章，文章均为略读

文章

Self-Supervised Mixture-of-Experts by Uncertainty estimation

发表于:AAAI19
流程:
文章配图
总体来说，当环境给出反馈，通过门控网络激活相应的专家去交涉。但是，专家网络可能需要参数–因此，可以通过transformer来生成ground truth来去选择对应的专家。
总结： 这篇文章的监督信号是transformer生成的

MoDE: CLIP Data Experts via clustering

发表于：CVPR24
这篇论文介绍了一种名为Mixture of Data Experts (MoDE)的新方法，用于改进对比语言-图像预训练（CLIP）的性能。CLIP的成功依赖于图像和标题之间的配对监督，但网络数据中的噪声会影响学习质量。MoDE通过聚类学习一组CLIP数据专家，每个数据专家在训练时只关注一个数据集群，减少了对其他集群中错误负面噪声的敏感性。在推理时，通过考虑任务元数据和集群条件之间的相关性来加权集成这些输出。
MoDE的核心思想是：

通过聚类将训练数据（图像-标题对）分成几个不相交的子集，每个子集用于训练一个模型。
1. 每个模型（数据专家）专门处理一个集群的数据，从而减少错误负面样本的影响，并提高对比学习的效果。
1. 在下游任务中，如图像分类，通过比较任务元数据（如类别名）和每个数据集群的中心，来决定激活哪些数据专家。
1. 被选中的数据专家用于创建测试图像和类别的嵌入，然后输出最高集成相似性的类别作为分类结果。
实验表明，MoDE在多个标准基准测试中优于几个最先进的视觉-语言模型，例如在CLIP基准测试中的图像分类提高了3.7%，在COCO数据集上的图像到文本检索提高了3.3%，文本到图像检索提高了2.7%。MoDE的优势归因于更好的训练个体数据专家模型，因为同一集群中的样本在对比学习中提供了更高质量的负面样本。
总结： 将expert和无监督聚类结合，取得了不错的结果
Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture of Experts
发表于: Neurips 22,谷歌团队~
10.这篇的工作是多模态对比学习。参考文章：LIMoE：使用MoE学习多个模态-CSDN博客