当前位置：首页 > article >正文

大模型日报10月21日

article 2024/10/21 23:10:27

🎤资讯篇

资讯

01清华开源混合精度推理系统MixQ

量化权重与激活：MixQ同时量化权重和激活，使用INT8/INT4张量核心进行推理加速，并通过FP16张量核心处理少量激活中的离群值，既保持精度又提升吞吐量。其混合精度量化策略使推理精度几乎无损，精度下降不到0.1%。

等价变换优化计算图：MixQ基于离群点的局部性，优化了混合精度推理的计算图，避免了重复检查离群点的开销。通过量化系数中的amax值判断矩阵中的离群点，从而降低计算开销。

高效数据结构与CUTLASS优化：MixQ设计了新型数据结构，通过将离群点“拼接”成矩阵，减少访存开销。同时，使用CUTLASS 3.x编写高性能算子，将低精度计算结果反量化并与高精度结果相加，进一步提升性能。

https://mp.weixin.qq.com/s/Y1eB2h86KYpU7SsxxoK4HQ

02智源发布原生多模态世界模型Emu3 实现图像、文本、视频大一统

视觉tokenizer：Emu3通过一个强大的视觉tokenizer将图像和视频转化为离散的token，能够与文本token统一处理。这个视觉tokenizer基于MoVQGAN架构，在时间和空间维度上实现了显著的压缩，同时通过三维卷积层增强了视频的处理能力。网络架构：Emu3保留了Llama-2的大语言模型架构，但扩展了嵌入层以容纳视觉token，并采用了如RMSNorm、GQA注意力机制、SwiGLU激活函数等技术。同时，模型通过改进的嵌入层处理多模态输入，使用QwenTokenizer进行多语言文本编码，消除了部分传统偏置设计。多模态数据处理：Emu3对图像和视频进行了密集的标注和过滤处理，创建了一个大规模的多模态数据集。其预训练分为两个阶段，分别处理图像和视频数据，通过极长的上下文长度（最高达131,072个token）实现了复杂视频数据的建模。直接偏好优化(DPO)：在视觉生成任务中，Emu3使用DPO技术，使模型生成的内容更符合人类偏好，这种方法无缝应用于自回归的视觉生成，确保生成结果更自然和贴近人类需求。https://mp.weixin.qq.com/s/b4emisljL0bXvBfSyDcAbw

Bengio团队新论文！强化学习新策略：不要做我可能不会做的事情

在强化学习中，当智能体的奖励机制与设计者的意图不一致时，可能会导致不理想的行为。为防止这种情况，通常采用KL正则化技术，通过限制智能体的行为来减少不符合设计者意图的行为。然而，这种方法并不能完全避免意料之外的行为，特别是在基于贝叶斯预测模型进行模仿学习的情形下。KL正则化通过衡量提议策略与基础策略的相似性来限制智能体的行为，但它有局限性。研究表明，当基础策略是可信策略的贝叶斯模仿时，KL约束的效果会随着训练数据的增加而逐渐减弱，这意味着智能体在新环境下仍然可能表现出异常行为。核心问题在于，贝叶斯模仿在处理不确定性时，无法有效区分一些看似合理但实际上不应采取的行动。为解决此问题，研究者提出了新的理论方案，建议将指导原则从“不要做我不会做的事”改为“不要做我可能不会做的事”，以增强智能体在新环境中的谨慎性。此外，研究人员提出了一种基于贝叶斯预测和模仿的替代方案，允许智能体在不确定时寻求帮助，并通过实验证明这种方法可以提高智能体的可靠性。实验结果表明，即使奖励机制不完美，智能体仍能找到简单有效的策略来最大化奖励，这表明我们需要更慎重地设计奖励系统。KL正则化在限制智能体行为方面的作用有限，尤其是在复杂的对话任务中，较小的KL预算虽然能使智能体的行为更复杂，但仍无法完全避免简单化和不理想的行为。这提醒我们在微调语言模型时，应关注整体的KL散度控制。https://mp.weixin.qq.com/s/oKz3QbqKPZCgVbcTkBKbEQ

04美国AI博士为何高产？欧洲博士的质疑与反思

在机器学习社区中，一位欧洲博士的质疑引发了广泛讨论。他正在攻读AI/机器学习方向的博士学位，学业进展看似顺利，但当他看到美国博士生们人均10篇AI顶会论文、5篇一作时感到震惊，提出了疑问：这些博士生是如何如此高效地产出如此多的高质量研究成果？这位博士分析了差异背后的几个主要原因：高强度工作文化：美国顶尖学术机构的博士生通常一周工作超过60小时，全年无休，形成了高强度的“内卷”文化。激烈的竞争环境推动博士生不断加大工作强度，以保持领先。

资源优势：美国顶尖实验室拥有大量的GPU等计算资源，极大地加速了研究进度。资源的巨大差异使得顶尖博士生能够快速完成高质量的研究。

顶尖人才聚集：美国的顶尖项目吸引了来自全球的优秀学生，他们在高压环境中协同工作，进一步推动了学术产出。

机构与名人效应：知名大学和实验室的资源与声望让这些博士生的论文更容易受到学术界的关注，即便质量未必最优，顶尖机构的标识也为其提供了隐形优势。

幸存者偏差：讨论中也有人指出，这类现象可能是一种幸存者偏

🎤学术篇

信号

01SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers

这篇文章介绍了Sana，一个高效的文本到图像生成框架，能够生成高达4096×4096分辨率的高质量图像。Sana的关键设计包括：(1) 深度压缩自编码器，可以将图像压缩32倍；(2) 线性DiT（Diffusion Transformer），使用线性注意力替代传统注意力机制，提高高分辨率下的效率而不牺牲质量；(3) 仅解码器的文本编码器，用现代小型解码器模型替换T5，并通过上下文学习增强图像-文本对齐；(4) 高效训练和采样技术，采用Flow-DPM-Solver减少采样步骤，并加速收敛。结果表明，Sana-0.6B在性能上与大型扩散模型（如Flux-12B）相当，但体积小20倍，速度快100多倍。此外，Sana-0.6B可以在16GB笔记本GPU上运行，生成1024×1024分辨率图像的时间不到1秒。代码和模型将公开发布。https://x.com/JulienBlanchon/status/184631885263794996402

Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design

这篇文章介绍了一种新的算法DRAKES，它通过在离散扩散模型中结合强化学习（RL）来优化特定任务目标。该算法允许直接通过扩散模型生成的整个轨迹反向传播奖励，并使用Gumbel-Softmax技巧使原本不可微的轨迹可微。文章的理论分析表明，这种方法可以生成既类似于自然序列（即在预训练模型下有很高概率）又能得到高奖励的序列。文章还展示了该算法在生成优化增强子活性的DNA序列和优化蛋白质稳定性的蛋白质序列方面的有效性，这些是基因疗法和基于蛋白质的治疗中的重要任务。https://x.com/svlevine/status/184783706932401397703

Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens

这篇文章探讨了在文本到图像生成任务中，自回归模型的扩展问题，特别是在视觉领域。研究关注了两个关键因素：模型是使用离散令牌还是连续令牌，以及令牌是按随机顺序还是固定光栅顺序生成。实验结果表明，使用连续令牌的模型在视觉质量上显著优于使用离散令牌的模型。此外，随机顺序模型在GenEval评分上明显优于光栅顺序模型。基于这些发现，研究者训练了一个名为Fluid的随机顺序自回归模型，该模型在MS-COCO 30K上的零样本FID达到了6.16的新最佳状态，并在GenEval基准测试中获得了0.69的总体得分。https://arxiv.org/abs/2410.1386304

Movie Gen: A Cast of Media Foundation Models

这篇文章介绍了一个名为Movie Gen的新型基础模型系列，该模型能够生成高质量的1080p高清视频，具有不同的宽高比和同步音频。此外，还展示了基于精确指令的视频编辑和根据用户图像生成个性化视频的附加功能。这些模型在文本到视频合成、视频个性化、视频编辑、视频到音频生成和文本到音频生成等多个任务上都取得了新的突破。文章还介绍了在架构、潜在空间、训练目标、数据管理、评估协议、并行化技术和推理优化等方面的多项技术创新和简化，这些创新使得在预训练数据、模型规模和训练计算方面取得了规模化的优势。https://arxiv.org/abs/2410.1372005

MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

这篇文章介绍了MixEval-X，这是一个全新的多模态基准测试，旨在优化和标准化跨不同输入和输出模态的评估。文章指出了当前评估中存在的两个主要问题：不一致的标准和显著的查询、评分及泛化偏差。MixEval-X通过多模态基准混合和适应-校正流程来重建现实任务分布，确保评估能够有效泛化到现实用例。广泛的元评估表明，该方法能有效地将基准样本与现实任务分布对齐，并且其模型排名与众包现实评估高度相关，同时效率更高。https://huggingface.co/papers/2410.13754

HuggingFace&Github

012

LazyLLM

LazyLLM是一款低代码构建多Agent大模型应用的开发工具，协助开发者用极低的成本构建复杂的AI应用，并可以持续的迭代优化效果。LazyLLM提供了便捷的搭建应用的workflow，并且为应用

查看全文

http://www.kler.cn/news/359343.html