LLM速览篇【241-270】
这些研究围绕大型语言模型(LLMs)展开,探讨了它们在多个领域的应用和优化方法。例如,LLaMA-Omni通过集成语音技术实现高效的语音交互;研究表明人类对LLMs生成内容的感知存在不足;优化GPU工作负载以提高LLM推理效率;EyeCLIP则专注于多模态眼科图像分析;MoWE-Audio提升音频任务性能;LLM在自动驾驶、代码生成和学术知识组织等领域的应用也得到了探讨。同时,还研究了LLMs在处理否定概念、生成测试场景及优化推荐系统中的表现。这些研究展示了LLMs在处理复杂任务中的潜力,以及改进其性能和应用的多种策略。
论文分类概览
语音与语言模型
- Paper241: LLaMA-Omni: Seamless Speech Interaction with Large Language Models
- Paper245: MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders
人类感知与文本生成
- Paper242: Human Perception of LLM-generated Text Content in Social Media Environments
- Paper248: Alleviating Hallucinations in Large Language Models with Scepticism Modeling
- Paper253: NeIn: Telling What You Don’t Want
模型优化与工作负载管理
- Paper243: Optimal Workload Placement on Multi-Instance GPUs
- Paper246: A Practice of Post-Training on Llama-3 70B with Optimal Selection of Additional Language Mixture Ratio
- Paper259: Length Desensitization in Directed Preference Optimization
多模态模型与应用
- Paper244: EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis
- Paper254: Multimodal Large Language Model Driven Scenario Testing for Autonomous Vehicles
- Paper256: Prompt2Fashion: An automatically generated fashion dataset
自动驾驶与安全性
- Paper251: MAPS: Energy-Reliability Tradeoff Management in Autonomous Vehicles Through LLMs Penetrated Science
- Paper255: HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data
学术知识与数据管理
- Paper247: Exploring Italian sentence embeddings properties through multi-tasking
- Paper257: Fine-tuning and Prompt Engineering with Cognitive Knowledge Graphs for Scholarly Knowledge Organization
- Paper258: Exploring the Integration of Large Language Models in Industrial Test Maintenance Processes
其他研究与分析
- Paper249: GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering
- Paper250: Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement
- Paper252: Questioning Internal Knowledge Structure of Large Language Models Through the Lens of the Olympic Games
- Paper260: Enhancing Sequential Recommendations through Multi-Perspective Reflections and Iteration
Paper241 LLaMA-Omni: Seamless Speech Interaction with Large Language Models
摘要小结: 该研究提出了LLaMA-Omni,这是一种新型的模型架构,旨在实现低延迟和高质量的语音与大型语言模型(LLM)交互,它集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够直接从语音指令生成文本和语音响应,无需语音转录,并在基于Llama-3.1-8B-Instruct模型上进行构建,并使用构建的InstructS2S-200K数据集进行训练,实验结果显示LLaMA-Omni在内容和风格上的响应优于以前的语音-语言模型,并且响应延迟低至226ms,且训练时间仅需3天以下,为未来高效开发语音-语言模型铺平了道路。
Paper242 Human Perception of LLM-generated Text Content in Social Media Environments
摘要小结: 该研究主要探讨了人类对于大型语言模型(LLMs)生成内容的感知能力,通过招募超过1000名参与者尝试区分社交媒体讨论线程中机器与人类发布的内容,发现人类在识别社交媒体上用户帖子的真实性质方面表现不佳,同时发现了人类识别LLMs生成文本内容的模式,并观察到了在文本对话中的“诡异谷”效应,即尽管人类在识别过程中表现不佳,但阅读LLMs生成的内容时仍能感受到不适。
Paper243 Optimal Workload Placement on Multi-Instance GPUs
摘要小结: 这篇论文主要研究了如何优化大型语言模型(LLM)基的人工智能推理工作负载在GPU上的放置,以优化GPU的使用,通过开发两种方法——优化方法和启发式方法,并在多个用例中与两种工作负载调度启发式进行比较,结果显示,与基线启发式相比,GPU使用数量最多可减少2.85倍,GPU浪费最多可减少70%。
Paper244 EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis
摘要小结: 本文提出EyeCLIP,一种视觉-语言基础模型,通过利用2.77百万多模态眼科图像和部分文本数据开发而成,主要工作是通过结合自监督重建、多模态图像对比学习和图像文本对比学习来学习多模态共享表示,有效应对眼科疾病早期检测,并在多种下游任务中实现先进性能,特别是在真实世界的长尾场景中展示了少量甚至零样本的能力。
Paper245 MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders
摘要小结: 本文提出了将混合“弱”编码器(MoWE)纳入AudioLLM框架,通过补充基础编码器以一组相对轻量级的编码器来增强特征提取,从而提高AudioLLM在多种音频任务上的表现,实证结果显示MoWE能有效提升多任务性能,扩大了AudioLLM的应用范围。
Paper246 A Practice of Post-Training on Llama-3 70B with Optimal Selection of Additional Language Mixture Ratio
摘要小结: 本文通过对LLama-3 8B和70B模型进行持续预训练(CPT)以提升其中文能力,研究了额外语言混合比(ALMR)和学习率(LR)之间的最优相关性,并通过精心选择超参数和后续微调,提升了模型在中文基准及特定领域(如数学、编程、情感智力)的能力,最终将70B版本部署在真实聊天系统中,获得了满意的表现。
Paper247 Exploring Italian sentence embeddings properties through multi-tasking
摘要小结: 该研究探讨了现有大型语言模型(LLMs)在多任务设置中多大程度上编码了意大利语的抽象语言信息,通过大规模合成数据(Blackbird Language Matrices)来分析预训练语言模型构建的句子表示是否编码了特定的句法和语义信息。研究采用双层架构,发现不同的任务在句子嵌入中编码信息的方式不同,表明预训练句子嵌入中似乎不存在如成分或主题角色等抽象语言概念。总结:研究通过多任务设置分析了LLMs对意大利语抽象语言信息的编码程度,发现预训练句子嵌入中未明显包含抽象语言概念。
Paper248 Alleviating Hallucinations in Large Language Models with Scepticism Modeling
摘要小结: 本文提出了一种名为Skepticism Modeling(SM)的新方法,旨在通过结合token和logits信息来进行自我估计,以提高大型语言模型(LLMs)的不确定性估计能力,从而减轻幻觉问题。作者通过构建怀疑情感感知数据,进行持续预训练,并微调LLMs,实验结果证明该方法能有效提升模型的不确定性估计能力,并通过域外实验验证了其在其他任务中的泛化能力。
Paper249 GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering
摘要小结: 本文提出了GroUSE,一个用于评估基于LLM的评委模型校准和区分能力的元评估基准,并通过144个单元测试识别了7个生成器故障模式,发现现有自动化RAG评估框架常忽略关键故障模式;作者还提出新评估流程,指出仅与GPT-4相关联是不完整的评估代理,并展示通过微调Llama-3显著提升了评估能力。
Paper250 Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement
摘要小结: 该研究旨在探究多语言预训练语言模型是否能够捕捉到跨语言的抽象语言学表示,通过开发大规模具有特定属性的合成数据来研究模型构建的句子表示,并使用一种新的多选题任务和黑鸟语言矩阵数据集专注于多种语言中的主谓一致现象,发现尽管多语言预训练语言模型在一致性文本上进行训练,但它们在不同语言中仍表现出特定的差异,且句法结构即使在密切相关的语言之间也不共享。
Paper251 MAPS: Energy-Reliability Tradeoff Management in Autonomous Vehicles Through LLMs Penetrated Science
摘要小结: 本文提出了MAPS方法,利用大型语言模型(LLMs)作为地图阅读的共同驾驶员,预测自动驾驶车辆操作中至关重要的参数,以平衡能量-可靠性权衡,结果显示在导航准确性上比最佳基线方法提高了20%,并在计算单元上节省了11%的能量,以及在机械和计算单元上最高节省54%的能量。
Paper252 Questioning Internal Knowledge Structure of Large Language Models Through the Lens of the Olympic Games
摘要小结: 本论文通过分析大型语言模型(LLMs)在奥运奖牌榜数据上的表现,探讨了LLMs的内部知识结构,发现虽然LLMs在报告单个团队的奖牌数上表现优异,但在回答特定排名问题上存在困难,这表明LLMs的知识结构与人类不同,同时研究者还公开了代码、数据集和模型输出以支持进一步研究。
Paper253 NeIn: Telling What You Don’t Want
摘要小结: 该研究工作提出了首个大规模的视觉-语言数据集Negative Instruction (NeIn),用于研究视觉-语言任务中的否定概念,包含530,694个四元组,并首次评估了视觉-语言模型在否定理解方面的表现,发现即使是最新一代的VLMs也难以处理否定查询。
Paper254 Multimodal Large Language Model Driven Scenario Testing for Autonomous Vehicles
摘要小结: 本文提出了OmniTester,这是一个基于多模态大型语言模型(LLM)的框架,用于生成真实和多样化的自动驾驶车辆(AV)测试场景,通过利用LLM的世界知识和推理能力,简化代码复杂性,并增强场景理解,以提高生成场景的真实性,主要工作是在实验中展示了其在生成挑战性复杂场景和控制性方面的有效性。
Paper255 HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data
摘要小结: 本文提出了HexaCoder,一种新颖的方法来增强大型语言模型(LLM)生成安全代码的能力,该方法通过自动合成安全代码来减少寻找合适训练数据的努力,包含一个由oracle引导的数据合成管道和一个两步安全代码生成过程,能够显著减少生成含有漏洞的代码,同时维持较高的功能正确性。
Paper256 Prompt2Fashion: An automatically generated fashion dataset
摘要小结: 本工作通过利用生成模型自动构建了一个满足不同场合、风格和体型需求的时尚图像数据集,使用多种大型语言模型和提示策略为用户提供高质量的个性化服装,并通过定性分析展示了其满足专家和非专家用户需求的能力,同时强调了在评估艺术AI生成数据集时专家知识的重要性,数据集已在GitHub上公开。
Paper257 Fine-tuning and Prompt Engineering with Cognitive Knowledge Graphs for Scholarly Knowledge Organization
摘要小结: 本研究通过利用大型语言模型(LLMs)将学术论文进行分类并结构化描述其贡献,创建了一种新型的认知知识图谱(CKG),以提高访问和组织学术知识的效率,并超越标题和摘要提供的洞察;方法是通过结合LLMs与领域专家验证的CKG数据来提升模型性能,特别是在学术论文分类和谓词推荐任务中,研究成果已集成到开放研究知识图谱(ORKG)中,以促进学术知识的交换和传播。
Paper258 Exploring the Integration of Large Language Models in Industrial Test Maintenance Processes
摘要小结: 本段摘要的主要工作是探索大型语言模型(LLMs)在支持软件测试维护方面的能力与应用,通过在Ericsson AB进行案例研究,分析了LLMs在测试维护中的触发因素、可采取的行动以及部署时的考虑因素,并提出了两种多代理架构来预测哪些测试案例需要在源代码更改后进行维护,从而推进了LLMs在工业测试维护过程中的理论理解和实际应用。
Paper259 Length Desensitization in Directed Preference Optimization
摘要小结: 本文针对直接偏好优化(DPO)在强化学习从人类反馈(RLHF)阶段易过度优化冗长性问题,进行了深入的理论分析,揭示了DPO隐含奖励与数据长度之间的强相关性,并提出了长度去敏感化改进方法LD-DPO,通过实验验证,LD-DPO能有效降低响应长度并更贴近人类真实偏好,相比DPO在多个基准上实现了10-40%的长度减少。
Paper260 Enhancing Sequential Recommendations through Multi-Perspective Reflections and Iteration
摘要小结: 该研究提出了Mixture of REflectors (MoRE) 框架,旨在通过三个反射器来建模和学习序列推荐(SeqRec)中的动态用户偏好,这三个反射器分别针对显性偏好、隐性偏好和协同信号生成基于LLM的反射,并通过自我改进策略来评估和迭代更新反射,同时使用上下文_bandit算法有效捕捉动态偏好,实验证明MoRE在性能上优于现有方法,且训练时间和GPU内存需求更低。总结来说:该研究通过MoRE框架改善了LLM在SeqRec中的推荐效果,特别是在处理动态用户偏好方面。
Paper261 MAGDA: Multi-agent guideline-driven diagnostic assistance
摘要小结: 本工作提出了一种新的零样本指导方针驱动的决策支持方法,通过多个LLM代理和对比视觉语言模型协作来达到患者诊断,这些代理在遵循简单诊断指南后,能够合成提示并按照这些指南筛查图像,最终提供易于理解的诊断推理链,并自我优化以考虑疾病间的相互依赖,研究在两个胸片数据集上展示了性能提升和对罕见疾病的泛化能力。
Paper262 VoiceWukong: Benchmarking Deepfake Voice Detection
摘要小结: 该研究提出了VoiceWukong,这是一个用于评估深度伪造语音检测器性能的综合基准,包含265,200个英文和148,200个中文深度伪造语音样本,涵盖6种操纵类型;研究评估了12个最先进的检测器,发现它们的性能在实际应用中显著下降,并进行了用户研究,提供了不同检测器和人类在不同欺骗级别下对深度伪造语音的识别能力比较,还发布了一个公开的深度伪造语音检测排行榜。
Paper263 Towards Agentic AI on Particle Accelerators
摘要小结: 本文提出了一个用于加速器控制的新型去中心化多智能体框架,该框架由大型语言模型(LLMs)驱动,并分布在自主智能体中,旨在通过智能体处理高级任务和通信,每个智能体专门控制加速器组件,同时探讨了AI在粒子加速器中的未来应用及实现自主系统的挑战,并通过两个示例验证了该架构的可行性。
Paper264 Extracting Paragraphs from LLM Token Activations
摘要小结: 该研究探讨了生成式大型语言模型(LLM)在段落开头决定内容的能力,揭示了模型对上下文的理解;通过分析单个token激活中编码的信息,特别是“\n\n”双换行符,证明了修改这些激活可以传递关于下一段落的语境信息,从而深入了解模型规划未来的能力。
Paper265 Enhancing Long Video Understanding via Hierarchical Event-Based Memory
摘要小结: 本文提出了一种名为HEM-LLM的层次事件增强记忆大型语言模型,旨在提高对长视频的理解能力,通过设计自适应序列分割方案来划分长视频中的多个事件,减少信息冗余,并在建模当前事件时增强事件间的长期依赖关系,实验证明该模型在视频理解任务上达到了先进性能。
Paper266 User Preferences for Large Language Model versus Template-Based Explanations of Movie Recommendations: A Pilot Study
摘要小结: 本文通过一个试点研究评估了大型语言模型(LLM)在生成推荐系统解释方面的有效性,发现LLM-based的解释可能提供更丰富、更吸引人的用户体验,并可能更好地符合用户期望,这为利用LLM改进推荐系统的用户满意度和信任提供了有希望的方向。主要工作是对比了传统模板-based、LLM重新表述的模板输出以及纯LLM-based的解释。
Paper267 Automate Strategy Finding with LLM in Quant investment
摘要小结: 本文提出了一种结合大型语言模型(LLMs)和多代理架构的创新框架,用于股票投资中的组合管理和alpha挖掘,该框架通过LLMs生成多样化alpha并使用多代理动态评估市场条件,实验证明在多个金融指标上显著优于现有基线,强调了AI驱动方法在提升量化投资策略中的潜力。
Paper268 Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models
摘要小结: 该研究提出了Ferret,这是首个具有共享随机性的第一阶方法,能够在保持模型准确性的同时,对LLM进行大规模的全参数联邦调优,主要通过高效本地更新、降低通信开销和确保有效全参数全球聚合来实现,显著提高了现有联邦全参数调优的可扩展性。
Paper269 Market Reaction to News Flows in Supply Chain Networks
摘要小结: 本研究通过使用全球和日本上市公司的样本,探讨了正面公司新闻是否会导致公司股价上涨,以及是否会提升其供应商和客户的股价;使用FinBERT模型确定新闻积极程度,发现正面新闻会通过非正式渠道提升股价,且这种正面影响会通过供应链传导,研究还发现正面新闻披露后的股价效应通常大于披露前,但日本供应商和客户的后新闻效应较小,这可能因为日本供应链联系更紧密。
Paper270 MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding
摘要小结: 本文主要工作是为识别社交场合中最重要的人(MIP)构建了一个大规模的“野生”数据集,并通过多模态大语言模型(MLLM)进行了数据注释策略的研究,同时进行了数据质量分析和现有MIP定位方法的性能基准测试,结果表明现有算法在“野生”环境下的性能有显著下降,强调了算法对复杂场景的适应性需要加强,该数据集有望推动下一代社交情境理解方法的发展。