当前位置：首页 > article >正文

AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.08.25-2024.08.31

article 2025/4/2 17:42:21

文章目录～

1.LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models
2.GenAI-powered Multi-Agent Paradigm for Smart Urban Mobility: Opportunities and Challenges for Integrating Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) with Intelligent Transportation Systems
3.An Empirical Study on Information Extraction using Large Language Models
4.Evaluating the Effectiveness of Large Language Models in Representing and Understanding Movement Trajectories
5.Can Large Language Models Address Open-Target Stance Detection?
6.ProGRes: Prompted Generative Rescoring on ASR n-Best
7.Enhancing Document-level Argument Extraction with Definition-augmented Heuristic-driven Prompting for LLMs
8.Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback
9.Assessing Generative Language Models in Classification Tasks: Performance and Self-Evaluation Capabilities in the Environmental and Climate Change Domain
10.Bridging Domain Knowledge and Process Discovery Using Large Language Models
11.MemLong: Memory-Augmented Retrieval for Long Text Modeling
12.UserSumBench: A Benchmark Framework for Evaluating User Summarization Approaches
13.Theoretical and Methodological Framework for Studying Texts Produced by Large Language Models
14.SALSA: Speedy ASR-LLM Synchronous Aggregation
15.A Survey for Large Language Models in Biomedicine
16.Instruction-tuned Large Language Models for Machine Translation in the Medical Domain
17.Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models
18.Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization
19.Language Adaptation on a Tight Academic Compute Budget: Tokenizer Swapping Works and Pure bfloat16 Is Enough
20.StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements
21.SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding
22.LRP4RAG: Detecting Hallucinations in Retrieval-Augmented Generation via Layer-wise Relevance Propagation
23.Measuring text summarization factuality using atomic facts entailment metrics in the context of retrieval augmented generation
24.DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding
25.Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models
26.Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning
27.PAT: Pruning-Aware Tuning for Large Language Models
28.Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models
29.Explicit Inductive Inference using Large Language Models
30.MEDSAGE: Enhancing Robustness of Medical Dialogue Summarization to ASR Errors with LLM-generated Synthetic Dialogues
31.Video-CCAM: Enhancing Video-Language Understanding with Causal Cross-Attention Masks for Short and Long Videos
32.On-Device Language Models: A Comprehensive Review

1.LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models

标题:LongRecipe：在大型语言模型中实现高效长语境泛化的秘诀

author:Zhiyuan Hu, Yuliang Liu, Jinman Zhao, Suyuchen Wang, Yan Wang, Wei Shen, Qing Gu, Anh Tuan Luu, See-Kiong Ng, Zhiwei Jiang, Bryan Hooi

publish:Work in Progress

date Time:2024-08-31

paper pdf:http://arxiv.org/pdf/2409.00509v2

摘要：
大语言模型（LLM）在处理长语境任务时面临巨大挑战，因为它们在预训练时的有效语境窗口大小有限，这限制了它们在扩展序列上的泛化能力。同时，通过后预训扩展 LLM 的上下文窗口非常耗费资源。为了解决这个问题，我们引入了 LongRecipe，这是一种用于扩展 LLM 上下文窗口的高效训练策略，包括影响性标记分析、位置索引转换和训练优化策略。它能在保持训练效率的同时模拟长序列输入，并显著提高模型对长程依赖关系的理解能力。对三种 LLM 的实验表明，LongRecipe 可以利用长序列，同时只需要 30% 的目标上下文窗口大小，与全序列训练相比，减少了 85% 以上的计算训练资源。此外，LongRecipe 还保留了原始 LLM 在一般任务中的能力。最终，我们可以将开源 LLM 的有效上下文窗口从 8k 扩展到 128k，只需使用带有 80G 内存的单 GPU 进行一天的专门训练，就能实现接近 GPT-4 的性能。我们的代码发布于 https://github.com/zhiyuanhubj/LongRecipe。

2.GenAI-powered Multi-Agent Paradigm for Smart Urban Mobility: Opportunities and Challenges for Integrating Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) with Intelligent Transportation Systems

标题:GenAI 驱动的智能城市交通多代理范式：将大型语言模型 (LLM) 和检索增强生成 (RAG) 与智能交通系统相结合的机遇与挑战

author:Haowen Xu, Jinghui Yuan, Anye Zhou, Guanhao Xu, Wan Li, Xuegang Ban, Xinyue Ye

date Time:2024-08-31

paper pdf:http://arxiv.org/pdf/2409.00494v2

摘要：
借助生成式人工智能的最新进展，多代理系统正日益得到开发，以增强智能城市应用的功能和效率。本文探讨了智能交通系统（ITS）中大型语言模型（LLM）和新兴的检索-增强生成（RAG）技术的变革潜力，为解决城市交通中的关键挑战铺平了创新解决方案的道路。我们首先全面概述了当前移动数据、智能交通系统和车联网 (CV) 应用的最新进展。在此基础上，我们讨论了 RAG 背后的原理，并探讨了将这些生成式人工智能（GenAI）技术整合到智能交通领域的机会。我们提出了一个概念框架，旨在开发能够以智能和对话方式为城市通勤者、交通运营商和决策者提供智能交通服务的多代理系统。我们的方法旨在促进一种自主和智能的方法，这种方法（a）促进以科学为基础的咨询，以在多种规模上减少交通拥堵、事故和碳排放；（b）促进公众教育和参与式交通管理；以及（c）自动执行专门的交通管理任务和开发关键的智能交通系统平台，如数据分析和解释、知识表示和交通模拟。通过整合 LLM 和 RAG，我们的方法力求克服传统的基于规则的多代理系统的局限性，因为这种系统依赖于固定的知识库和有限的推理能力。这种整合为更具可扩展性、直观性和自动化的多代理范例铺平了道路，推动了智能交通系统和城市交通的进步。

3.An Empirical Study on Information Extraction using Large Language Models

标题:使用大型语言模型进行信息提取的实证研究

author:Ridong Han, Chaohao Yang, Tao Peng, Prayag Tiwari, Xiang Wan, Lu Liu, Benyou Wang

publish:This article has an original arxiv version entitled “Is Information
Extraction Solved by ChatGPT? An Analysis of Performance, Evaluation
Criteria, Robustness and Errors”, whose url link is arXiv/2305.14450

date Time:2024-08-31

paper pdf:http://arxiv.org/pdf/2409.00369v2

摘要：
事实证明，类人大语言模型（LLMs），尤其是 OpenAI 的 GPT 系列中最强大、最流行的模型，对许多自然语言处理（NLP）相关任务非常有帮助。因此，人们尝试将 LLM 应用于信息提取（IE），这是一项基本的 NLP 任务，涉及从非结构化纯文本中提取信息。为了展示 LLMs 在信息提取能力方面的最新代表性进展，我们从四个方面评估了 GPT-4（本文写作时 GPT 的最新版本）的信息提取能力：性能、评估标准、鲁棒性和错误类型。我们的结果表明，GPT-4 与最先进的（SOTA）信息检索方法之间存在明显的性能差距。为了缓解这一问题，考虑到 LLMs 的类人特征，我们提出并分析了一系列基于提示的简单方法的效果，这些方法可以推广到其他 LLMs 和 NLP 任务中。丰富的实验显示了我们的方法在提高 GPT-4 信息提取能力方面的有效性及其遗留问题。

4.Evaluating the Effectiveness of Large Language Models in Representing and Understanding Movement Trajectories

标题:评估大型语言模型在表示和理解运动轨迹方面的有效性

author:Yuhan Ji, Song Gao

publish:7 pages, 3 figures

date Time:2024-08-31

paper pdf:http://arxiv.org/pdf/2409.00335v1

摘要：
本研究的重点是评估人工智能基础模型在表示运动轨迹方面的能力。我们利用大型语言模型（LLM）之一（即 GPT-J）对轨迹的字符串格式进行编码，然后评估基于 LLM 的表示法在轨迹数据分析中的有效性。实验结果表明，虽然基于 LLM 的嵌入能保留某些轨迹距离指标（例如，从 GPT-J 嵌入得出的余弦距离与原始轨迹上的 Hausdorff 距离和动态时间扭曲距离之间的相关系数超过 0.74），但在运动轨迹分析中还原数值和检索空间邻域方面仍存在挑战。此外，LLMs 可以理解轨迹中包含的时空依赖性，在位置预测任务中具有良好的准确性。这项研究强调了在捕捉底层地理空间数据的细微差别和复杂性以及整合领域知识方面需要改进的地方，以便利用 LLM 支持各种 GeoAI 应用。

5.Can Large Language Models Address Open-Target Stance Detection?

标题:大型语言模型能否解决开放目标姿态检测问题？

author:Abu Ubaida Akash, Ahmed Fahmy, Amine Trabelsi

publish:10 pages, currently under submission

date Time:2024-08-30

paper pdf:http://arxiv.org/pdf/2409.00222v1

摘要：
立场检测（SD）评估文本对目标的立场，通常标记为 “赞成”、"反对 "或 “中立”。我们引入了开放目标立场检测（Open-Target Stance Detection，OTSD），即在训练过程中既看不到目标，也不提供目标作为输入。我们对 GPT-3.5、Llama 3 和 Mistral 等大型语言模型（LLM）进行了评估，并将它们的性能与目标姿态提取（TSE）方法进行了比较。当真实目标在文本中明确提及或未明确提及时，LLM 在目标生成方面的表现优于 TSE。在姿态检测方面，LLMs 在明确的场景中表现更好，但在非明确的场景中却失效。

6.ProGRes: Prompted Generative Rescoring on ASR n-Best

标题:ProGRes：在 ASR n-Best 上进行提示式生成重评分

author:Ada Defne Tur, Adel Moumen, Mirco Ravanelli

publish:IEEE Spoken Language Technology Workshop

date Time:2024-08-30

paper pdf:http://arxiv.org/pdf/2409.00217v1

摘要：
大型语言模型（LLM）通过有效地重构在波束搜索过程中生成的 n 个最佳假设，显示出其提高语音识别器性能的能力。然而，利用最新的生成指令调整 LLM 进行假设重构的最佳方法仍不明确。本文提出了一种新方法，利用指令调整 LLM，通过适当提示的 LLM 生成新假设，动态扩展 n 个最佳语音识别假设。具体来说，我们为 ASR n-best 重新评分引入了一种新的零次评分方法，该方法结合了置信度评分、LLM 序列评分和基于提示的假设生成。我们将 Llama-3-Instruct、GPT-3.5 Turbo 和 GPT-4 Turbo 作为基于提示的生成器与 Llama-3 作为序列评分 LLM 进行了比较。我们使用不同的语音识别器对我们的方法进行了评估，观察到词错误率 (WER) 有显著的相对改善，改善幅度在 5% 到 25% 之间。

7.Enhancing Document-level Argument Extraction with Definition-augmented Heuristic-driven Prompting for LLMs

标题:用定义增强启发式提示增强文档级论据提取能力

author:Tongyue Sun, Jiayi Xiao

date Time:2024-08-30

paper pdf:http://arxiv.org/pdf/2409.00214v1

摘要：
事件论据提取（Event Argument Extraction，EAE）对于从非结构化文本中提取结构化信息至关重要，但由于现实世界中文档级 EAE 的复杂性，EAE 仍然充满挑战。我们提出了一种新颖的定义增强启发式提示（DHP）方法，以提高大语言模型（LLM）在文档级 EAE 中的性能。我们的方法整合了与参数提取相关的定义和启发式规则来指导提取过程，从而减少错误传播并提高任务准确性。我们还采用了思维链（CoT）方法来模拟人类推理，将复杂问题分解为易于管理的子问题。实验表明，在文档级 EAE 数据集上，我们的方法比现有的提示方法和少数几次监督学习的方法在性能上有了一定的提高。DHP 方法增强了 LLM 的泛化能力，减少了对大型注释数据集的依赖，为文档级 EAE 提供了一个新的研究视角。

8.Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback

标题:序列到序列奖励建模：通过语言反馈改进 RLHF

author:Jiayi Zhou, Jiaming Ji, Juntao Dai, Yaodong Yang

publish:7 pages

date Time:2024-08-30

paper pdf:http://arxiv.org/pdf/2409.00162v1

摘要：
让大语言模型（LLM）的行为与人类的意图和价值观保持一致，仍然是一项严峻的挑战。从人类反馈中强化学习（RLHF）通过根据人类偏好训练奖励模型（RM），并对 LLM 进行微调以最大化 RM 反馈，从而使 LLM 与人类偏好保持一致。尽管 RLHF 很有效，也很受欢迎，但它容易造成局部优化的偏差。这意味着 RLHF 无法提供与人类偏好准确一致的反馈，导致 LLMs 探索意想不到的泛化，无法实现对齐目标。为了缓解这一问题，我们提出了一种新颖的textit{sequence-to-sequence (seq2seq) reward modeling}方法。该方法的关键之处在于，从语言反馈而非标量反馈中学习，无需额外注释即可改进 RLHF。我们用序列最大似然估计（sequence MLE）取代了二进制最大似然估计（MLE）的奖励建模目标。这种方法无需额外的注释、模型或训练阶段，就能实现更丰富、更精细的语言反馈。我们的实验证明了这种方法的有效性，特别是减少了单轮安全对话中的拒绝回答范式和文本总结任务中的长回答偏差。我们进一步分析发现，seq2seq RM 在 3 项 NLP 任务中提高了 2B 和 7B LLM 的 RLHF 性能，平均胜率达到 76.9%。我们还进一步表明，seq2seq RM 仍能提高 RLHF 在分布外提示下的性能。

9.Assessing Generative Language Models in Classification Tasks: Performance and Self-Evaluation Capabilities in the Environmental and Climate Change Domain

标题:评估分类任务中的生成语言模型：环境与气候变化领域的性能和自我评价能力

author:Francesca Grasso, Stefano Locci

publish:11 pages, to be published in NLDB 2024

date Time:2024-08-30

paper pdf:http://arxiv.org/pdf/2408.17362v1

摘要：
本文研究了两个大型语言模型（LLM）GPT3.5 和 Llama2 以及一个小型语言模型（SLM）Gemma 在气候变化（CC）和环境领域的三个不同分类任务中的表现。我们以基于 BERT 的模型为基准，比较了它们与这些基于转换器的模型的功效。此外，我们还通过分析这些文本分类任务中口述置信度分数的校准来评估模型的自我评估能力。我们的研究结果表明，虽然基于 BERT 的模型总体上优于 LLM 和 SLM，但大型生成模型的性能仍然值得注意。此外，我们的校准分析表明，虽然 Gemma 在最初的任务中校准良好，但之后产生的结果并不一致；Llama 的校准还算合理，而 GPT 始终表现出很强的校准能力。通过这项研究，我们希望为当前关于生成式 LM 在解决地球上一些最紧迫问题方面的实用性和有效性的讨论做出贡献，同时强调它们在生态学和气候变化方面的优势和局限性。

10.Bridging Domain Knowledge and Process Discovery Using Large Language Models

标题:利用大型语言模型架起领域知识与流程发现之间的桥梁

author:Ali Norouzifar, Humam Kourani, Marcus Dees, Wil van der Aalst

publish:This paper is accepted at the AI4BPM 2024 workshop and to be
published in their proceedings

date Time:2024-08-30

paper pdf:http://arxiv.org/pdf/2408.17316v1

摘要：
发现好的流程模型对于不同的流程分析任务（如一致性检查和流程改进）至关重要。自动化流程发现方法往往会忽略宝贵的领域知识。这些知识包括来自领域专家的见解和详细的流程文档，但在流程发现过程中大部分仍未得到利用。本文利用大型语言模型（LLM）将这些知识直接整合到流程发现中。我们使用从 LLMs 派生的规则来指导模型构建，确保与领域知识和实际流程执行保持一致。通过整合 LLMs，我们在自然语言表达的流程知识和稳健流程模型的发现之间架起了一座桥梁，极大地推动了流程发现方法的发展。为了展示我们框架的可用性，我们与 UWV 员工保险机构进行了案例研究，证明了其实际优势和有效性。

11.MemLong: Memory-Augmented Retrieval for Long Text Modeling

标题:MemLong：长文本建模的记忆增强检索

author:Weijie Liu, Zecheng Tang, Juntao Li, Kehai Chen, Min Zhang

date Time:2024-08-30

paper pdf:http://arxiv.org/pdf/2408.16967v1

摘要：
大型语言模型（LLMs）的最新进展在各个领域都取得了令人瞩目的成就。然而，由于注意力机制在时间和空间上的二次复杂性，以及键值缓存在生成过程中不断增加的内存消耗，处理长语境仍然是 LLMs 面临的重大挑战。这项工作引入了 MemLong：MemLong: Memory-Augmented Retrieval for Long Text Generation），这是一种旨在通过利用外部检索器进行历史信息检索来增强长语境语言建模能力的方法。MemLong 将一个无差别的 "ret-mem "模块与一个部分可训练的纯解码器语言模型相结合，并引入了一种利用语义级相关块的细粒度、可控的检索关注机制。在多个长语境语言建模基准上进行的综合评估表明，MemLong 的性能始终优于其他最先进的 LLM。更重要的是，MemLong 可以在单个 3090 GPU 上将上下文长度从 4k 扩展到 80k。我们的代码见 https://github.com/Bui1dMySea/MemLong

12.UserSumBench: A Benchmark Framework for Evaluating User Summarization Approaches

标题:UserSumBench：评估用户摘要方法的基准框架

author:Chao Wang, Neo Wu, Lin Ning, Luyang Liu, Jun Xie, Shawn O’Banion, Bradley Green

date Time:2024-08-30

paper pdf:http://arxiv.org/pdf/2408.16966v1

摘要：
大语言模型（LLM）在从一长串原始用户活动数据中生成用户摘要方面表现出了非凡的能力。这些摘要捕捉了用户的基本信息，如偏好和兴趣，因此对于基于 LLM 的个性化应用（如可解释的推荐系统）来说非常宝贵。然而，由于缺乏地面实况标签、用户摘要固有的主观性以及人工评估通常成本高昂且耗时较长，新摘要技术的发展受到了阻碍。为了应对这些挑战，我们推出了 \UserSumBench，这是一个基准框架，旨在促进基于 LLM 的摘要方法的迭代开发。该框架由两个关键部分组成：(1) 无参考摘要质量度量。我们在三个不同的数据集（MovieLens、Yelp 和 Amazon Review）中证明了这一指标的有效性和与人类偏好的一致性。(2) 一种新颖的稳健摘要方法，利用时间层次摘要器和自我批评验证器生成高质量摘要，同时消除幻觉。该方法为总结技术的进一步创新奠定了坚实的基础。

13.Theoretical and Methodological Framework for Studying Texts Produced by Large Language Models

标题:研究大型语言模型生成文本的理论和方法框架

author:Jiří Milička

date Time:2024-08-29

paper pdf:http://arxiv.org/pdf/2408.16740v1

摘要：
本文探讨了从定量语言学的角度研究大型语言模型（LLM）及其产生的文本所面临的概念、方法和技术挑战。它建立在一个理论框架之上，该框架区分了作为基质的 LLM 和模型模拟的实体。本文主张对模型采用严格的非拟人方法，同时谨慎地将研究人类语言行为的方法应用于模拟实体。当自然语言处理研究人员专注于模型本身、其架构、评估和提高性能的方法时，作为定量语言学家，我们应该努力建立一套强有力的理论，来研究 LLM 生成的文本的特征、它们与人类生成的文本有何不同，以及模拟实体的属性。此外，我们还应该探索 LLM 作为研究人类文化（语言是人类文化不可分割的一部分）的工具的潜力。

14.SALSA: Speedy ASR-LLM Synchronous Aggregation

标题:SALSA：快速 ASR-LLM 同步聚合

author:Ashish Mittal, Darshan Prabhu, Sunita Sarawagi, Preethi Jyothi

publish:Accepted to INTERSPEECH 2024

date Time:2024-08-29

paper pdf:http://arxiv.org/pdf/2408.16542v1

摘要：
利用预先训练好的 LLM 来改进 ASR 系统，尤其是低资源语言的 ASR 系统，现已成为一个新兴的研究领域。现有的方法包括使用 LLM 进行 ASR 纠错，以及用 LLM 替代 ASR 解码器的紧密耦合系统。这些方法要么增加了解码时间，要么需要对交叉注意层进行昂贵的训练。我们提出的 SALSA 将 ASR 的解码器层与 LLM 解码器耦合，同时同步推进两个解码器。这种耦合是通过对最后一个解码器状态的简单投影来实现的，因此比早期方法的训练效率要高得多。我们提出的耦合方法面临的一个挑战是如何处理 LLM 和 ASR 系统的标记化器之间的不匹配。我们针对 LLM 和 ASR 词汇表使用级联标记化来处理这种不匹配。我们在 FLEURS 基准中的 8 种低资源语言上对 SALSA 进行了评估，结果发现 WER 降低了 38%。

15.A Survey for Large Language Models in Biomedicine

标题:生物医学大型语言模型调查

author:Chong Wang, Mengyao Li, Junjun He, Zhongruo Wang, Erfan Darzi, Zan Chen, Jin Ye, Tianbin Li, Yanzhou Su, Jing Ke, Kaili Qu, Shuxin Li, Yi Yu, Pietro Liò, Tianyun Wang, Yu Guang Wang, Yiqing Shen

date Time:2024-08-29

paper pdf:http://arxiv.org/pdf/2409.00133v1

摘要：
最近在大型语言模型（LLM）方面取得的突破提供了前所未有的自然语言理解和生成能力。然而，现有的关于生物医学中大型语言模型的研究往往集中在特定的应用或模型架构上，缺乏对各个生物医学领域最新进展的全面分析。本综述基于对来自 PubMed、Web of Science 和 arXiv 等数据库的 484 篇论文的分析，深入探讨了 LLMs 在生物医学中的现状、应用、挑战和前景，其与众不同之处在于关注这些模型在现实世界生物医学环境中的实际意义。首先，我们探讨了 LLMs 在广泛的生物医学任务（包括辅助诊断、药物发现和个性化医疗等）中的零点学习能力，并从 137 项关键研究中汲取了深刻见解。然后，我们讨论了 LLMs 的适应策略，包括单模态和多模态 LLMs 的微调方法，以提高它们在零点学习无法实现的专业生物医学环境中的性能，例如医学问题解答和生物医学文献的高效处理。最后，我们讨论了 LLM 在生物医学领域面临的挑战，包括数据隐私问题、有限的模型可解释性、数据集质量问题、生物医学数据的敏感性所导致的伦理问题、对高可靠性模型输出的需求以及在医疗保健领域部署人工智能的伦理影响。为了应对这些挑战，我们还确定了 LLM 在生物医学领域的未来研究方向，包括保护数据隐私的联合学习方法，以及整合可解释的人工智能方法以提高 LLM 的透明度。

16.Instruction-tuned Large Language Models for Machine Translation in the Medical Domain

标题:用于医学领域机器翻译的指令调整大型语言模型

author:Miguel Rios

date Time:2024-08-29

paper pdf:http://arxiv.org/pdf/2408.16440v1

摘要：
大型语言模型（LLM）在高资源语言对和领域的机器翻译方面取得了可喜的成果。然而，在专业领域（如医学），与标准神经机器翻译模型相比，大型语言模型的性能较低。术语机器翻译的一致性对于专业领域的用户、研究人员和翻译人员来说至关重要。在本研究中，我们比较了基线 LLM 和经过指令调整的 LLM 在医学领域的性能。此外，我们还将专业医学词典中的术语引入指令格式化数据集，以对 LLM 进行微调。在自动指标方面，经过指令调整的 LLM 明显优于基线模型。

17.Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models

标题:利用开放知识提升大型语言模型的任务专业性

author:Yuncheng Yang, Yulei Qin, Tong Wu, Zihan Xu, Gang Li, Pengcheng Guo, Hang Shao, Yucheng Shi, Ke Li, Xing Sun, Jie Yang, Yun Gu

publish:28 pages, 12 tables, 10 figures

date Time:2024-08-28

paper pdf:http://arxiv.org/pdf/2408.15915v1

摘要：
要培养大型语言模型（LLM）的专业技能以解决特定领域的任务，往往需要对预期的稳定输出进行校准行为的特殊用途调整。为了避免人工准备指令数据集和培训资源所带来的高达数百小时的巨大成本，利用开放知识（包括丰富的低等级适应（LoRA）模型和指令数据集）是一个很好的起点。然而，现有的模型和数据选择方法侧重于通用能力的性能，而忽视了特定领域部署中暴露出的知识差距。在本研究中，我们建议通过引入少量人类标注的样本（即 K-shot）来弥补这种差距，从而提高具有开放知识的 LLM 的任务专业性。具体来说，我们开发了一种高效且可扩展的管道，以低成本高效率地培养任务专家，其中 K-shot 数据可用于选择最有前途的专家候选人和任务相关指令。我们建立了一个专家混合（MoE）系统，以充分利用多位专家之间互补的知识。我们揭示了混合专家系统成功的两个关键：1）遵守 K-shot 原则；2）坚持多样性。对于前者，我们确保选择的是真正具备 K-shot 问题解决能力的模型，而不是那些盲目的猜测者。此外，在数据选择过程中，优先选择与 K-shot 共享任务相关上下文的指令。对于后者，我们强调在整个模型和数据选择过程中，构成专家和微调指令的多样性。广泛的实验结果证实，与现有方法相比，我们的方法在各种任务中利用开放知识方面更具优势。代码和模型将于稍后发布。

18.Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization

标题:扩大总结规模：利用大型语言模型进行长文本提取总结

author:Léo Hemamou, Mehdi Debiane

date Time:2024-08-28

paper pdf:http://arxiv.org/pdf/2408.15801v1

摘要：
在数字文本以前所未有的速度激增的时代，高效的摘要工具变得不可或缺。虽然大语言模型（LLM）已成功应用于各种 NLP 任务，但其在提取文本摘要中的作用仍未得到充分探索。本文介绍了 EYEGLAXS（Easy Yet Efficient larGe LAnguage model for eXtractive Summarization），这是一个利用 LLM（特别是 LLAMA2-7B 和 ChatGLM2-6B）对冗长文本文档进行提取总结的框架。抽象方法往往存在事实不准确和幻觉等问题，而 EYEGLAXS 则侧重于提取摘要，以确保事实和语法的完整性。EYEGLAXS 利用闪存关注（Flash Attention）和参数高效微调（PEFT）等最先进的技术，解决了通常与 LLM 相关的计算和资源挑战。该系统在 PubMed 和 ArXiv 等知名数据集上设定了新的性能基准。此外，我们还通过额外的分析扩展了我们的研究，探索了 LLM 在处理不同序列长度时的适应性及其在较小数据集上的训练效率。这些贡献不仅为该领域树立了新标准，也为提取式文本摘要的未来研究开辟了前景广阔的道路。

19.Language Adaptation on a Tight Academic Compute Budget: Tokenizer Swapping Works and Pure bfloat16 Is Enough

标题:在学术计算预算紧张的情况下进行语言调整：标记符号交换器奏效，纯 bfloat16 已足够

author:Konstantin Dobler, Gerard de Melo

publish:WANT@ICML 2024

date Time:2024-08-28

paper pdf:http://arxiv.org/pdf/2408.15793v1

摘要：
我们研究了在学术预算紧张的情况下为语言适配而对 LLM 进行持续预训练的问题：在这种情况下，只能并行使用几台 GPU，而且持续时间非常有限。我们的重点是将 Mistral-7B 改编为德语或阿拉伯语，并评估了在这种情况下提高效率和效果的几种技术。与基础 Mistral-7B 相比，我们的德语模型在这种紧张的计算预算下表现不佳，而我们的阿拉伯语模型则优于几种基线，这表明对于充分代表的语言，继续进行专业化预训练并不总是有帮助的。我们的主要发现集中在训练精度和标记符交换上。我们的结果表明，纯 bfloat16 训练是混合精度训练的可行替代方案，同时在仅使用少量 GPU 的情况下速度更快。将标记符号转换为专门的标记符号可以获得更高效的标记化，与原始标记符号相比具有竞争力，原始标记符号已经包含了一些德语标记符号，但并没有显著提高德语的性能。代码和模型权重可在 GitHub 上获取。

20.StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements

标题:风格混音：通过提炼和扰乱风格元素实现可解释的作者身份混淆

author:Jillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi

date Time:2024-08-28

paper pdf:http://arxiv.org/pdf/2408.15666v1

摘要：
作者混淆，即重写文本以故意模糊作者身份，是一项重要但具有挑战性的任务。目前使用大语言模型（LLM）的方法缺乏可解释性和可控性，往往忽略了作者特定的文体特征，导致整体性能不强。为了解决这个问题，我们开发了一种自适应、可解释的混淆方法–StyleRemix，它可以扰乱原始输入文本中特定的、细粒度的风格元素。StyleRemix 使用预先训练好的低等级自适应（LoRA）模块，在保持较低计算成本的同时，沿着各种文体轴（如形式和长度）对输入文本进行特定重写。通过自动和人工评估，StyleRemix 在多个领域的表现都优于最先进的基线和更大的 LLM。此外，我们还发布了 AuthorMix 和 DiSC，前者是一个包含 3 万篇高质量长篇文本的大型语料库，这些文本来自 14 位作者和 4 个领域，后者是一个包含 1500 篇文本的并行语料库，涵盖 16 个独特方向的 7 个风格轴。

21.SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding

标题:SciLitLLM：如何调整 LLM 以理解科学文献

author:Sihang Li, Jin Huang, Jiaxi Zhuang, Yaorui Shi, Xiaochen Cai, Mingjun Xu, Xiang Wang, Linfeng Zhang, Guolin Ke, Hengxing Cai

date Time:2024-08-28

paper pdf:http://arxiv.org/pdf/2408.15545v2

摘要：
科学文献理解对于提取目标信息和获得洞察力至关重要，从而极大地推动科学发现。尽管大语言模型（LLM）取得了巨大成功，但它们在科学文献理解方面仍面临挑战，主要原因是：（1）缺乏科学知识；（2）不熟悉专门的科学任务。为了开发专门用于科学文献理解的 LLM，我们提出了一种混合策略，将持续预训练（CPT）和监督微调（SFT）结合起来，以同时注入科学领域知识并增强特定领域任务的指令遵循能力c在此过程中，我们发现了两个关键挑战：（1）构建高质量的 CPT 语料库；（2）生成多样化的 SFT 指令。我们通过缜密的流程来应对这些挑战，包括 PDF 文本提取、解析内容纠错、质量过滤和合成指令创建。应用这一策略，我们推出了一套 LLM：SciLitLLM 专门用于科学文献理解。这些模型在科学文献理解基准测试中表现出了良好的性能。我们的贡献有三个方面：(1) 我们提出了一个有效的框架，将 CPT 和 SFT 整合在一起，使 LLM 适应于科学文献理解，它也可以轻松地适应于其他领域。(2) 我们提出了一种基于 LLM 的合成方法来生成多样化和高质量的科学指令，从而产生了一种新的指令集–SciLitIns–用于在代表性较低的科学领域中进行有监督的微调。(3) SciLitLLM 在科学文献理解基准上取得了可喜的性能提升。

22.LRP4RAG: Detecting Hallucinations in Retrieval-Augmented Generation via Layer-wise Relevance Propagation

标题:LRP4RAG：通过分层相关性传播在检索增强生成中检测幻觉

author:Haichuan Hu, Yuhan Sun, Quanjun Zhang

date Time:2024-08-28

paper pdf:http://arxiv.org/pdf/2408.15533v2

摘要：
检索增强生成（RAG）已成为减轻大型语言模型（LLM）幻觉的主要技术。然而，不完整的知识提取和不充分的理解仍会误导 LLM 生成不相关甚至相互矛盾的反应，这意味着幻觉在 RAG 中持续存在。本文提出了一种基于层相关性传播（LRP）算法的 LRP4RAG 方法，用于检测 RAG 中的幻觉。具体来说，我们首先利用 LRP 计算 RAG 生成器的输入和输出之间的相关性。然后，我们对相关性矩阵进行进一步提取和重采样。经过处理的相关性数据被输入到多个分类器中，以确定输出是否包含幻觉。据我们所知，这是 LRP 首次用于检测 RAG 幻觉，大量实验证明 LRP4RAG 的性能优于现有基线。

23.Measuring text summarization factuality using atomic facts entailment metrics in the context of retrieval augmented generation

标题:在检索增强生成的背景下使用原子事实引申指标衡量文本摘要的事实性

author:N. E. Kriman

publish:12 pages

date Time:2024-08-27

paper pdf:http://arxiv.org/pdf/2408.15171v1

摘要：
自 2022 年推出 ChatGPT 以来，大型语言模型（LLM）的使用显著增加，显示了其在各种应用中的价值。然而，LLMs 在企业和商业应用中面临的一个主要挑战是它们容易生成不准确的信息，这种现象被称为 “幻觉”。本项目提出了一种方法，用于估计由 LLM 生成的摘要与源文本相比是否符合事实。我们的方法利用 Naive Bayes 分类来评估所生成内容的准确性。

24.DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding

标题:DocLayLLM：针对丰富文本文档理解的大型语言模型的高效和有效的多模式扩展

author:Wenhui Liao, Jiapeng Wang, Hongliang Li, Chengyu Wang, Jun Huang, Lianwen Jin

date Time:2024-08-27

paper pdf:http://arxiv.org/pdf/2408.15045v2

摘要：
富文本文档理解（TDU）是指分析和理解包含大量文本内容的文档。随着大型语言模型（LLM）的快速发展，它们因其显著的通用性和泛化能力而被广泛用于 TDU。在本文中，我们介绍了 DocLayLLM，它是专为 TDU 设计的 LLM 的高效多模态扩展。通过将视觉补丁标记和二维位置标记整合到 LLMs 中，并使用 LLMs 本身对文档内容进行编码，我们充分利用了 LLMs 的文档理解能力，增强了它们对 OCR 信息的感知。我们还深入考虑了思维链（CoT）的作用，创新性地提出了 CoT 预训练和 CoT 退火技术。我们的 DocLayLLM 可以在轻量级训练设置下实现出色的性能，充分展示了其高效性和有效性。实验结果表明，我们的 DocLayLLM 超越了现有的依赖 OCR 的方法，也优于无 OCR 的竞争对手。

25.Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models

标题:在对齐的大型语言模型上推进对抗性后缀转移学习

author:Hongfu Liu, Yuxi Xie, Ye Wang, Michael Shieh

publish:11 pages, 4 figures

date Time:2024-08-27

paper pdf:http://arxiv.org/pdf/2408.14866v1

摘要：
语言语言模型（LLM）因可能被恶意用户滥用而面临安全问题。最近，红队利用基于梯度的搜索算法 “贪婪坐标梯度”（Greedy Coordinate Gradient，GCG），发现了能够使 LLM 越狱的对抗性后缀。然而，GCG 的计算效率低下，限制了对后缀在不同模型和数据间的可转移性和可扩展性的进一步研究。在这项工作中，我们在搜索效率和后缀可转移性之间架起了一座桥梁。我们提出了一个两阶段迁移学习框架–DeGCG，它将搜索过程分解为与行为无关的前搜索和与行为相关的后搜索。具体来说，我们在预搜索中直接使用第一目标标记优化来促进搜索过程。我们将我们的方法应用于跨模型、跨数据和自转移场景。此外，我们还介绍了我们方法的交错变体 i-DeGCG，它可以迭代利用自转移性来加速搜索过程。在 HarmBench 上进行的实验证明了我们的方法在各种模型和领域中的效率。值得注意的是，在 Llama2-chat-7b 上，我们的 i-DeGCG 优于基线，在有效集和测试集上的 ASR 分别为 43.9$ ( $+ 22.2$ ) 和 39.0$ ( $+ 19.5$ )。对跨模型转移的进一步分析表明，第一目标标记优化在利用后缀转移性实现高效搜索方面发挥了关键作用。

26.Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning

标题:Instruct-SkillMix：用于 LLM 指令调整的强大管道

author:Simran Kaur, Simon Park, Anirudh Goyal, Sanjeev Arora

date Time:2024-08-27

paper pdf:http://arxiv.org/pdf/2408.14774v1

摘要：
我们介绍 Instruct-SkillMix，这是一种创建多样化、高质量 SFT 数据的自动化方法。Instruct-SkillMix 管道包括两个阶段，每个阶段都利用现有的强大 LLM：(1) 技能提取：使用 LLM 从现有数据集或直接提示模型中提取指令跟随的核心 “技能”；(2) 数据生成：使用强大的 LLM 生成（指令、响应）数据，这些数据展示了随机选择的一对技能。在这里，随机技能组合的使用提高了多样性和难度。在 Instruct-SkillMix 生成的数据上使用 Vanilla SFT（即不使用 PPO、DPO 或 RL 方法），可以在 AlpacaEval 2.0、MT-Bench 和 WildBench 等基准测试中取得显著的教学效果。LLaMA-3-8B-Base 在 AlpacaEval 2.0 上仅用 4K 美元的示例就取得了 42.76% 的长度控制胜率。据我们所知，这在所有只经过 SFT（无 RL 方法）的模型中达到了最先进的性能，并可与 Claude 3 Opus 和 LLaMA-3.1-405B-Instruct 等专有模型相媲美。消融研究还提出了一些合理的原因，说明为什么通过天真的众包方式创建开放的指令调整数据集很困难。在 Instruct-SkillMix 实例中引入低质量答案（“推卸责任者”）会导致性能急剧下降，有时甚至是灾难性的。 Instruct-SkillMix管道非常灵活，可适用于其他环境。

27.PAT: Pruning-Aware Tuning for Large Language Models

标题:PAT：面向大型语言模型的剪枝调整

author:Yijiang Liu, Huanrui Yang, Youxin Chen, Rongyu Zhang, Miao Wang, Yuan Du, Li Du

date Time:2024-08-27

paper pdf:http://arxiv.org/pdf/2408.14721v1

摘要：
大型语言模型（LLM）在语言任务中表现出色，尤其是在预训练后进行监督微调时。然而，其巨大的内存和计算需求阻碍了实际应用。结构剪枝是一种解决方案，它可以减少不重要的权重维度。然而，传统的事后剪枝往往会导致显著的性能损失，而且由于容量减少，进一步微调后的恢复能力也有限。由于模型微调完善了预训练模型中的一般知识和混沌知识，因此我们旨在将结构性剪枝与微调结合起来，并提出了 “剪枝感知微调”（Pruning-Aware Tuning，PAT）范式，以消除模型冗余，同时最大限度地保持模型性能。具体来说，我们在注意力和 FFN 组件之间插入了创新的混合稀疏化模块（HSM），以相应地稀疏化上下游线性模块。HSM 包括一个轻量级运算器和一个全局共享的可训练掩码。轻量级运算器的训练开销与 LoRA 相当，而可训练掩码则统一了要稀疏化的通道，确保了结构上的剪枝。此外，我们还提出了 “身份损失”（Identity Loss）技术，它将 HSM 的变换和缩放特性分离开来，从而增强了训练的鲁棒性。广泛的实验证明，PAT 在性能和效率方面都非常出色。例如，我们的Llama2-7b模型的剪枝率为25%，速度提高了1.33美元/次，同时在训练成本相似的情况下，准确率比LoRA-finetuned模型高出1.26%。代码：https://github.com/kriskrisliu/PAT_Pruning-Aware-Tuning

28.Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models

标题:逐步解蔽，对大型语言模型进行参数高效微调

author:Aradhye Agarwal, Suhas K Ramesh, Ayan Sengupta, Tanmoy Chakraborty

publish:15 pages, 7 tables, 9 figures

date Time:2024-08-26

paper pdf:http://arxiv.org/pdf/2408.14470v2

摘要：
在下游任务中对大型语言模型（LLM）进行微调需要大量的计算资源。一类参数高效微调（PEFT）技术旨在通过选择性地只微调一小部分模型参数来减轻这些计算挑战。虽然计算效率高，但这些技术往往无法与完全微调模型的性能相媲美，这主要是由于在参数选择过程中引入了固有偏差。传统的选择性 PEFT 技术根据预定义的预算使用一组固定的参数（这一过程也称为解蔽），无法动态捕捉参数的重要性，结果往往超出预算。我们引入了 $text{ID}^3$ ，这是一种新颖的选择性 PEFT 方法，它能持续计算参数重要性，并通过平衡参数选择中的探索和利用来动态解除参数屏蔽。我们对自然语言理解和生成任务等 15 项任务进行的实证研究表明，与基于固定掩码的 PEFT 技术相比，我们的方法非常有效。我们通过分析表明， $text{ID}^3$ 可以将梯度更新的次数减少两倍，从而提高计算效率。 $text{ID}^3$ 对神经元的随机初始化具有鲁棒性，因此可以无缝集成到现有的基于加法和重参数化的PEFT模块中，如适配器和用于动态稀疏化的LoRA。

29.Explicit Inductive Inference using Large Language Models

标题:使用大型语言模型进行显式归纳推理

author:Tianyang Liu, Tianyi Li, Liang Cheng, Mark Steedman

date Time:2024-08-26

paper pdf:http://arxiv.org/pdf/2408.14467v1

摘要：
据报道，大语言模型（LLMs）在推理任务中存在不良的证明偏差：当被要求预测前提 P 是否包含假设 H 时，LLMs 不考虑 P 所包含的 H 的条件真实性，而是倾向于使用 H 的断章取义的真实标签作为脆弱的代理。在本文中，我们提出了一种利用这种偏差进行显式归纳推理的方法。我们的流水线使用 LLM 将前提转化为一组经证实的替代方案，然后汇总衍生出的新蕴涵查询的答案，以支持原始推理预测。在一个定向谓词蕴涵基准上，我们证明了通过应用这个简单的管道，我们可以提高 LLM 在推理上的整体性能，并大大减轻其证明偏差的影响。

30.MEDSAGE: Enhancing Robustness of Medical Dialogue Summarization to ASR Errors with LLM-generated Synthetic Dialogues

标题:MEDSAGE：利用 LLM 生成的合成对话增强医学对话总结对 ASR 错误的鲁棒性

author:Kuluhan Binici, Abhinav Ramesh Kashyap, Viktor Schlegel, Andy T. Liu, Vijay Prakash Dwivedi, Thanh-Tung Nguyen, Xiaoxue Gao, Nancy F. Chen, Stefan Winkler

date Time:2024-08-26

paper pdf:http://arxiv.org/pdf/2408.14418v1

摘要：
自动语音识别（ASR）系统在将语音转录为文本的过程中起着关键作用，但其带来的错误会大大降低摘要等下游任务的性能。这一问题在临床对话摘要中尤为突出，因为在这一资源匮乏的领域中，用于微调的监督数据十分稀少，因此必须使用 ASR 模型作为黑盒解决方案。由于无法获得足够的医学对话录音和相应的 ASR 转录，采用传统的数据增强方法来提高摘要模型的噪声鲁棒性也不可行。为了应对这一挑战，我们提出了 MEDSAGE，一种利用大型语言模型（LLM）生成合成样本用于数据增强的方法。具体来说，我们利用 LLM 的上下文学习能力，并指示它们根据一些带有录音的可用医疗对话示例生成类似 ASR 的错误。实验结果表明，LLMs 可以有效地模拟 ASR 噪音，将这种噪音数据纳入训练过程，可以显著提高医学对话摘要系统的鲁棒性和准确性。这种方法解决了关键应用中高噪声 ASR 输出的难题，为提高临床对话摘要的可靠性提供了一种稳健的解决方案。

31.Video-CCAM: Enhancing Video-Language Understanding with Causal Cross-Attention Masks for Short and Long Videos

标题:视频-CCAM：利用长短视频的因果交叉注意掩码增强视频语言理解能力

author:Jiajun Fei, Dian Li, Zhidong Deng, Zekun Wang, Gang Liu, Hui Wang

publish:10 pages, 5 figures

date Time:2024-08-26

paper pdf:http://arxiv.org/pdf/2408.14023v1

摘要：
多模态大型语言模型（MLLMs）在各种需要跨领域知识的下游任务中表现出了相当大的潜力。能够处理视频的多模态大语言模型（MLLMs）被称为视频多模态大语言模型（Video-MLLMs），在视频语言理解领域引起了广泛的兴趣。然而，视频（尤其是长视频）比图像包含更多的视觉标记，因此 LLMs 很难处理它们。现有的研究要么降低视觉特征的采样率，要么扩大 LLM 上下文的大小，从而有可能丢失高分辨率信息或降低推理速度。为了解决这些局限性，我们在视觉编码器和大语言模型（LLM）之间的中间投影器中应用了交叉注意层。由于天真的交叉注意机制对时间顺序不敏感，我们进一步在交叉注意层中引入了因果交叉注意掩码（CCAM）。这种视频-MLLM 被命名为视频-CCAM，其训练方法简单明了，分为两个阶段：特征对齐和视觉指令调整。我们基于不同大小的 LLM（4B、9B 和 14B）开发了多个 Video-CCAM 模型。事实证明，Video-CCAM 是一种稳健的 Video-MLLM，从短视频到长视频都表现出卓越的性能。在 MVBench 和 VideoChatGPT-QA 等标准视频基准测试中，Video-CCAM 表现出色（在 MVBench 和 TGIF-QA 中分别排名第一/第二/第三，在 MSVD-QA、MSRVTT-QA 和 ActivityNet-QA 中分别排名第二/第三/第四）。在包含长视频的基准测试中，Video-CCAM 模型可以直接适应长视频理解，尽管仅使用图像和 16 帧视频进行了训练，但仍然取得了优异的成绩。在使用 96 帧（训练帧数的 6 倍）的情况下，Video-CCAM 模型在 VideoVista 和 MLVU 中分别排名所有开源视频-MLLM 的第 1/2/3 位和第 1/2/4 位。代码可在（url{https://github.com/QQ-MM/Video-CCAM}）中公开获取。

32.On-Device Language Models: A Comprehensive Review

标题:设备上的语言模型：全面回顾

author:Jiajun Xu, Zhiyuan Li, Wei Chen, Qun Wang, Xin Gao, Qi Cai, Ziyuan Ling

publish:38 pages, 6 figures

date Time:2024-08-26

paper pdf:http://arxiv.org/pdf/2409.00088v1

摘要：
大型语言模型（LLM）的出现彻底改变了自然语言处理应用，在边缘设备上运行 LLM 越来越有吸引力，原因包括减少延迟、数据本地化和个性化用户体验。本综述探讨了在资源受限的设备上部署计算成本高昂的 LLM 所面临的挑战，并探索了多个领域的创新解决方案。论文研究了设备上语言模型的开发、其高效架构（包括参数共享和模块化设计）以及最先进的压缩技术（如量化、剪枝和知识提炼）。此外，还分析了硬件加速策略和协作式边缘云部署方法，强调了性能和资源利用率之间错综复杂的平衡。来自主要移动制造商的设备上语言模型案例研究展示了现实世界中的应用和潜在优势。综述还讨论了自适应学习、多模式能力和个性化等关键问题。通过确定关键研究方向和公开挑战，本文为设备上语言模型的未来发展提供了路线图，强调了跨学科努力的必要性，以实现无所不在的智能计算的全部潜力，同时确保负责任和合乎道德的部署。有关设备上大型语言模型 (LLM) 研究工作和教育资源的全面回顾，请访问 https://github.com/NexaAI/Awesome-LLMs-on-device。要下载和运行设备上的 LLM，请访问 https://www.nexaai.com/models。

查看全文

http://www.kler.cn/a/318975.html

52 文本预处理_by《李沐：动手学深度学习v2》pytorch版

PHP 递归遍历目录

C++20 模块化（Modules）

物理学基础精解【17】

等保测评新趋势：企业如何领跑网络安全赛道

5--SpringBoot项目中菜品管理详解(一）

Matlab进阶绘图第68期—带分组折线段的分区柱状图

基于STM32的电压检测WIFI模拟

常见服务器大全----都是什么？又有何作用？区别联系是什么？---web，应用，数据库，文件，消息队列服务器，Tomat，Nginx，vite.....

python 实现PPT转化为长图，代码如下

面经 | webpack

langchain 提示词(一) 字符提示词和聊天提示词

类似QQ聊天功能的Java程序

Linux —— Socket编程（一）

叉车防撞报警系统解决方案：提高仓库、保障员工的安全性

零基础学Axios

每天学习一个技术栈 ——【Celery】篇（1）

C++20-协程

短视频矩阵管理系统贴牌源码开发

数据库某字段要保存中文时，怎样确定长度（以Oracle为例）

文章目录～

1.LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models

2.GenAI-powered Multi-Agent Paradigm for Smart Urban Mobility: Opportunities and Challenges for Integrating Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) with Intelligent Transportation Systems

3.An Empirical Study on Information Extraction using Large Language Models

4.Evaluating the Effectiveness of Large Language Models in Representing and Understanding Movement Trajectories

5.Can Large Language Models Address Open-Target Stance Detection?

6.ProGRes: Prompted Generative Rescoring on ASR n-Best

7.Enhancing Document-level Argument Extraction with Definition-augmented Heuristic-driven Prompting for LLMs

8.Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback

9.Assessing Generative Language Models in Classification Tasks: Performance and Self-Evaluation Capabilities in the Environmental and Climate Change Domain

10.Bridging Domain Knowledge and Process Discovery Using Large Language Models

11.MemLong: Memory-Augmented Retrieval for Long Text Modeling

12.UserSumBench: A Benchmark Framework for Evaluating User Summarization Approaches

13.Theoretical and Methodological Framework for Studying Texts Produced by Large Language Models

14.SALSA: Speedy ASR-LLM Synchronous Aggregation

15.A Survey for Large Language Models in Biomedicine

16.Instruction-tuned Large Language Models for Machine Translation in the Medical Domain

17.Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models

18.Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization

19.Language Adaptation on a Tight Academic Compute Budget: Tokenizer Swapping Works and Pure bfloat16 Is Enough

20.StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements

21.SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding

22.LRP4RAG: Detecting Hallucinations in Retrieval-Augmented Generation via Layer-wise Relevance Propagation

23.Measuring text summarization factuality using atomic facts entailment metrics in the context of retrieval augmented generation

24.DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding

25.Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models

26.Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning

27.PAT: Pruning-Aware Tuning for Large Language Models

28.Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models

29.Explicit Inductive Inference using Large Language Models

30.MEDSAGE: Enhancing Robustness of Medical Dialogue Summarization to ASR Errors with LLM-generated Synthetic Dialogues

31.Video-CCAM: Enhancing Video-Language Understanding with Causal Cross-Attention Masks for Short and Long Videos

32.On-Device Language Models: A Comprehensive Review

相关文章：