计算机人工智能前沿进展-大语言模型方向-2024-09-12
计算机人工智能前沿进展-大语言模型方向-2024-09-12
1. PharmaBench: Enhancing ADMET benchmarks with large language models
Z Niu, X Xiao, W Wu, Q Cai, Y Jiang, W Jin, M Wang… - Scientific Data, 2024
大语言模型在药物发现中的应用:PharmaBench
文章由MindRank AI、伦敦帝国理工学院、华中科技大学和其他机构的研究人员共同撰写。
背景与总结
- ADMET(吸收、分布、代谢、排泄和毒性)特性的优化在药物发现中起着关键作用。
- 计算方法的发展为药物发现提供了快速且成本效益高的手段,减少了实验工作量和时间。
- 现有的基准数据集存在局限性,如覆盖的生物测定数据有限,与工业药物发现流程中的实体差异较大。
方法
- 利用大型语言模型(LLMs)作为核心引擎,从生物医学数据库中的测定描述中提取实验条件。
- 建立了自动化数据处理框架,用于处理数据,以便编制ADMET基准数据集。
- 实施了从ChEMBL数据库处理生物测定数据并提取缺失的实验条件的流程。
- 通过多步骤验证过程确认数据质量、分子特性和PharmaBench的建模能力。
数据处理工作流程
- 数据收集:主要来源是ChEMBL数据库,包括实验值、化学结构、测定描述等。
- 数据挖掘:使用GPT-4模型作为数据挖掘任务的核心,通过少量示例学习来提取实验条件。
- 数据标准化:包括结构格式、实验条件和实验值的标准化。
- 数据过滤:移除异常分子和不规则实验结果,构建最终基准集。
- AI建模数据准备:统一重复结果,划分训练和测试集。
技术验证
- 通过重复测试、属性分布分析和深度学习及机器学习建模来评估数据集。
- 展示了PharmaBench数据集在不同模型上的表现,证明了数据集的质量。
实验相关
- 提供了11个ADMET数据集,包括标准化的SMILES表示、实验值和训练标签。
- 用户可以使用提供的标签进行公平比较。
代码可用性
- 研究中使用的代码已存储在GitHub上,所有计算均在Python 3.12.2虚拟环境下完成。
参考文献
文章列出了57个参考文献,涵盖了药物发现、大语言模型、数据挖掘和机器学习等领域的研究。
2. Consumer segmentation with large language models
Y Li, Y Liu, M Yu - Journal of Retailing and Consumer Services, 2025
大语言模型在消费者细分中的应用
摘要
- 消费者细分对企业定制产品至关重要。 本研究探索了大型语言模型(LLMs)在市场研究消费者细分中的应用。
- 通过LLMs进行基于消费者调查数据的聚类分析,重点关注基于文本的多项选择题和开放式问题。
- 使用LLMs模型进行文本嵌入聚类,提高了聚类准确性。 创建了模拟消费者偏好的聊天机器人,准确率超过89%。 研究结果强调了LLMs框架在市场研究中的潜力。
引言
- 零售文献中包含多种揭示消费者偏好的方法,其中调查问卷起着关键作用。
- 传统的调查方法忽视了问卷中的文本数据,导致研究者和实践者难以理解消费者偏好。
- LLMs在理解和生成自然语言方面具有强大的能力,已被应用于市场感知分析、搜索引擎优化和个性化营销等领域。
消费者细分
- “用户画像”概念涉及从用户的基本、社会、行为和心理属性中提取共同特征。
- 企业通过收集和分析消费者的社会特征、生活习惯和购买行为数据来细分消费者群体。
嵌入模型
- 在自然语言处理(NLP)中,嵌入是将文本数据转换为数值向量的过程。
- 嵌入向量能够表示词、短语或整个文档在连续向量空间中的语义相似性。
数据来源
- 与一家经营1000多家连锁店和5000多家高质量零售店的中国酒类公司合作,获得了500份有效回应。
- 调查问卷旨在探索消费者对酒类的偏好,并构建详细的消费者画像。
聚类结果
- 使用K-means聚类算法构建消费者画像。K-means算法易于实现和理解,计算效率高,适用于中等规模数据集。
关键结论
- 研究调查了LLM技术在协助公司进行消费者细分和构建消费者画像方面的应用。
- LLM方法是一个可靠且高效的工具,能够有效地对调查文本进行聚类,并基于真实消费者体验促进扩展问答环节。
3. Tele-LLMs: A Series of Specialized Large Language Models for Telecommunications
A Maatouk, KC Ampudia, R Ying, L Tassiulas - arXiv preprint arXiv:2409.05314, 2024
Tele-LLMs: 为电信领域定制的大型语言模型系列
摘要
- 大型语言模型(LLMs)在自然语言处理和多个领域产生了显著影响。
- 电信领域的LLMs应用受限,通常依赖于缺乏特定领域专业化的通用模型。
- 本文通过创建和发布Tele-Data(电信材料综合数据集)和Tele-Eval(针对该领域的大规模问答数据集),解决了这一问题。
- 通过广泛实验,探索了将LLMs适应于电信领域最有效的训练技术。
- 开发了和开源了Tele-LLMs系列,这是首批为电信领域量身定制的、参数从1B到8B不等的语言模型。
- 评估表明,这些模型在Tele-Eval上的表现超过了通用模型,同时保留了先前获得的能力,避免了灾难性遗忘现象。
算法模型
- Tele-Data 策划
- 利用基于LLM的过滤方法,从arXiv论文、标准、Wikipedia文章和网络内容中筛选相关来源。
- 通过正则表达式和针对电信领域特性的LLM过滤技术进行广泛清洗。
- Tele-Eval 生成
- 利用Tele-Data,通过LLM框架创建了包含750k问答对的评估数据集。
- 应用严格的正则表达式和LLM过滤,排除局部兴趣问题。
实验探索
- 研究了使用参数高效微调(PEFT)技术向模型注入电信知识的可能性。
- 通过实验确定了最大化模型性能所需的训练周期数,并识别了在此适应过程中的过拟合点。
Tele-LLMs 系列
- 基于Tinyllama-1.1B、Phi-1.5、Gemma-2B和LLama-3-8B,开发了从1B到8B参数的Tele-LLMs系列。
- 通过定量和定性评估,与原始版本进行比较,突出了在电信领域的优势。
实验效果
- Tele-LLMs在Tele-Eval上的平均相对改进达到了25%。
- 在灾难性遗忘现象方面,这些模型成功保留了原始能力。
- 在电信领域,即使是较小的适配模型也能与较大的通用模型相媲美。
核心结论
- 本文成功地为电信领域定制了一系列大型语言模型。
- 通过创建和开源整个专业化框架的每一步,为电信领域提供了强大的工具。
- Tele-LLMs系列不仅在电信领域表现出色,还为未来在该领域的LLM应用奠定了基础。
4. MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct
R Luo, H Zhang, L Chen, TE Lin, X Liu, Y Wu, M Yang… - arXiv preprint arXiv …, 2024
摘要
- 本文提出了MMEvol,一个新颖的多模态指令数据进化框架,用于提升多模态大型语言模型(MLLMs)的能力。
- 通过结合细粒度感知进化、认知推理进化和交互进化,MMEvol迭代方法突破了数据质量瓶颈,生成了复杂且多样化的图像-文本指令数据集。
- 利用SEED-163K初始指令集,通过MMEvol系统地扩展指令类型的多样性,整合推理步骤以增强认知能力,并从图像中提取详细信息以提升视觉理解和鲁棒性。
- 在13个视觉-语言任务上进行实验,与基线训练相比,平均准确率提高了3.1个百分点,并在9个任务上达到了最先进的性能。
算法模型
数据收集
- 从多个来源策划了163K的种子指令数据集,包括LLaVA-Instruct、ShareGPT4V数据集和额外的科学图表数据。
方法细节
- 细粒度感知进化:最大化图像中视觉信息的提取,特别是那些被忽视的非主要视觉对象。
- 认知推理进化:通过增加数据中的视觉推理步骤来生成新的指令数据,从而提高数据复杂性。
- 交互进化:自动生成具有丰富任务形式的指令数据,以提供良好的交互体验。
- 指令消除:通过评分标准过滤掉进化失败的指令数据,保留成功的指令。
实验效果
- 在多个视觉-语言基准测试中,使用进化数据训练的模型表现出色,与使用原始种子数据训练的模型相比,平均性能提升3.8个百分点。
- 在与现有最先进方法的比较中,使用MMEvol数据训练的模型在几乎所有基准测试中都显著提高了性能界限。
- 通过定性分析和消融实验验证了所提出方法的有效性和效率。
核心结论
- MMEvol通过迭代增强指令数据的多样性和复杂性,有效提升了MLLMs的性能。
- 未来的研究方向包括探索集成图像生成模型以合成新图像,并进行图像和文本的双重进化,以训练更强大的基础模型。
5. The emergence of Large Language Models (LLM) as a tool in literature reviews: an LLM automated systematic review
D Scherbakov, N Hubig, V Jansari, A Bakumenko… - arXiv preprint arXiv …, 2024
摘要
- 本研究旨在总结大型语言模型(LLM)在创建科学综述过程中的使用情况。
- 研究目的是评估LLM在自动化综述过程中的各个阶段的应用,并评估当前该领域的最新研究项目。
- 研究通过使用一系列LLM工具,对使用LLM进行系统和其他类型综述的研究项目进行了系统综述。
算法模型
- 研究中使用了OpenAI的gpt-4o模型作为Covidence平台的插件,辅助进行文献筛选和数据提取。
- 使用ChatGPT清理提取的数据,并生成本文中的图表代码。
- 利用ChatGPT和Scite.ai起草了本文的所有组成部分,除了方法和讨论部分。
实验效果
- 检索到3,788篇文章,最终172项研究符合最终审查条件。
- ChatGPT和基于GPT的LLM成为自动化审查中最占主导地位的架构(n=126, 73.2%)。
- 尽管发现了许多审查自动化项目,但实际在创建过程中使用LLM的论文数量有限(n=26, 15.1%)。
- 多数引用集中在审查的特定阶段,如搜索出版物(n=60, 34.9%)和数据提取(n=54, 31.4%)。
- 在比较基于GPT和BERT模型的综合性能时,GPT模型在数据提取方面表现更好,平均精度为83.0%,召回率为86.0%,而在标题和摘要筛选阶段的准确性略低(Maccuracy=77.3% vs Maccuracy=80.9%)。
结论
- 本LLM辅助系统综述揭示了大量与LLM审查自动化相关的研究项目。
- 结果看起来很有前景,预计LLM将在未来改变科学综述的进行方式,显著减少生成文献系统综述所需的时间,并扩展系统综述在指导科学中的应用方式。
6. Exploring the Answering Capability of Large Language Models in Addressing Complex Knowledge in Entrepreneurship Education
Q Lang, S Tian, M Wang, J Wang - IEEE Transactions on Learning Technologies, 2024
摘要
- 本文探索了大型语言模型(LLMs)在解决创业教育中复杂知识问题方面的应答能力。
- 研究旨在评估LLMs在理解和生成与创业教育相关的复杂知识方面的有效性。
- 通过一系列实验,文章分析了LLMs在处理多步骤问题解答、概念解释和案例分析等任务上的表现。
算法模型
- 文章中可能介绍了使用的具体大型语言模型,如GPT、BERT或其他先进的模型。
- 可能描述了模型的架构、训练过程以及如何针对创业教育领域的复杂知识进行优化。
实验效果
- 实验可能包括了一系列测试,以评估LLMs在回答创业教育相关问题时的准确性、可靠性和深度。
- 结果可能展示了LLMs在理解复杂概念、提供详细解释和进行案例分析方面的能力。
- 可能还包括了与人类专家的比较,以评估LLMs的性能与专业水平的对比。
结论
- 文章可能得出结论,LLMs在处理创业教育领域的复杂知识问题上具有潜力,但仍存在局限性。
- 可能强调了进一步研究和模型改进的必要性,以提高LLMs在教育领域的应用效果。
7. Revolutionizing Database Q&A with Large Language Models: Comprehensive Benchmark and Evaluation
Y Zheng, B Li, Z Lin, Y Luo, X Zhou, C Lin, J Su, G Li… - arXiv preprint arXiv …, 2024
这篇论文的主要研究内容包括:
-
背景与动机:随着大型语言模型(LLMs)的发展,它们在各个行业的问答(Q&A)系统中发挥了革命性的作用,包括数据库领域。然而,目前缺乏一个全面的基准测试来评估不同LLMs及其模块组件在数据库Q&A中的能力。
-
DQA基准测试:为了解决这一问题,论文介绍了DQA(Database Question-Answer),这是第一个全面的数据库Q&A基准测试。DQA通过创新的基于LLM的方法自动化生成、清洗和重写数据库Q&A对,涵盖了超过240,000个中英文Q&A对,覆盖了几乎所有数据库知识领域。
-
LLM数据库Q&A测试平台:论文提出了一个基于DQA的全面LLM数据库Q&A测试平台,该平台高度模块化和可扩展,包括基本和高级组件,如问题分类路由(QCR)、检索增强生成(RAG)、工具调用生成(TIG)和提示模板工程(PTE)。
-
评估流程:DQA提供了一个完整的评估流程,包括多种指标和标准化的评估过程,以确保全面性、准确性和公平性。
-
实验与发现:使用DQA对提出的测试平台下的数据库Q&A能力进行了全面评估。评估揭示了不同LLM基础的Q&A机器人的优势和局限性,以及各种服务组件(如QCR、RAG、TIG)的性能影响和潜在改进。
-
贡献:论文的主要贡献包括提出了数据库Q&A领域的第一个基准数据集DQA,提出了一个可插拔的测试平台来实验不同的LLM应用策略,提出了标准化的评估流程,以及在DQA上实现了各种LLM和辅助模块,并对其进行了全面评估。
这篇论文的目标是为基于LLM的数据库Q&A研究的未来发展方向提供指导。
8. Large Language Models in Drug Discovery and Development: From Disease Mechanisms to Clinical Trials
Y Zheng, HY Koh, M Yang, L Li, LT May, GI Webb… - arXiv preprint arXiv …, 2024
大语言模型在药物发现和开发中的应用:从疾病机制到临床试验
摘要
本文综述了大型语言模型(LLMs)在药物发现和开发领域的应用,标志着这一领域的重大范式转变。LLMs为理解疾病机制、促进药物发现和优化临床试验流程提供了新的方法论。文章探讨了这些先进的计算模型如何在药物开发流程的各个阶段发挥作用,包括揭示目标疾病联系、解释复杂的生物医学数据、增强药物分子设计、预测药物的疗效和安全性,以及促进临床试验流程。
算法模型
- 专用语言模型:针对特定科学语言训练,用于解释科学数据。
- 通用语言模型:在广泛的文本信息上训练,包括科学论文和教科书,能够理解人类语言,包括科学背景。
实验效果
- 疾病机制理解:LLMs能够通过文献综述和专利分析来探索疾病相关的生物途径,识别潜在的药物靶点。
- 药物发现:LLMs在药物发现和开发阶段展现出自动化化学实验的潜力,通过理解化学反应来控制机器人设备。
- 临床试验:LLMs能够通过解释患者档案和试验要求来简化患者与试验匹配和试验设计的任务。
总结
- LLMs在药物发现和开发中的应用前景广阔,能够显著提高药物开发流程的效率和能力。随着- - LLMs技术的不断进步,预计未来药物发现将包括高度自动化的LLM应用,从而实现更快速、更精确的药物开发流程。
9. Benchmarking Chinese Knowledge Rectification in Large Language Models
T Lu, J Fang, Y Yao, X Xu, N Zhang, H Chen - arXiv preprint arXiv:2409.05806, 2024
大语言模型在中文知识纠错中的应用:基准测试与评估
摘要
- 本文介绍了一个针对大型语言模型(LLMs)在中文知识纠错方面的基准测试。研究者们提出了一个新的中文数据集CKnowEdit,通过收集包括古典文献、成语、百度贴吧弱智吧内容等七种类型的中文知识,以解决LLMs在处理中文古诗、成语或谚语时可能出现的胡言乱语问题。研究结果揭示了当前LLMs在掌握中文方面所面临的挑战,并评估了最新的知识编辑技术在该数据集上的表现,显示出在中文知识纠错方面有显著的提升空间。
算法模型
- 知识编辑技术:通过知识编辑,使LLMs能够生成更准确、连贯和可信的内容。
- 数据集构建:CKnowEdit数据集,包含1,760个实例,涵盖七种中文特定类型的知识,如古诗、成语、谚语等。
- 评估指标:编辑成功率、可移植性、局部性和流畅性。
实验效果
- 编辑成功率:AdaLoRA方法和PROMPT方法在编辑成功率方面表现较好。
- 可移植性:AdaLoRA方法在使模型能够将编辑后的知识有效迁移到相关上下文方面表现最佳。
- 局部性:FT-M、ROME和GRACE方法在确保编辑不会影响模型知识库中不相关领域的表现方面效果较好。
- 流畅性:不同知识类型和方法之间存在差异,Qwen-7B-Chat模型相比Baichuan2-7B-Chat模型在流畅性方面表现更好。
总结
CKnowEdit数据集为中文知识纠错提供了一个基准测试,揭示了LLMs在理解和生成中文内容时的局限性。实验结果表明,现有的知识编辑方法在中文知识纠错方面还有很大的提升空间,尤其是在处理中文特有的语言和文化现象时。未来的研究需要开发更适应中文语言特点的知识编辑技术,以提高LLMs在中文领域的实用性和准确性。
10. Investigating the Role of Cultural Values in Adopting Large Language Models for Software Engineering
S Lambiase, G Catolino, F Palomba, F Ferrucci… - arXiv preprint arXiv …, 2024
大语言模型在软件工程中采用的文化价值观研究
摘要
本文探讨了在软件工程中采用大型语言模型(LLMs)的过程中,专业人员的文化价值观所扮演的角色。研究基于统一接受和使用技术理论(UTAUT2)和霍夫斯泰德的文化维度,假设文化价值观会调节UTAUT2框架内的关系。通过使用偏最小二乘-结构方程建模(PLS-SEM)和来自188名软件工程师的数据,研究发现习惯和绩效期望是LLM采用的主要驱动因素,而文化价值观并没有显著调节这一过程。这些发现表明,通过强调LLM如何提高性能和效率,组织可以鼓励其使用,无论文化差异如何。实际步骤包括提供培训计划以展示LLM的好处,创建支持常规使用的环境,以及持续跟踪和分享使用LLM带来的性能改进。
算法模型
- UTAUT2:统一接受和使用技术理论,用于解释用户对技术的接受意图和行为。
- 霍夫斯泰德文化维度:用于概念化参与者的文化背景,包括权力距离、个人主义与集体主义、男性化与女性化、避免不确定性、长期导向和宽容度。
- PLS-SEM:偏最小二乘-结构方程建模,用于分析观察到的和潜在变量之间的复杂关系。
实验效果
- 绩效期望:对软件工程师采用LLM的意图有积极影响。
- 努力期望:对软件工程师采用LLM的意图没有显著影响。
- 社会影响:对软件工程师采用LLM的意图没有显著影响。
- 促进条件:对软件工程师采用LLM的实际使用行为有积极影响。
- 习惯:对软件工程师采用LLM的意图和实际使用行为都有积极影响。
- 文化价值观:包括权力距离、避免不确定性、个人主义与集体主义、男性化、长期导向,但没有显著调节采用LLM的过程。
总结
研究结果表明,在软件工程领域采用LLMs的过程中,文化价值观并不是一个显著的调节因素。相反,个体和组织因素,如习惯、绩效期望、促进条件和行为意图,对LLM的采用有更大的影响。研究建议组织应该通过提供培训、展示LLM的好处、创建支持性环境和持续跟踪性能改进来鼓励LLM的使用。此外,研究还指出,未来的研究可以进一步探索文化价值观在技术采用中的作用,并开发更适应中文语言特点的知识编辑技术。