计算机前沿技术-人工智能算法-大语言模型-最新研究进 2024-12-22
计算机前沿技术-人工智能算法-大语言模型-最新研究进 2024-12-22
目录
文章目录
- 计算机前沿技术-人工智能算法-大语言模型-最新研究进 2024-12-22
- 目录
- 1. FaultExplainer: Leveraging Large Language Models for Interpretable Fault Detection and Diagnosis
- 2. Answer Set Networks: Casting Answer Set Programming into Deep Learning
- 3. Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying
- 4. Fake News Detection: Comparative Evaluation of BERT-like Models and Large Language Models with Generative AI-Annotated Data
- 5. Multi-OphthaLingua: A Multilingual Benchmark for Assessing and Debiasing LLM Ophthalmological QA in LMICs
- 后记
1. FaultExplainer: Leveraging Large Language Models for Interpretable Fault Detection and Diagnosis
Authors: Abdullah Khan, Rahul Nahar, Hao Chen, Gonzalo E. Constante Flores, Can Li
https://arxiv.org/abs/2412.14492
故障解释器:利用大型语言模型进行可解释的故障检测和诊断
摘要:
本文介绍了FaultExplainer,一个基于大型语言模型(LLM)的自然语言系统,用于故障检测、诊断和解释。该系统集成了主成分分析(PCA)和T2统计量,并结合过程描述,提供基于地面的故障解释。系统还提供了一个用于实时监控和用户友好交互的Web界面,并展示了在诊断未见过的故障时的合理性能。
创新点:
- 集成PCA和T2统计量与LLM,提供基于过程描述的故障解释。
- 提供Web界面,实现实时监控和用户交互。
- 在未见过的故障诊断中表现出合理的性能。
算法模型:
- 利用GPT-4o和o1-preview模型评估LLM的推理能力。
- 结合PCA和特征重要性分析来增强故障解释。
实验效果:
- 实验结果表明,系统在生成合理和可操作的解释方面具有优势,但也存在局限性,如对PCA选择特征的依赖和偶尔的幻觉现象。
推荐阅读指数: 8/10
2. Answer Set Networks: Casting Answer Set Programming into Deep Learning
Authors: Arseny Skryagin, Daniel Ochs, Phillip Deibert, Simon Kohaut, Devendra Singh Dhami and Kristian Kersting
https://arxiv.org/abs/2412.14814
答案集网络:将答案集编程转化为深度学习
摘要:
尽管答案集编程(ASP)允许约束神经符号(NeSy)系统,但其应用受到计算稳定模型的高成本和CPU限制性的限制。因此,我们提出了答案集网络(ASN),这是一种基于图神经网络(GNN)的可扩展方法,用于基于ASP的深度概率逻辑编程(DPPL)。我们展示了如何将ASP转换为ASN,并证明了ASN如何通过利用GPU的批处理和并行化能力高效解决编码问题。
创新点:
- 将ASP转换为等价的GNN,引入了推理图(RG)。
- ASN利用前向推理生成解释,然后过滤以获得所有ASP的稳定模型。
算法模型:
- 基于GNN的ASN,通过消息传递和模型简化来获得稳定模型。
实验效果:
- ASN在多个任务上超越了CPU限制的NeSy系统,特别是在无人机宪法导航任务中,比基线快三个数量级。
推荐阅读指数: 9/10
3. Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying
Authors: Federico Castagna, Isabel Sassoon, Simon Parsons
思维的关键问题:用论证性查询引导LLM推理
摘要:
尽管AI研究取得了突破性进展,但即使是最先进的大型语言模型(LLM)在执行逻辑和数学推理时仍面临挑战。本文利用论证理论中的关键问题概念,特别是Toulmin的论证模型,展示了如何通过这些问题提高LLM的推理能力。
创新点:
- 利用Toulmin模型中的关键问题来改进LLM的推理能力。
- 通过探测模型推理过程背后的逻辑,LLM可以评估是否发生逻辑错误,并在提供最终回复之前进行纠正。
算法模型:
- 基于Toulmin模型的论证结构和关键问题。
实验效果:
- 在MT-Bench推理和数学任务上对所提出的方法进行了广泛的评估,显示出与基线相比的显著改进。
推荐阅读指数: 7/10
4. Fake News Detection: Comparative Evaluation of BERT-like Models and Large Language Models with Generative AI-Annotated Data
Authors: haina Raza, Drai Paulen-Patterson and Chen Ding
https://arxiv.org/abs/2412.14276
假新闻检测:BERT类模型与生成性AI注释数据的大型语言模型的比较评估
摘要:
本研究对BERT类编码器模型和自回归解码器大型语言模型(LLM)在假新闻检测方面的性能进行了比较评估。我们引入了一个由GPT-4辅助标记的新闻文章数据集,并由人类专家验证以确保可靠性。
创新点:
- 引入了一个新的数据集,该数据集由GPT-4辅助标记,并由人类专家验证。
- 开发了一个在推理期间进行多数投票的指令调整LLM方法,用于标签生成。
算法模型:
- 比较了BERT类模型和LLM在假新闻检测任务上的性能。
实验效果:
- BERT类模型通常在分类任务中优于LLM,而LLM在文本扰动下表现出更好的鲁棒性。
推荐阅读指数: 8/10
5. Multi-OphthaLingua: A Multilingual Benchmark for Assessing and Debiasing LLM Ophthalmological QA in LMICs
Authors: David Restrepo, Chenwei Wu, Zhengxu Tang, Zitao Shuai, Thao Nguyen
Minh Phan, Jun-En Ding, Cong-Tinh Dao, Jack Gallifant, Robyn Gayle Dychiao,
Jose Carlo Artiaga, Andr’e Hiroshi Bando, Carolina Pelegrini Barbosa
Gracitelli, Vincenz Ferrer, Leo Anthony Celi, Danielle Bitterman, Michael G
Morley, Luis Filipe Nakayama
https://arxiv.org/abs/2412.14304
多语言眼科问答基准:评估和减少LLM在低中收入国家的眼科问答偏见
摘要:
当前的眼科临床工作流程受到过度转诊、长时间等待和复杂异质的医疗记录的困扰。大型语言模型(LLM)提供了自动化各种程序的有前景的解决方案,如分诊、初步测试(如视力评估)和报告总结。然而,LLM在不同语言的自然语言问答任务中表现出显著的性能差异,可能加剧低中收入国家(LMICs)的医疗差距。
创新点:
- 引入了第一个多语言眼科问答基准,包含跨语言的人工策划问题,允许直接跨语言比较。
- 提出了CLARA(跨语言反思代理系统),一种新颖的推理时去偏见方法,利用检索增强生成和自我验证。
算法模型:
- 评估了6个流行的LLM在7种不同语言上的性能,并提出了CLARA方法来减少多语言偏见。
实验效果:
- CLARA方法不仅提高了所有语言的性能,还显著减少了多语言偏见差距。
推荐阅读指数: 9/10
后记
如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术。