当前位置：首页 > article >正文

【GenBI 动手实战】大模型微调LoRA SFT 实现 Text2SQL 更好的效果

Spider: 包含 10,181 个问题和 5,693 个独特的复杂 SQL 查询，涵盖 200 个不同领域的数据库，是目前最常用的 Text-to-SQL 基准数据集。
WikiSQL: 包含 80,654 个手工标注的自然语言问题、SQL 查询和表格

article 2025/3/6 2:37:07

引言

Text-to-SQL（文本转 SQL）作为 GenBI（生成式商业智能）的核心技术，旨在将自然语言查询自动转换为可执行的 SQL 语句，从而降低数据分析门槛，赋能非技术用户。尽管预训练大语言模型（LLM）在 Text-to-SQL 任务上已展现出强大能力，但为了在特定领域或数据集上取得更优效果，往往需要进行微调（Fine-tuning）。

本文将深入探讨如何使用 LoRA 技术对大语言模型进行监督微调（Supervised Fine-tuning, SFT），以提升 Text-to-SQL 任务的性能。我们将详细介绍数据收集、预处理、模型微调、评估等关键步骤，并提供丰富的代码示例，帮助读者理解和掌握。

1. 数据收集与预处理

1.1. 数据集选择

Text-to-SQL 领域有多个公开数据集可供选择，其中最常用的包括：