当前位置: 首页 > article >正文

NLP:微调BERT进行文本分类

本篇博客的重点在于BERT的使用。
transformers包版本:4.44.2

1. 微调BERT进行文本分类

  这里我们使用stanford大学的SST2数据集来演示BERT模型的微调过程。SST-2数据集(Stanford Sentiment Treebank 2)是一个用于情感分类的经典数据集,常用于自然语言处理(NLP)领域的情感分析任务。

  • 第1步: 下载数据。其代码如下:
import pandas as pd
from transformers import BertTokenizer
from datasets import DatasetDict, Dataset
from torch.utils.data import DataLoader
from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments

splits = {'train': 'data/train-00000-of-00001.parquet', 
          'validation': 'data/validation-00000-of-00001.parquet', 
          'test': 'data/test-00000-of-00001.parquet'}
train = pd.read_parquet("hf://datasets/stanfordnlp/sst2/" + splits["train"])
validation = pd.read_parquet("hf://datasets/stanfordnlp/sst2/" + splits["validation"])
test = pd.read_parquet("hf://datasets/stanfordnlp/sst2/" + splits["test"])
dataset = DatasetDict({'train': Dataset.from_pandas(train), 
                       'validation': Dataset.from_pandas(validation), 
                       'test': Dataset.from_pandas(test)})

要注意一下,这里并没有使用datasets包从hugging face上直接下载数据集的方式来获取数据,这是因为使用load_datesets方法获取数据时仍然会提示:NotImplementedError: Loading a dataset cached in a LocalFileSystem is not supported

  • 第2步: 构造训练集、验证集和测试集

SST2数据集中训练集(train)共67349条,验证集(validation)共872条,而测试集(test)共1821条。因为训练集数目较大微调会比较耗时,所以从这三个数据集分别抽取出了1000条、200条、200条进行后续的任务。具体代码如下:

dataset['train'] = dataset['train'].shuffle(seed=42).select(range(1000))
dataset['validation'] = dataset['validation'].shuffle(seed=42).select(range(200))
dataset['test'] = dataset['test'].shuffle(seed=42).select(range(200))
print(dataset)

其输出结果如下:

Dataset({
    features: ['idx', 'sentence', 'label'],
    num_rows: 1000
})
Dataset({
    features: ['idx', 'sentence', 'label'],
    num_rows: 200
})
Dataset({
    features: ['idx', 'sentence', 'label'],
    num_rows: 200
})
  • 第3步:从bert中提取嵌入

训练集、验证集及测试集生成后,接着需要将这些语料全都转化成embedding向量。具体代码如下:

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
def tokenize_function(examples):
    return tokenizer(examples['sentence'], padding='max_length', truncation=True)
dataset =dataset.map(tokenize_function, batched=True)
dataset=dataset.remove_columns(['sentence',"idx"])
dataset=dataset.rename_column("label","labels")
dataset.set_format("torch")
train_dataset=dataset['train']
eval_dataset=dataset['validation']
test_dataset=dataset['test']
  • 第4步:模型训练。 具体代码如下:
model=BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)
training_args = TrainingArguments(
    output_dir='results',         
    per_device_train_batch_size=8,  
    per_device_eval_batch_size=8,      
    num_train_epochs=1,
)
trainer = Trainer(
    model=model,                         
    args=training_args,                 
    train_dataset=train_dataset,        
    eval_dataset=eval_dataset,
)
trainer.train()
trainer.evaluate()
trainer.save_model("results")

关于上述代码,有以下几点需要说明:

  • 训练模型的选择: tranformers库中有多个分类模型,其中BertForSequenceClassification类适用于序列分类任务,比如情感分析和文本分类;而BertForTokenClassification类适用于token级的分类任务,比如命名实体识别。
  • TrainingArguments方法中的主要参数及其作用如下表所示:
参数名作用
output_dir指定模型和训练日志保存的记录;
num_train_epochs设置训练的周期数(即遍历整个训练数据集的次数,指的是整个训练集将被遍历多少次以进行训练);
per_device_train_batch_size设置每个设备(如GPU)上的训练批次大小,训练批次是指在一次训练迭代中,模型同时处理的数据样本数量;
per_device_eval_batch_size设置每个设备上的评估批次大小;
logging_dir指定训练日志的保存目录;
evaluation_strategy设置评估策略。可以是 ‘no’(不评估)、‘steps’(每隔一定步数评估)或 ‘epoch’(每个周期评估);
save_total_limit设置保存模型检查点的总数限制,超过限制的检查点会被删除;
fp16启用半精度浮点数(FP16)训练,以减少显存使用并加速训练(需要支持 FP16 的硬件);

参考资料

  • BERT基础教程:Transformer大模型实战
  • https://blog.csdn.net/zoe9698/article/details/124579973

http://www.kler.cn/a/308189.html

相关文章:

  • Linux 系统管理和监控命令---- auditctl命令
  • C#发票识别、发票查验接口集成、电子发票(航空运输电子行程单)
  • 微擎框架php7.4使用phpexcel导出数据报错修复
  • Jmeter基础篇(22)服务器性能监测工具Nmon的使用
  • 5G时代的关键元件:射频微波MLCCs市场前景广阔
  • Linux设置socks代理
  • Java高级Day43-类加载
  • mysql 修改索引
  • 服务端接口性能优化有哪些方案?
  • 安卓在子线程中使用Toast
  • [Linux]:进程间通信(下)
  • vue2、vue3生成二维码
  • 算法 | 基础排序算法:插入排序、选择排序、交换排序、归并排序
  • xml重点笔记(尚学堂 3h)
  • 使用 GaLore 预训练LLaMA-7B
  • 72、结合无人机进行rk3588oak-lite跟踪目标物体进行识别、跟踪、保持距离
  • Java数据结构应用(力扣题20. 有效的括号)
  • Excel 基础知识-操作手册1
  • 2024/9/16 dataloader、tensorboard、transform
  • 三十八、Go-redis快速入门
  • Celery的使用
  • C语言-结构体-详解
  • 阿里云 Quick BI使用介绍
  • 【系统架构设计师-2014年真题】案例分析-答案及详解
  • HTTPX 与 AIOHTTP 与 Requests:选择哪个?
  • 【个人博客hexo版】hexo安装时会出现的一些问题