当前位置: 首页 > article >正文

GPU性能测试,环境搭建笔记,transformers/huggingface_hub改国内源,BertLayer import 报错

代码,以及测试方案使用的是沐神的代码
github的代码:

1. 环境搭建

首先是安装torch

这是我的pytorch版本

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

使用pip指令安装transformers
transformers 这个包是一个预训练好的模型的大全集,可以从里面下载各种训练好的模型。

pip install transformers 

安装好后发现连不上Hugging face
先安装 huggingface_hub

 pip install -U huggingface_hub

安装完成后在代码中运行,下面的代码,就可以切换到国内的源,下载模型

import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

除此以外,还有一种办法可以一劳永逸的改
在虚拟环境的 “…/huggingface_hub”中找到:constants.py文件

# 将原来的默认网址修改为镜像网址
# _HF_DEFAULT_ENDPOINT = "https://huggingface.co"
_HF_DEFAULT_ENDPOINT = "https://hf-mirror.com"

张量测试结果

4090D 显卡测试结果,可以看到在float32的时候,4090 没有比3090TI好太多。
float 16 可以看到有,明显的提升,感觉后面可以尽量16的方式去算,会更加能体现出优势
在这里插入图片描述
3090TI的算力结果
在这里插入图片描述

这个是官方公布的算力,从自测的值和官方的值相比,FP16算力小了一半。

ModelMemory (GB)Memory Bandwidth (GB/sec)FP32 TFLOPSFP16 TFLOPS
A10080203919.5312
V1001690015.7125
A60004876838150
RTX 3090 TI24100840160

BERT不同batch size

3090TI,显卡的参数
在这里插入图片描述
4090D 显卡的参数
在这里插入图片描述

在大的batch size下整体有较大的提升,小batch size 反而效率降低了。是否为核心加多,核心的调度增加了额外开销,单个核心反而不如之前的了。

遇到的问题

BertLayer import 报错

不知道沐神用的哪个版本的transformers ,但是我发现我装的最新版本的没有这个,但在文件中还有这个函数。所以需要自己添加一下申明,应该就可以使用了。

在__init__.py 这个文件中有两处需要修改,添加完成后,就可以在代码中引用这些部分了

  1. 在1544行附近,添加BertLayer 这个部分。
  2. 在6433行的位置,添加BertLayer 这个部分。在这里插入图片描述在这里插入图片描述
原文地址:https://blog.csdn.net/chen1658137632/article/details/143602126
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/390397.html

相关文章:

  • Web安全攻防入门教程——hvv行动详解
  • Linux shell 批量验证端口连通性
  • 【HarmonyOS NEXT】华为分享-碰一碰开发分享
  • Node.js HTTP模块详解:创建服务器、响应请求与客户端请求
  • 找不到mfc140u,具体原因分析
  • 在 Kubernetes 上快速安装 KubeSphere v4.1.2
  • Spring Boot编程训练系统:前端与后端集成
  • Android Parcelable和Serializable的区别与联系
  • 面试基础算法题-日常面试足够
  • 网络管理之---3种网络模式配置
  • C++11新特性(二)
  • NFS服务、内核配置菜单
  • JVM学习之路(5)垃圾回收
  • 【Qt】QTreeView 和 QStandardItemModel的关系
  • SpringBoot基础系列学习(五):JdbcTemplate 访问数据库
  • 航展畅想:从F35机载软件研发来看汽车车载软件研发
  • 表格理解专题(二):单元格的特征提取
  • Android源码中如何编译出fastboot.exe和adb.exe程序
  • JavaScript (JS)网页设计案例
  • 理解C语言之深入理解指针
  • 第R2周:LSTM算法详解
  • vscode Markdown
  • 37 string类关键函数的模拟实现
  • linux 下查看程序启动的目录
  • 抢抓5G机遇,AORO A23防爆手机如何直击园区巡检挑战?
  • Spring系统框架