当前位置: 首页 > article >正文

主流 AI 芯片配置

FPGA 相比同等面积和工艺 ASIC 的算力差着数量级

大多数大模型 16-bit 权重真的可以量化到 8-bit 而不太损失精度。但要压缩到 4-bit,精度一般就会有比较大的损失了。

NVIDIA 的 Tensor Core 也可以很高效地执行 16-bit 和 8-bit 的计算,8-bit 的算力基本上是 16-bit 的两倍。

FPGA 还是适合用来做智能网卡,也适合做存储编码、压缩、加密等特定算法的加速。AI 大模型还是 ASIC 更在行。

摩尔线程

2022年,摩尔线程就推出了GPU统一系统架构MUSA,发布并量产“苏堤”和“春晓”两颗全功能GPU芯片,这也是国内采用现代GPU架构

主流 AI 芯片配置

厂商型号图形处理器架构显存FP16 算力BF16 算力INT8 算力FP32算力TF32 算力FP8算力CUDA CoreTensor Core
英伟达RTX 3090GA102-300-A1Ampere24GB(GDDR6X)35.58 TFLOPS--35.58 TFLOPS-不支持10496328
英伟达RTX 3090 TiGA102-350-A1Ampere24GB(GDDR6X)40.00 TFLOPS--40.00 TFLOPS-不支持10752336
英伟达RTX 4090AD102-300-A1Ada Lovelace24GB(GDDR6X)369.7 TFLOPS(Tensor Core)82.58 TFLOPS369.7 TFLOPS(Tensor Core)739.4 TFLOPS(Tensor Core)82.58 TFLOPS--16384512
英伟达RTX 4090 TiAD102-400-A1Ada Lovelace24GB(GDDR6X)93.24 TFLOPS--93.24 TFLOPS--18176568
英伟达RTX 4090D-特供-消费级AD102-250-A1Ada Lovelace24GB(GDDR6X)329.3 TFLOPS(Tensor Core)73.54 TFLOPS329.3 TFLOPS(Tensor Core)658.6 TFLOPS(Tensor Core)73.54 TFLOPS--14592456
英伟达L20(PCIe)-特供-推理(PCIe)AD102Ada Lovelace48GB(GDDR6)119.5 TFLOPS(Tensor Core)119.5 TFLOPS(Tensor Core)239 TOPS(Tensor Core)59.8 TFLOPS59.8 TFLOPS(Tensor Core)239 TFOPS(Tensor Core)11776368
英伟达H20-特供-训练(PCIe、Nvlink)-Hopper96GB(HBM3)148 TFLOPS(Tensor Core)148 TFLOPS(Tensor Core)296 TOPS(Tensor Core)44 TFLOPS74 TFLOPS(Tensor Core)296 TFOPS(Tensor Core)--
英伟达A800(PCIe)GA100Ampere80GB(HBM2e)312 TFLOPS(Tensor Core)77.97 TFLOPS312 TFLOPS(Tensor Core)624 TOPS(Tensor Core)19.5 TFLOPS156 TFLOPS(Tensor Core)不支持6912432
英伟达H800( SXM)GH100Hopper80GB(HBM3)1,979 TFLOPS(Tensor Core)1,979 teraFLOPS(Tensor Core)3,958 TOPS(Tensor Core)67 teraFLOPS989 teraFLOPS (Tensor Core)3,958 teraFLOPS(Tensor Core)18,432640
昇腾Atlas 800T A2训练(910B3-HCCS)-达芬奇64GB(HBM2e)313 TFLOPS313 TFLOPS640 TOPS75 TFLOPS141 TFLOPS(HF)不支持--
昇腾Atlas 800I 推理(910B4)-达芬奇32GB(HBM2e)280 TFLOPS280 TFLOPS550 TOPS75 TFLOPS141 TFLOPS(HF)不支持--

http://www.kler.cn/a/566818.html

相关文章:

  • STM32之时钟树
  • Doris、ClickHouse 和 Flink 这三个技术典型的应用场景
  • 关于Hadoop集群部署打不开webUI界面问题
  • 软件安全性测试类型分享,第三方软件测试机构如何进行安全性测试?
  • 小智聊天机器人应用层头文件application.h解析
  • Django+Vue+数据可视化的网络考试与测评系统(程序+论文+讲解+安装+调试+售后)
  • DeepSeek系列 清华大学-AIGC发展研究3.0版 pdf完整版(附下载)
  • c# 代码规范
  • 【机器学习】K近邻#1基于Scikit-Learn的K近邻分类
  • AWS SDK for Java 1.x 403问题解决方法和原因
  • ngx_conf_file_t
  • 在PyCharm中集成AI编程助手并嵌入本地部署的DeepSeek-R1模型:打造智能开发新体验
  • 使用java jdk生成自定义SSL证书-CA免费证书
  • onlyoffice 服务搭建及配置 - 前端 office 文件预览解决方案
  • AIoT是什么?关键技术及应用
  • Python 数据结构 1.零基础复习
  • ⭐算法OJ⭐位操作实战【计数】(C++ 实现)
  • 无人机 CAAC 执照考取全攻略
  • 25.贪心算法3
  • UniApp 按钮组件 open-type 属性详解:功能、场景与平台差异