当前位置: 首页 > article >正文

【论文解析】HAQ: Hardware-Aware Automated Quantization With Mixed Precision

作者及发刊详情

@inproceedings{haq,
author = {Wang, Kuan and Liu, Zhijian and Lin, Yujun and Lin, Ji and Han, Song},
title = {HAQ: Hardware-Aware Automated Quantization With Mixed Precision},
booktitle = {IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2019}
}

摘要

Motivation

  • DNN硬件加速器开始支持混合精度(1-8位)进一步提高计算效率,这对找到每一层的最佳位宽提出了一个巨大的挑战:它需要领域专家探索巨大的设计空间,在精度,延迟,能耗和模型大小之间权衡。
  • 当前有很多专用的神经网络专用加速器,但没有为这些加速器设计专用的神经网络优化方法。传统的量化算法忽视了不同的硬件架构,网络所有层都采用一种量化方式。

Contribution

1)自动化

提出了自动量化框架,无需领域专家或基于规则的启发式方法,将人力从探索位宽选择中解放出来

2)硬件感知

该框架在循环指令流中考虑了硬件架构,不依赖中间信号(proxy signal),可以直接减少延迟、能耗和存储

3)专用化

为不同的硬件架构都提出专门的量化策略,完全为目标硬件架构定制,以优化延迟和能耗。

4)设计视角

将计算和访存都考虑在内,为不同的硬件架构提供了不同的量化策略解释

Approach

引入了基于硬件感知的自动量化(HAQ)框架,该框架利用强化学习来自动确定量化策略,并在设计回路中获取硬件加速器的反馈。而不是依赖于代理信号,如FLOPS和模型大小,该文使用一个硬件模拟器来生成直接的反馈信号(延迟和能耗)到RL代理。

Experiment

实验验证平台:

选用模型:

训练数据集:

推理任务

工具:

实验评估

在这里插入图片描述

结论

框架有效地减少了1.4-1.95×的延迟和1.9×的能耗,而accu的损失可以忽略不计

参考文献

MIT开源开源项目链接

参考链接:
机器之心@知乎:寻找最佳的神经网络架构,韩松组两篇论文解读
KGback:人工智能和机器学习入门


http://www.kler.cn/a/410085.html

相关文章:

  • Hive的基础函数-日期函数
  • 【Spiffo】环境配置:VScode+Windows开发环境
  • 机器学习之量子机器学习(Quantum Machine Learning, QML)
  • repmgr安装及常用运维指令
  • C++语言之函数对象与算法
  • vulhub靶场与pikachu靶场
  • 深入解析常见的设计模式
  • 三种蓝牙架构实现方案
  • python基础练习
  • ThingsBoard安装测试
  • 学习python的第十三天之函数——函数传参中的传值和传址问题
  • 基于FPGA的2FSK调制-串口收发-带tb仿真文件-实际上板验证成功
  • 网络常见命令
  • 美妆连锁新纪元:多门店电商系统如何重塑美妆产业新生态
  • 如何在 UniApp 中实现 iOS 版本更新检测
  • go-rod vs Selenium:自动化测试工具的比较与选择
  • STM32C011开发(1)----开发板测试
  • 人名分类器(nlp)
  • 44.扫雷第二部分、放置随机的雷,扫雷,炸死或成功 C语言
  • C++11(上)
  • DockerFile 构建基础镜像
  • 泷羽sec-linux
  • 【QT项目】基于C++的数据链路层帧封装实验(CRC校验算法实现)
  • Java基础1.0
  • Paddle Inference部署推理(五)
  • Cmakelist.txt之win-c-udp-server