当前位置: 首页 > article >正文

【2024第一期CANN训练营】4、AscendCL推理应用开发

文章目录

  • 【2024第一期CANN训练营】4、AscendCL推理应用开发
    • 1. 创建代码目录
    • 2. 构建模型
      • 2.1 下载原始模型文件
      • 2.2 使用ATC工具转换模型
      • 2.3 注意事项
    • 3. 模型加载
      • 3.1 示例代码
    • 4. 模型执行
      • 4.1 获取模型描述信息
      • 4.2 准备输入/输出数据结构
      • 4.3 执行模型推理
      • 4.4 释放内存和数据类型
    • 5. 模型卸载
    • 6. 多种模型推理方式(可选)

【2024第一期CANN训练营】4、AscendCL推理应用开发

本教程将介绍如何使用AscendCL接口开发一个基于昇腾AI处理器的基础推理应用。昇腾社区提供了全栈AI计算基础设施,包括硬件、软件架构、计算框架等,为AI应用开发提供强大支持。

1. 创建代码目录

创建一个项目目录结构,用于存放代码文件、模型文件、测试数据等。以下是一个示例目录结构:

MyInferenceApp
├── model/                  # 存放模型文件
│   ├── model.om            # 昇腾AI处理器的离线模型文件

├── data/                   # 存放测试数据
│   ├── input.jpg           # 测试图片数据

├── inc/                    # 存放头文件
│   ├── app.h               # 应用声明的头文件

├── src/                    # 存放源代码和编译脚本
│   ├── CMakeLists.txt      # 编译脚本
│   ├── main.cpp            # 主要的源代码文件

├── out/                    # 存放输出结果

2. 构建模型

首先,需要一个适配昇腾AI处理器的离线模型(.om文件)。

可以使用ATC(Ascend Tensor Compiler)工具将开源框架的网络模型转换为适配昇腾AI处理器的离线模型(*.om文件)。以ONNX框架的ResNet-50网络为例,我们将一步步进行说明。

2.1 下载原始模型文件

cd <SAMPLE_DIR>/MyFirstApp_ONNX/model
wget https://obs-9be7.obs.cn-east-2.myhuaweicloud.com/003_Atc_Models/resnet50/resnet50.onnx

2.2 使用ATC工具转换模型

执行以下命令,将ONNX模型转换为昇腾AI处理器能识别的*.om模型文件。请确保具有命令中相关路径的可读、可写权限,并根据实际情况替换<SAMPLE_DIR><soc_version>

atc --model=resnet50.onnx --framework=5 --output=resnet50 --input_shape="actual_input_1:1,3,224,224" --soc_version=<soc_version>
  • --model: 指定ResNet-50网络的模型文件路径。
  • --framework: 指定原始框架类型,ONNX框架的值为5。
  • --output: 指定输出的模型文件名,这里是resnet50.om。
  • --input_shape: 指定模型输入数据的shape。
  • --soc_version: 指定昇腾AI处理器的版本。执行npu-smi info命令查询,在查询到的“Name”前增加Ascend信息,如Ascend910A

如果想快速体验使用转换后的om离线模型文件进行推理,请准备好环境、om模型文件、符合模型输入要求的*.bin格式的输入数据,并参考msame工具的README进行体验。(可选)

2.3 注意事项

  • 如果模型转换时提示有不支持的算子,请参考TBE&AI CPU自定义算子开发指南完成自定义算子后,再重新转换模型。
  • 如果模型转换时提示有算子编译相关问题,无法定位问题时,需设置环境变量DUMP_GE_GRAPHDUMP_GRAPH_LEVEL,重新模型转换,收集模型转换过程中的图描述信息,提供给华为工程师定位问题。
  • 如果模型的输入Shape是动态的,请参考模型动态Shape输入推理的说明。
  • 如果现有网络不满足需求,可以使用昇腾AI处理器支持的算子、调用Ascend Graph接口自行构建网络,再编译成om离线模型文件。详细说明请参见Ascend Graph开发指南。

3. 模型加载

模型加载的接口调用流程可以分为两种方式:

  • 通过接口中的配置参数区分加载方式:这种方式适用于从文件加载、从内存加载等不同加载方式,但涉及多个接口配合使用。
    • 使用aclmdlSetConfigOpt接口、aclmdlLoadWithConfig接口通过设置各属性的取值,直接一次性配置是从文件加载,还是从内存加载,以及内存是由系统内部管理,还是由用户管理。

img

  • 通过不同接口区分加载方式:这种方式根据不同的加载方式选择不同的接口,操作简单,但需要记住各种方式的加载接口
    • 当输入数据的Shape确定时,由用户自行管理内存。需要调用aclmdlQuerySizeaclrtMalloc接口查询和申请模型运行时所需工作内存、权值内存的大小,然后再从文件或内存进行加载。
      • aclmdlLoadFromFileWithMem从文件加载离线模型数据,由用户自行管理内存
      • aclmdlLoadFromMemWithMem从内存加载离线模型数据,由用户自行管理内存
    • 当输入数据的Shape不确定时,由系统内部管理内存
      • aclmdlLoadFromFile从文件加载离线模型数据,由系统内部管理内存
      • aclmdlLoadFromMem从内存加载离线模型数据,由系统内部管理内存

img

3.1 示例代码

以下是一个关键步骤的代码示例,用于从文件加载模型并自行管理内存

// 1.初始化变量。
const char* omModelPath = "../model/resnet50.om";

// 2.根据模型文件获取模型执行时所需的权值内存大小、工作内存大小。
size_t modelMemSize_ = 0, modelWeightSize_ = 0;
aclError ret = aclmdlQuerySize(omModelPath, &modelMemSize_, &modelWeightSize_);

// 3.根据工作内存大小,申请Device上模型执行的工作内存。
void* modelMemPtr_ = nullptr;
ret = aclrtMalloc(&modelMemPtr_, modelMemSize_, ACL_MEM_MALLOC_HUGE_FIRST);

// 4.根据权值内存的大小,申请Device上模型执行的权值内存。
void* modelWeightPtr_ = nullptr;
ret = aclrtMalloc(&modelWeightPtr_, modelWeightSize_, ACL_MEM_MALLOC_HUGE_FIRST);

// 5.加载离线模型文件,由用户自行管理模型运行的内存(包括权值内存、工作内存)。
// 模型加载成功,返回标识模型的ID。
aclmdlDesc* modelId_ = nullptr;
ret = aclmdlLoadFromFileWithMem(omModelPath, &modelId_, modelMemPtr_, modelMemSize_, modelWeightPtr_, modelWeightSize_);

4. 模型执行

模型执行的接口调用流程可以分为以下几个步骤:

  • 在模型加载之后,模型执行之前,需要准备输入、输出数据结构,并将输入数据传输到模型输入数据结构的对应内存中。
  • 模型执行结束后,若无需使用输入数据、aclmdlDesc类型、aclmdlDataset类型、aclDataBuffer类型等相关资源,需及时释放内存、销毁对应的数据类型,防止内存异常。

4.1 获取模型描述信息

  • 调用aclmdlCreateDesc接口创建描述模型基本信息的数据类型。

  • 调用aclmdlGetDesc接口根据模型加载中返回的模型ID获取模型基本信息。

// 1. 获取模型描述信息
aclmdlDesc* modelDesc_ = aclmdlCreateDesc();
aclError ret = aclmdlGetDesc(modelDesc_, modelId_);

4.2 准备输入/输出数据结构

// 2. 准备模型推理的输入数据结构
// 申请输入内存
size_t modelInputSize;
void *modelInputBuffer = nullptr;
aclRet = aclrtMalloc(&modelInputBuffer, modelInputSize, ACL_MEM_MALLOC_NORMAL_ONLY);

// 准备模型推理的输入数据结构
input_ = aclmdlCreateDataset();
aclDataBuffer *inputData = aclCreateDataBuffer(modelInputBuffer, modelInputSize);
ret = aclmdlAddDatasetBuffer(input_, inputData);

// 准备模型推理的输出数据结构
output_ = aclmdlCreateDataset();
size_t outputSize = aclmdlGetNumOutputs(modelDesc_);
for (size_t i = 0; i < outputSize; ++i) {
    size_t buffer_size = aclmdlGetOutputSizeByIndex(modelDesc_, i);
    void *outputBuffer = nullptr;
    aclError ret = aclrtMalloc(&outputBuffer, buffer_size, ACL_MEM_MALLOC_NORMAL_ONLY);
    aclDataBuffer* outputData = aclCreateDataBuffer(outputBuffer, buffer_size);
    ret = aclmdlAddDatasetBuffer(output_, outputData);
}

4.3 执行模型推理

根据实际场景选择同步推理或异步推理。

  • 对于同步推理,直接获取模型推理的输出数据即可。
  • 对于异步推理,在实现Callback功能时,在回调函数内获取模型推理的结果。
string testFile[] = {
        "../data/dog1_1024_683.bin",
        "../data/dog2_1024_683.bin"
    };

// 3. 模型推理
for (size_t index = 0; index < sizeof(testFile) / sizeof(testFile[0]); ++index) {
    // 读取图片文件
    void *inputBuff = nullptr;
    uint32_t inputBuffSize = 0;
    auto ret = Utils::ReadBinFile(fileName, inputBuff, inputBuffSize);
    
    // 准备模型推理的输入数据
    if (!g_isDevice) {
        aclError aclRet = aclrtMemcpy(modelInputBuffer, modelInputSize, inputBuff, inputBuffSize, ACL_MEMCPY_HOST_TO_DEVICE);
        (void)aclrtFreeHost(inputBuff);
    } else {
        aclError aclRet = aclrtMemcpy(modelInputBuffer, modelInputSize, inputBuff, inputBuffSize, ACL_MEMCPY_DEVICE_TO_DEVICE);
        (void)aclrtFree(inputBuff);
    }
    
    // 执行模型推理
    ret = aclmdlExecute(modelId_, input_, output_);

    // 输出模型推理的结果,输出top5置信度的类别编号 
    for (size_t i = 0; i < aclmdlGetDatasetNumBuffers(output_); ++i) {
    // 获取每个输出的内存地址和内存大小
        aclDataBuffer* dataBuffer = aclmdlGetDatasetBuffer(output_, i);
        void* data = aclGetDataBufferAddr(dataBuffer);
        size_t len = aclGetDataBufferSizeV2(dataBuffer);

        // 将内存中的数据转换为float类型
        float *outData = NULL;
        outData = reinterpret_cast<float*>(data);
        
        // 屏显每张图片的top5置信度的类别编号
        map<float, int, greater<float> > resultMap;
        for (int j = 0; j < len / sizeof(float); ++j) {
            resultMap[*outData] = j;
            outData++;
        }
        int cnt = 0;
        for (auto it = resultMap.begin(); it != resultMap.end(); ++it) {
            if (++cnt > 5)
                break;
            INFO_LOG("top %d: index[%d] value[%lf]", cnt, it->second, it->first);
    }
}

4.4 释放内存和数据类型

在模型推理结束后,需依次调用aclDestroyDataBuffer接口、aclmdlDestroyDataset接口及时释放描述模型输入、输出数据类型的数据。

// 4. 释放模型推理的输入、输出资源
for (size_t i = 0; i < aclmdlGetDatasetNumBuffers(input_); ++i) {
    aclDataBuffer *dataBuffer = aclmdlGetDatasetBuffer(input_, i);
    (void)aclDestroyDataBuffer(dataBuffer);
}
(void)aclmdlDestroyDataset(input_);
input_ = nullptr;
aclrtFree(modelInputBuffer);

for (size_t i = 0; i < aclmdlGetDatasetNumBuffers(output_); ++i) {
    aclDataBuffer* dataBuffer = aclmdlGetDatasetBuffer(output_, i);
    void* data = aclGetDataBufferAddr(dataBuffer);
    (void)aclrtFree(data);
    (void)aclDestroyDataBuffer(dataBuffer);
}
(void)aclmdlDestroyDataset(output_);
output_ = nullptr;

5. 模型卸载

模型推理完成后,您需要通过aclmdlUnload接口来卸载模型。此外,还需要销毁aclmdlDesc类型的模型描述信息,并释放模型运行所需的工作内存和权值内存。

// 1. 卸载模型
aclError ret = aclmdlUnload(modelId_);

// 2. 释放模型描述信息
if (modelDesc_ != nullptr) {
    (void)aclmdlDestroyDesc(modelDesc_);
    modelDesc_ = nullptr;
}

// 3. 释放模型运行的工作内存
if (modelWorkPtr_ != nullptr) {
    (void)aclrtFree(modelWorkPtr_);
    modelWorkPtr_ = nullptr;
    modelWorkSize_ = 0;
}

// 4. 释放模型运行的权值内存
if (modelWeightPtr_ != nullptr) {
    (void)aclrtFree(modelWeightPtr_);
    modelWeightPtr_ = nullptr;
    modelWeightSize_ = 0;
}

6. 多种模型推理方式(可选)

  • 多Batch模型推理:LINK

  • 异步模型推理:LINK

  • 队列模型推理:LINK

  • 动态AIPP模型推理

    • 单个动态AIPP输入:LINK
    • 多个动态AIPP输入:LINK
  • 动态Shape输入模型推理

    • 动态Batch/动态分辨率/动态维度:LINK
    • 动态Shape输入:LINK

http://www.kler.cn/a/271978.html

相关文章:

  • 【机器学习案列】探索各因素对睡眠时间影响的回归分析
  • 《鸿蒙Next应用商店:人工智能开启智能推荐与运营新时代》
  • C#Object类型的索引,序列化和反序列化
  • 阴沟翻船题——Longest Substring Without Repeating Characters
  • redis离线安装部署详解(包括一键启动)
  • 【阿里云】使用docker安装nginx后可以直接访问
  • QT----基于QT的人脸考勤系统
  • ROS 语音交互(二)nlp
  • 贡献法:USACO 2021 December Contest Bronze:孤独的照片
  • reloading,一个很实用的Python库!
  • 2024年视频制作软件哪个好用?盘点10个视频剪辑软件,哪个更适合你
  • Flink程序员开发利器本地化WebUI生成
  • 机器人路径规划:基于改进型A*算法的机器人路径规划(提供Python代码)
  • 【Jetson Nano】jetson nano一些基本功能命令
  • 某赛通电子文档安全管理系统 DecryptApplication 任意文件读取漏洞(2024年3月发布)
  • PHP魔术方法详解
  • 【软考高项】七、信息技术发展之存储、数据库、信息安全
  • Vue-router3.0版本跳转报错
  • 【MySQL】ROW_NUMBER 窗口函数妙用之报告系统状态的连续日期
  • Springboot 整合 Elasticsearch(五):使用RestHighLevelClient操作ES ②
  • ClickHouse中的设置的分类
  • 【LeetCode热题100】24. 两两交换链表中的节点(链表)
  • 树与二叉树(数据结构)
  • 前端学习之css伪元素选择器
  • sqlplus设置提示符
  • 【CenterFusion】模型的创建、导入、保存CenterFusion/src/lib/model/model.py