当前位置: 首页 > article >正文

Ascend C算子开发(入门)—— 算子开发初体验

在这里插入图片描述
在这里插入图片描述

文章目录

    • Ascend C算子开发(入门)—— 算子开发初体验
        • Host与Device
        • 核函数
          • 什么是核函数
          • 如何编写核函数?
        • 核函数实现例子——Hello World
        • 完整核函数泛讲

Ascend C算子开发(入门)—— 算子开发初体验

Host与Device
  • Host指与Device相连接的x86服务器,ARM服务器,会利用Device提供的NN(Neural Network)计算能力完成任务。
  • Device模块指安装了昇腾AI处理器的硬件设备,利用PCle接口与Host侧连接,提供NN计算能力。

以下图为例,理解传统计算机中Host端和Device端的概念。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

而CANN框架中的Host和Device的概念不过是,将Device端的显卡部分替换成华为AI加速卡。

在这里插入图片描述

核心需要编写在AI Core上的代码。

核函数
什么是核函数

核函数是跑在AI Core上的,是Ascend C算子设备测的入口,用户使用核函数这种C/C++函数的语法扩展来管理设备测的运行代码,用户在核函数中实现算子逻辑的编写,例如自定义算子类及其成员函数以实现该算子的所有功能。核函数是主机侧核设备侧连接的桥梁。

在这里插入图片描述

如何编写核函数?

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

核函数实现例子——Hello World

HelloWorld——实现(Device端)

#include "kernel_operator.h"
using namespace AscendC;
// 核函数实现
extern "C" __global__ __aicore__ void hello_world(){
  printf("Hello World!!!\n");
}
// 核函数调用
void hello_world_do(uint32_t blockDim, void* stream){
  hello_world<<<blockDim,nullptr,stream>>>();
}

HelloWorld——调用(Host端)

hello_world_do(blockDim,stream);
aclrtSynchronizeStream(stream);// 阻塞,等待所有队列任务执行完成。
完整核函数泛讲

在这里插入图片描述

在核函数中完成初始化和数据处理,初始化阶段找到核需要计算的GlobalMemory,Process对每一段数据进行拷入、计算和拷出。

copyin阶段完成了将数据从Device端的显存移动到AICore中(从GlobalMemory到LocalMemory),当将数据拷入时,先放入一个队列,计算时将数据从队列拿出来做计算并放到另一个队列中。

compute阶段完成计算

Memory),当将数据拷入时,先放入一个队列,计算时将数据从队列拿出来做计算并放到另一个队列中。

compute阶段完成计算

copyout阶段拷出数据
在这里插入图片描述


http://www.kler.cn/a/289011.html

相关文章:

  • 嵌入式硬件实战基础篇(一)-STM32+DAC0832 可调信号发生器-产生方波-三角波-正弦波
  • unity单例模式的不同声明(待完善
  • 使用 Vision 插件让 GitHub Copilot 识图问答
  • 会话信息处理: HttpSession、token序列化、收集登录设备信息、基于`spring-session-data-redis`实现session共享。
  • JavaSecLab靶场搭建
  • Zookeeper的安装与使用
  • C++笔记---模板初阶
  • 论文速览【LLM】 —— 【ORLM】Training Large Language Models for Optimization Modeling
  • 多线程——创建
  • UDP广播、 组播通信
  • macos 使用port查询并安装python2, python3多版本, 设置默认python版本方法
  • 算法训练营|图论第8天 拓扑排序 dijkstra
  • 【笔试练习】深信服校园招聘c/c 软件开发H卷
  • 使用python导出Excel表格中的lua配置
  • 初识Linux · 有关makefile
  • 【Rust光年纪】化学计算不完全指南:Rust语言库全面解析
  • jenv 一款macos下的开源JAVA多版本环境安装管理切换工具
  • Swift concurrency 5 — async let的理解与使用
  • 聊聊随机测试和猴子测试
  • Python参数传递的艺术:解锁编程灵活性的秘密武器
  • uniapp写的一个年月日时分秒时间选择功能
  • 【数据结构初阶】——栈和队列
  • 求三元组中可能出现的最小距离
  • RabbitMQ练习(Routing)
  • 使用COAP和MQTT协议的多协议方法开发的用于机器人手术的自动医疗物联网系统
  • vue3+ts 实现模板表格文件下载~