当前位置: 首页 > article >正文

CUDA编程之内存零拷贝技术

一、实现原理

        零拷贝内存通过将‌主机锁页内存‌直接映射到设备地址空间,实现CPU与GPU共享内存,避免显式数据拷贝‌。锁页内存通过cudaHostAlloccudaHostRegister分配,确保物理地址固定且不被操作系统换页,从而支持DMA(直接内存访问)‌。

二、核心函数
  • 内存分配
    cudaHostAlloc(&host_ptr, size, cudaHostAllocMapped | cudaHostAllocWriteCombined); // 分配锁页内存‌
    cudaHostGetDevicePointer(&device_ptr, host_ptr, 0); // 获取设备端指针‌
  • 内存释放‌:‌
    cudaFreeHost(host_ptr); // 必须使用CUDA接口释放‌

三、适用场景

       零拷贝和普通的cudaMemcpy一样也是要走pci-e总线的,只不过cudaMemcpy是一次性全部copy过去,而零拷贝是用的时候自动在后台通过pci-e总线传输。一般建议只使用一次的数据以及少量的返回数据可以使用零拷贝,其他情况建议copy到显存使用,显存DRAM的带宽要比pci-e的带宽高出一个量级。

  • 小规模数据频繁访问‌:
    如实时图像处理场景,GPU可直接读取主机内存中的输入数据,减少显存占用‌。
  • 主机-设备交互频繁‌:
    需多次读写同一内存区域时,零拷贝可替代cudaMemcpy,减少通信开销‌。
四、代码
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>

#define N 1024*1024

__global__ void doubleData(float *data, int size) {

    int i = threadIdx.x + blockIdx.x * blockDim.x;
    if(i<size){
     data[i]=10;
    }
}

int main()
{
    // 零拷贝内存示例:GPU直接操作主机内存  
    float *host_data, *device_data;  
    cudaHostAlloc(&host_data, N*sizeof(float), cudaHostAllocMapped); // 分配锁页内存‌
    cudaHostGetDevicePointer(&device_data, host_data, 0); // 获取设备指针‌
    int block = 1024;
    int grid = (N+1023)/block;
    doubleData<<<grid, block>>>(device_data, N); // GPU内核直接访问主机内存‌
    cudaDeviceSynchronize(); // 确保内核执行完成  
    cudaFreeHost(host_data); // 释放内存‌
    
     return 0;
}


http://www.kler.cn/a/585409.html

相关文章:

  • 保姆级离线TiDB V8+解释
  • C语言练习四(vscode)循环语句专练
  • linux中yum和wget指令的区别
  • 【 <一> 炼丹初探:JavaWeb 的起源与基础】之 Servlet 3.0 新特性:异步处理与注解配置
  • 上下左右移动的悬浮框/气泡
  • 基础知识《Redis解析》
  • Linux常用命令速查手册
  • MATLAB中edit函数用法
  • qt style-sheet样式不起作用问答
  • 什么是 Redis
  • HiPixel开源AI驱动的图像超分辨率的原生macOS 应用程序,使用 SwiftUI 构建并利用 Upscayl 强大的 AI 模型
  • 【6】拓扑排序学习笔记
  • Unity | 工具类:消息管理器-延迟分发
  • 如何解决 制造企业“一物多码”
  • Chrome 扩展开发 API实战:Proxy(七)
  • 呵护斜颈老人:解锁护理关键,重塑健康生活
  • 网站域名解析怎么更换DNS服务器?需要注意什么?
  • 抽象工厂模式的C++实现示例
  • 前端笔试常见的选择题目整理(HTML/CSS、JavaScript、框架、性能优化)
  • VIC模型率定验证