当前位置: 首页 > article >正文

Unity Burst详解

【简介】

Burst是Unity的编译优化技术,优化了从C#代码编译成Native代码的过程,经过编译优化后代码有更高的运行效率。

在Unity中使用Burst很简单,在方法或类前加上[BurstCompile]特性即可。在构建时编译代码的步骤,Burst编译器会识别该特性对方法或类做编译优化。其适用于高性能计算的场景,逻辑复杂的场景不适用。

Burst编译的实现得益于已有的SIMD和LLVM技术。

【SIMD】

在现代 CPU 中,并行性操作大致分为三种类型:

  • 指令级并行,主要由 cpu 流水线技术,乱序执行技术等技术完成
  • 线程级并行,主要依靠多核多线程技术实现
  • 数据级并行,主要依靠 SIMD (单指令多数据) 来实现

SIMD是CPU硬件设计的一部分,是的CPU可以同时对多个数据执行相同的操作。

指令执行时(指令由操作码和操作数构成)CPU先访问缓存,缓存分为指令缓存和数据缓存,如果缓存中有指令就读取,没有指令从内存中读取;读取数据的过程也类似。

以加法为例,对于5+2这个加法计算,最少需要四条指令:

  1. 将数值 5 加载到寄存器中(LOAD操作码)
  2. 将数值 2 加载到寄存器中(LOAD操作码)
  3. 将两个寄存器中的数值相加(ADD操作码)
  4. 将相加后的结果存储到指定的寄存器或内存中(STORE操作码)

在SISD(单指令单数据)中,每个指令只会取一次数据,而在SIMD(单指令多数据)中,一次指令会取多个数据,节省了CPU获取数据的时间。

一次性取出来的数放在向量寄存器中,但向量寄存器大小有限,在AVX指令集中有256位。

在C#中,float类型占64位,一般要4个float类型一组。

现代编译器有三种方式来支持 SIMD:

  • 编译器能够在没有用户干预的情况下生成支持使用硬件SIMD的代码,称之为自动矢量化
  • 通过使用的Intrinsics 函数实现 SIMD
  • 使用矢量 C++ 类 (仅限ICC编译器) 来实现 SIMD

(Intrinsics函数是一种内建函数,它们用于实现高级别的底层操作。这些函数通常由编译器提供,并且可以直接映射到特定的硬件指令。使用Intrinsics函数可以实现对特定硬件功能的直接访问,从而提高代码的性能和效率。

内联函数通常用关键字inline声明,是由编译器处理的普通函数,编译器会根据需要将函数内容直接插入到调用处,减少了函数调用的开销。而Intrinsics函数一般不需要显式声明,编译器会自动识别并将其优化为特定的硬件指令 )

Unity.Mathematics提供了支持SIMD的数据类型,例如float4/int4等类型,在Job中需要使用这些数据类型。

在Job中要多用float4类型才有效,例如有一个float类型的数组,可以转为float4类型的数组,有利于在循环计算时自动矢量化。

【LLVM】

传统编译器架构为:

frontEnd(前端)检查源代码是否存在错误,将源代码分析成词法单元,然后进行语法分析生成抽象语法树,生成中间IR语言

Optimizer(优化) 对中间IR语言进行优化,消除冗余计算,内联、变量折叠等

BackEnd(后端) 最终将IR中间语言生成目标机器所能执行的代码

这种问题在于不同语言都要有各自的编译器和优化手段,LLVM期望提供一种IR标准,不同语言经过编译后先生成LLVM IR语言,只需要针对其做优化即可。

新增一个语言时,只需新实现一个前端,新增一种设备后,只需新实现一个后端

BurstCompiler会根据特性找到需要编译的方法,将方法对应的C# IR转为LVVM IR,随后针对LVVM IR做优化,编译。

【Burst使用】

支持的类型和语法

可以简单的将BurstCompile特性至于方法或类上,但不是所有的方法和类都支持。情况如下:

  • 支持基元类型:bool/byte/int/long/float/double,不支持char、string、decimal
  • 支持Unity.Mathematics中的向量类型,例如bool3\bool4\int3\int4\float3\float4等
  • 支持枚举类型、结构体、元组、System.IntPtr、Span<T>
  • 支持DllImport and internal calls 
  • 不支持Managed Array,例如int[] a;支持NativeArray
  • 方法中不能引用managed object
  • 不支持Try Catch语法

打Log

代码中Log是少不了的,Burst对Debug.Log有额外支持,例如:

Debug.Log("This a string literal");


int value = 256;
Debug.Log($"This is an integer value {value}"); 

//string需要使用FixedString,例如:
FixedString128Bytes str = "fixedstring128";
Debug.Log(str);

 编译检查

为避免在构建时才发现Burst编译不过,提供了Burst Inspector可以在Editor下预编译,以便查看编译结果

通过Jobs > Burst > Open Inspector 打开可视化面板,面板会显示编译结果

面板左边显示了可以正常编译得Job,右边显示当前选中的Job的编译结果,依次是:

  • Assembly:最终优化生成的NativeCode
  • .NET IL:原始的C# Job代码生成的IL
  • LLVM IR (Unoptimized) :未优化的LLVM IR
  • LLVM IR (Optimized):优化后的LLVM IR
  • LLVM IR Optimization Diagnostics:提供优化诊断细节

舍弃编译

当在类或结构体添加BurstCompile特性后,默认对其内所有方法做编译,如果某个方法我们使用了Managed Object而不想编译,可以使用[BurstDiscard]特性。

注意,使用该特性时,方法不能有返回值,可以通过ref或者out传递返回值

同步编译

Editor上Job是默认异步编译的,首次执行到Job时才会异步编译。通过[BurstCompile(CompileSynchronously = true)]开启同步编译

精度设定

浮点数精度会影响计算性能,默认采用中等精度,可以通过[BurstCompile(FloatPrecision.Med, FloatMode.Fast)]指定精度

指定取值范围

对参数和返回值指定取值范围有利于编译器做特定的代码优化,例如

[return:AssumeRange(0u, 13u)]
static uint WithConstrainedRange([AssumeRange(0, 26)] int x)
{
    return (uint)x / 2u;
}

分支指定

 可以通过Unity.Burst.CompilerServices.Hint.Likely告诉编译器该分支大概率为true,需要重点优化,例如

if (Unity.Burst.CompilerServices.Hint.Likely(b))
{
    // Any code in here will be optimized by Burst with the assumption that we'll probably get here!
}
else
{
    // Whereas the code in here will be kept out of the way of the optimizer.
}

【参考】

深入浅出让你理解什么是LLVM - 简书

https://zhuanlan.zhihu.com/p/472813616

Quick Start | Burst | 1.7.4


http://www.kler.cn/a/488629.html

相关文章:

  • 设计模式 行为型 责任链模式(Chain of Responsibility Pattern)与 常见技术框架应用 解析
  • List详解 - 双向链表的操作
  • spring mvc源码学习笔记之八
  • 【面试题】技术场景 4、负责项目时遇到的棘手问题及解决方法
  • 闲谭SpringBoot--ShardingSphere分库分表探究
  • Vue.js支持哪些数据可视化工具?
  • Zustand selector 发生 infinate loops的原因以及解决
  • Unity Android AAB包GooglePlay上线备忘
  • vmware-ubuntu22.04配置虚拟机win10,重新上网成功
  • pyTorch笔记
  • 【网络】计算机网络的分类 局域网 (LAN) 广域网 (WAN) 城域网 (MAN)个域网(PAN)
  • 英伟达多维进击汽车业务:自动驾驶时代已至
  • 02-51单片机数码管与矩阵键盘
  • 分布式Id方案选择
  • NLP三大特征抽取器:CNN、RNN与Transformer全面解析
  • vue video重复视频 设置 srcObject 视频流不占用资源 减少资源浪费
  • 跟着逻辑先生学习FPGA-第六课 无源蜂鸣器发声实验
  • 解释器模式详解
  • 力扣面试题 08.09. 括号 C语言解法 回溯递归动态规划字符串
  • 当Elasticsearch索引数据量过多时,可以采取以下措施进行优化和部署
  • Django后端相应类设计
  • Flask----前后端不分离-登录
  • mysql实现对字符列第一个汉字首字母拼音进行A-Z顺序排序,使用gbk编码
  • 计算机网络之---静态路由与动态路由
  • 图像分类、目标定位与目标检测的区别详解:定义、工作原理、应用场景
  • 车联网安全--TLS握手过程详解