当前位置：首页 > article >正文

性能优化--CPU微架构

article 2024/11/25 10:40:25

一指令集架构

Intel X86, ARM v8, RISC-V 是当今广泛使用的指令架构的实例。

大多数现代架构可以归类为基于通用寄存器的加载和存储型架构，在这种架构下，操作数倍明确指定，只能使用夹在和存储指令访问内存。除提供基本的功能之外，广泛部署的架构还在集训增强其ISA 以支持新的计算方式。包括增强的向量处理指令(例如Intel AVX2, AVX512 ARM SVE)和矩阵指令。使用这些高级指令的软件往往在性能上有几个数量级的提升。

二指令流水线

流水线是加快CPU速度的基础性技术，指令可以重叠执行。

指令执行的过程1 取指令，2 译码 3 执行 4 访问内存 5 回写。

在第一个时钟周期，指令x进入流水线的取指IF阶段。在第二个时钟周期，指令x进入译码ID阶段，同时程序的下一条指令进入取指IF阶段，以此类推。当整个流水线满载时，图7中第5个时钟周期所示，CPU的所有流水线阶段都忙于处理不同的指令，如果没有流水线的话，指令x + 1就需要等到指令x执行完毕才能开始执行。

流水线机器中每条指令的执行时间 = 非流水线机器中每条指令执行的执行时间/ 流水线阶段数。

在现代CPU中所有类别的冒险都是由硬件处理的。

结构冒险

由资源冲突而导致，在很大程度上，可以通过复制硬件资源如使用多端口寄存器或者存储器来消除。然而，要消除所有这些冒险，在硅面积和功耗方面成本可能会变得非常高昂。

数据冒险

写后读Read after write. 冒险要求相关的读取操作在写入操作后执行。当指令x + 1 在上一条指令x写入某个位置之前读取同一位置时，就会发生这种冒险，从而导致读取错误的值。CPU通过实现从流水线后期阶段到早期阶段的数据转发来减轻与RAW冒险相关的损失，这个想法是，在指令x完全完成之前，指令x的结果可以转发到指令x+1我们看一下例子。

R1 = R0 ADD 1

R2 = R1 ADD 2

高速缓存

m路组关联告诉缓存中的每个缓存块都有一个与其关联的地址标签。此外，该标签还包含诸如标记数据有效与否的有效位之类的状态位。标签还可以包含其他位，以指示访问信息，共享信息等，这些内容将在后面的章节中描述。

图11展示了如何使用流水线生成的地址来查找高速缓存。最低顺序地址位定义了给定块内的偏移量，即块偏移量位（32字节缓存行需5位。64字节缓存行需要6位）。组则是基于上述公式使用索引位来选择，一旦组被选定，就可以使用标签位与该组中的所有标签进行比较。如果其中一个标签与传入请求的标签匹配并且设置了有效位，则缓存命中。与该块条目关联的数据。