当前位置: 首页 > article >正文

NUMA架构介绍

NUMA 架构详解

NUMA(Non-Uniform Memory Access,非统一内存访问) 是一种多处理器系统的内存设计架构,旨在解决多处理器系统中内存访问延迟不一致的问题。与传统的 UMA(Uniform Memory Access,统一内存访问)架构不同,NUMA 架构中每个处理器访问不同内存区域的速度可能不同。以下是 NUMA 架构的详细介绍,包括架构细节、CPU 和内存的组合方式、缓存层次、涉及的硬件及其作用,以及 NUMA 架构的优势和原因。


1. NUMA 架构的基本概念
  • NUMA 节点(NUMA Node)

    • 一个 NUMA 节点通常由一个或多个 CPU 核心(Processor Cores)和与之直接连接的本地内存(Local Memory)组成。

    • 每个 NUMA 节点可以独立运行,拥有自己的内存控制器和内存通道。

    • 多个 NUMA 节点通过高速互联网络(如 Intel 的 QPI 或 AMD 的 Infinity Fabric)连接。

  • 本地内存(Local Memory)

    • 每个 NUMA 节点的内存是其本地内存,访问速度最快,延迟最低。

  • 远程内存(Remote Memory)

    • 当一个 NUMA 节点访问另一个 NUMA 节点的内存时,需要通过互联网络,访问速度较慢,延迟较高。

  • 内存访问延迟的不一致性

    • 在 NUMA 架构中,内存访问延迟取决于内存的位置。本地内存访问速度快,远程内存访问速度慢,因此称为“非统一内存访问”。


2. NUMA 架构的细节
(1)CPU 和内存的组合方式
  • 多处理器系统

    • NUMA 架构通常用于多处理器系统,每个处理器(或处理器组)与一部分内存直接相连。

    • 例如,一个系统可能有 2 个 NUMA 节点,每个节点包含 16 个 CPU 核心和 64GB 本地内存,总内存为 128GB。

  • 内存控制器

    • 每个 NUMA 节点有自己的内存控制器,负责管理本地内存的访问。

    • 内存控制器直接连接到 CPU 和本地内存,减少了访问延迟。

  • 互联网络

    • NUMA 节点之间通过高速互联网络(如 Intel 的 QPI、AMD 的 Infinity Fabric 或 PCIe)连接。

    • 当一个 NUMA 节点需要访问另一个节点的内存时,数据通过互联网络传输。

(2)缓存层次(Cache Hierarchy)
  • L1 缓存

    • 每个 CPU 核心有自己的 L1 缓存,分为指令缓存(L1-I)和数据缓存(L1-D)。

    • L1 缓存速度最快,容量最小,通常为几十 KB。

  • L2 缓存

    • 每个 CPU 核心或一组核心共享 L2 缓存。

    • L2 缓存速度比 L1 缓存稍慢,容量较大,通常为几百 KB 到几 MB。

  • L3 缓存

    • 每个 NUMA 节点内的所有 CPU 核心共享 L3 缓存。

    • L3 缓存速度比 L2 缓存慢,容量最大,通常为几十 MB。

    • L3 缓存在 NUMA 架构中起到重要作用,可以减少对内存的访问次数,尤其是远程内存访问。

(3)内存访问路径
  • 本地内存访问

    • CPU 访问本地内存时,数据直接通过内存控制器读取或写入,延迟低,带宽高。

  • 远程内存访问

    • CPU 访问远程内存时,数据需要通过互联网络传输到目标 NUMA 节点,延迟较高,带宽较低。

(4)NUMA 拓扑结构
  • NUMA 架构的拓扑结构可以是多种形式,例如:

    • 对称 NUMA:所有 NUMA 节点之间的互联延迟相同。

    • 非对称 NUMA:某些 NUMA 节点之间的互联延迟可能比其他节点更高。


3. NUMA 架构涉及的硬件及其作用
(1)CPU 核心(Processor Cores)
  • 作用:执行计算任务。

  • 特点:每个核心有自己的 L1 和 L2 缓存,核心之间通过共享的 L3 缓存和内存控制器访问内存。

(2)内存控制器(Memory Controller)
  • 作用:管理 CPU 对内存的访问。

  • 特点:每个 NUMA 节点有自己的内存控制器,负责本地内存的访问。

(3)高速缓存(Cache)
  • L1 缓存:最快但容量最小,用于存储核心最常用的指令和数据。

  • L2 缓存:速度较快,容量较大,用于存储核心或核心组的常用数据。

  • L3 缓存:速度较慢但容量最大,用于存储 NUMA 节点内所有核心的共享数据,减少对内存的访问。

(4)互联网络(Interconnect)
  • 作用:连接多个 NUMA 节点,实现节点之间的数据传输。

  • 特点:高速互联网络(如 Intel 的 QPI、AMD 的 Infinity Fabric)决定了远程内存访问的延迟和带宽。

(5)内存(Memory)
  • 本地内存:每个 NUMA 节点的本地内存,访问速度快。

  • 远程内存:其他 NUMA 节点的内存,访问速度较慢。


4. NUMA 架构的优势
(1)扩展性
  • NUMA 架构支持更多的处理器和更大的内存容量。

  • 每个 NUMA 节点可以独立扩展,系统可以通过增加 NUMA 节点来提升计算能力和内存容量。

(2)性能优化
  • 数据局部性

    • NUMA 架构通过将任务和数据分配到本地内存,减少了远程内存访问的次数,从而降低了内存访问延迟。

    • 操作系统和应用程序可以通过 NUMA 感知的调度策略,优化任务和数据的分布。

  • 高带宽

    • 每个 NUMA 节点有自己的内存通道,多个节点可以并行访问内存,提高了整体内存带宽。

(3)资源隔离
  • NUMA 架构可以将任务和内存资源隔离到不同的 NUMA 节点,减少资源竞争,提高系统稳定性。


5. NUMA 架构优势的原因
(1)内存访问延迟的优化
  • 在传统的 UMA 架构中,所有处理器共享同一个内存池,随着处理器数量的增加,内存访问竞争加剧,导致延迟增加。

  • NUMA 架构通过将内存分布到多个节点,减少了内存访问竞争,降低了延迟。

(2)带宽的提升
  • 每个 NUMA 节点有自己的内存通道,多个节点可以并行访问内存,提高了整体内存带宽。

  • 在 UMA 架构中,所有处理器共享有限的内存带宽,容易成为性能瓶颈。

(3)扩展性的提升
  • NUMA 架构通过增加 NUMA 节点来扩展系统,避免了 UMA 架构中总线带宽和内存控制器的瓶颈问题。


6. NUMA 架构的应用场景
  • 高性能计算(HPC)

    • NUMA 架构适合需要大量内存和计算资源的科学计算、气象模拟等场景。

  • 大型数据库系统

    • 数据库系统(如 OLAP、数据仓库)通常需要处理大量数据,NUMA 架构可以优化内存访问性能。

  • 虚拟化环境

    • 在云计算和数据中心中,NUMA 架构可以优化虚拟机的资源分配,提高虚拟化性能。


7. NUMA 架构的挑战
  • 编程复杂性

    • 开发者需要显式管理数据局部性,增加了编程难度。

  • 负载均衡

    • 任务分配需要兼顾 NUMA 节点的计算能力和内存访问延迟,避免性能瓶颈。

  • 操作系统支持

    • 操作系统需要提供 NUMA 感知的调度和内存分配策略,以充分发挥 NUMA 架构的优势。


总结

NUMA 架构通过将内存分布到多个节点,解决了多处理器系统中的内存访问瓶颈问题,提升了系统的扩展性和性能。其优势主要体现在内存访问延迟的优化、带宽的提升和扩展性的增强。尽管 NUMA 架构在编程和负载均衡方面存在挑战,但在高性能计算、大型数据库和虚拟化环境中,NUMA 架构表现出色。通过操作系统、应用程序和硬件的协同优化,可以充分发挥 NUMA 架构的优势。

NUMA架构中的本地内存是指L1、L2、L3 cache缓存还是RAM

在 NUMA(Non-Uniform Memory Access)架构 中,本地内存 并不是指 CPU 的 L1、L2 或 L3 缓存,而是指与某个 NUMA 节点直接连接的 物理内存(DRAM)。缓存(L1、L2、L3)和本地内存是两个不同的概念,它们在 NUMA 架构中扮演不同的角色。以下是对这些概念的详细解释:


1. 本地内存(Local Memory)

  • 定义

    • 本地内存是指与某个 NUMA 节点直接连接的 物理内存(DRAM)

    • 每个 NUMA 节点都有自己的本地内存,由该节点的内存控制器管理。

    • 本地内存的访问延迟最低,带宽最高,因为数据不需要通过互联网络传输。

  • 位置

    • 本地内存位于 SoC(System on Chip)之外,通常是主板上的 DRAM 模块。

    • 例如,在一个双路服务器中,每个 CPU 插槽(Socket)连接一部分 DRAM,这部分 DRAM 就是该 CPU 的本地内存。

  • 作用

    • 本地内存用于存储操作系统和应用程序的数据。

    • 在 NUMA 架构中,操作系统和应用程序会尽量将数据分配到本地内存,以减少访问延迟。


2. 缓存(Cache)

缓存是 CPU 内部的高速存储器,用于加速对内存数据的访问。缓存分为三级:L1、L2 和 L3。

  • L1 缓存

    • 每个 CPU 核心独享的缓存,分为指令缓存(L1-I)和数据缓存(L1-D)。

    • 速度最快,容量最小(通常为几十 KB)。

    • 用于存储核心最常用的指令和数据。

  • L2 缓存

    • 每个 CPU 核心或一组核心共享的缓存。

    • 速度比 L1 缓存稍慢,容量较大(通常为几百 KB 到几 MB)。

    • 用于存储核心或核心组的常用数据。

  • L3 缓存

    • 所有 CPU 核心共享的缓存,通常在一个 NUMA 节点内共享。

    • 速度比 L2 缓存慢,但容量最大(通常为几十 MB)。

    • 用于存储 NUMA 节点内所有核心的共享数据,减少对内存的访问。

  • 缓存的作用

    • 缓存用于减少 CPU 访问内存的次数,从而降低内存访问延迟。

    • 在 NUMA 架构中,缓存的作用尤为重要,因为它可以减少对远程内存的访问。


3. 本地内存与缓存的关系

  • 缓存是 CPU 内部的高速存储器,而 本地内存是外部的物理内存(DRAM)

  • 缓存用于加速对内存数据的访问,而本地内存是实际存储数据的地方。

  • 当 CPU 需要访问数据时,会首先检查缓存(L1 → L2 → L3),如果缓存中没有所需数据(缓存未命中),才会访问本地内存或远程内存。


4. SoC 上的内存

  • SoC(System on Chip) 是一种将 CPU、内存控制器、I/O 接口等集成在一个芯片上的设计。

  • 在 SoC 中,内存控制器通常集成在芯片上,但 物理内存(DRAM) 仍然位于芯片外部。

  • 因此,本地内存 是指与 SoC 上的内存控制器直接连接的物理内存,而不是 SoC 内部的缓存。

缓存、RAM、ROM分别是什么

在计算机系统中,缓存(Cache)RAM(Random Access Memory,随机存取存储器) 和 ROM(Read-Only Memory,只读存储器) 是三种常见的内存类型,它们在系统中扮演不同的角色。除此之外,还有其他一些常见的内存类型。以下是它们的详细介绍:


1. 缓存(Cache)

  • 定义

    • 缓存是一种高速存储器,用于存储 CPU 频繁访问的数据和指令,以减少访问主内存(RAM)的次数。

    • 缓存通常集成在 CPU 内部,速度远快于主内存。

  • 特点

    • 速度快:缓存的访问速度比 RAM 快得多,通常以纳秒(ns)为单位。

    • 容量小:缓存的容量远小于 RAM,通常为几 KB 到几十 MB。

    • 层级结构:现代 CPU 通常有多级缓存(L1、L2、L3),L1 最快但容量最小,L3 最慢但容量最大。

  • 作用

    • 缓存用于加速 CPU 对数据的访问,减少 CPU 等待数据的时间,从而提高系统性能。


2. RAM(Random Access Memory,随机存取存储器)

  • 定义

    • RAM 是计算机的主内存,用于临时存储正在运行的程序和数据。

    • RAM 是易失性存储器,断电后数据会丢失。

  • 特点

    • 速度快:RAM 的访问速度比 ROM 快,但比缓存慢。

    • 容量大:RAM 的容量通常为几 GB 到几百 GB。

    • 随机访问:可以随机访问任意地址的数据,访问时间与数据位置无关。

  • 类型

    • DRAM(Dynamic RAM,动态随机存取存储器)

      • 需要定期刷新以保持数据,速度较慢但成本低,常用于主内存。

    • SRAM(Static RAM,静态随机存取存储器)

      • 不需要刷新,速度快但成本高,通常用于缓存。

  • 作用

    • RAM 用于存储操作系统、应用程序和用户数据,是计算机运行时的主要工作区域。


3. ROM(Read-Only Memory,只读存储器)

  • 定义

    • ROM 是一种非易失性存储器,用于存储固件或永久性数据。

    • 数据在出厂时写入,通常不能修改或只能通过特殊方式修改。

  • 特点

    • 非易失性:断电后数据不会丢失。

    • 只读性:数据通常只能读取,不能随意写入。

    • 速度较慢:ROM 的访问速度比 RAM 慢。

  • 类型

    • PROM(Programmable ROM,可编程只读存储器)

      • 出厂后可以通过特殊设备写入数据,但只能写入一次。

    • EPROM(Erasable Programmable ROM,可擦除可编程只读存储器)

      • 可以通过紫外线擦除并重新写入数据。

    • EEPROM(Electrically Erasable Programmable ROM,电可擦除可编程只读存储器)

      • 可以通过电信号擦除并重新写入数据。

    • Flash Memory(闪存)

      • 一种特殊的 EEPROM,广泛应用于 U 盘、SSD 和嵌入式系统中。

  • 作用

    • ROM 用于存储固件(如 BIOS、UEFI)和嵌入式系统的程序代码。


4. 其他常见的内存类型

(1)虚拟内存(Virtual Memory)
  • 定义

    • 虚拟内存是一种内存管理技术,通过将部分数据存储到磁盘(如硬盘或 SSD)来扩展可用内存。

  • 作用

    • 当物理内存(RAM)不足时,操作系统会将不常用的数据转移到磁盘,腾出空间给当前运行的程序。

    • 虚拟内存使得程序可以使用比物理内存更大的地址空间。

(2)显存(Video RAM,VRAM)
  • 定义

    • 显存是显卡上的专用内存,用于存储图形数据(如纹理、帧缓冲区)。

  • 特点

    • 显存通常比主内存更快,专为图形处理优化。

    • 常见的显存类型包括 GDDR(Graphics Double Data Rate)和 HBM(High Bandwidth Memory)。

  • 作用

    • 显存用于加速图形渲染和显示输出,是游戏和图形设计等应用的关键。

(3)寄存器(Register)
  • 定义

    • 寄存器是 CPU 内部的高速存储器,用于存储指令、地址和临时数据。

  • 特点

    • 速度最快,容量最小(通常为几十到几百字节)。

    • 寄存器直接参与 CPU 的运算和控制。

  • 作用

    • 寄存器用于存储 CPU 当前正在处理的数据和指令,是 CPU 运行的核心部分。

(4)非易失性存储器(Non-Volatile Memory,NVM)
  • 定义

    • 非易失性存储器是一种断电后数据不会丢失的存储器。

  • 类型

    • NAND Flash:用于 SSD、U 盘和存储卡。

    • NOR Flash:用于嵌入式系统和固件存储。

    • 3D XPoint:一种新型非易失性存储器,速度接近 DRAM,用于高性能存储设备(如 Intel 的 Optane)。

  • 作用

    • 非易失性存储器用于长期存储数据和程序。


5. 内存的层级结构

计算机系统中的内存通常按速度和容量分为多个层级,从快到慢依次为:

  1. 寄存器:速度最快,容量最小。

  2. 缓存(L1、L2、L3):速度较快,容量较小。

  3. 主内存(RAM):速度较慢,容量较大。

  4. 虚拟内存(磁盘):速度最慢,容量最大。

这种层级结构通过将频繁访问的数据存储在速度更快的存储器中,优化了系统的整体性能。


总结

  • 缓存:高速存储器,用于加速 CPU 对数据的访问。

  • RAM:主内存,用于临时存储运行中的程序和数据。

  • ROM:只读存储器,用于存储固件和永久性数据。

  • 其他内存:包括虚拟内存、显存、寄存器和非易失性存储器等,各自在系统中扮演不同的角色。

这些内存类型共同协作,构成了计算机系统的存储层次结构,确保了系统的高效运行。

NUMA架构和sched_domain的关系

NUMA(Non-Uniform Memory Access)架构和 sched_domain 是操作系统调度和内存管理中的核心概念,尤其在多核系统中,它们的关系非常紧密。以下将详细介绍它们的关系,并结合代码和适用场景进行说明。


1. NUMA 架构简介

NUMA 是一种多处理器系统的内存设计架构,其特点是:

  • 非均匀内存访问:每个处理器(或处理器组)有自己的本地内存,访问本地内存速度快,访问其他处理器的内存(远程内存)速度慢。

  • 节点(Node):NUMA 系统将处理器和内存划分为多个节点,每个节点包含一组 CPU 和本地内存。

  • 性能优化:通过减少远程内存访问,提升系统性能。


2. sched_domain 简介

sched_domain 是 Linux 内核调度器中的一个数据结构,用于描述 CPU 的调度层次结构。调度域将 CPU 分组,每个组内的 CPU 共享某些特性(如缓存、NUMA 节点等),调度器根据这些特性优化任务调度和负载均衡。

  • 层次结构:调度域可以分层,例如:

    • 核心级:同一物理核心的 CPU。

    • 套接字号:同一 CPU 插槽的 CPU。

    • NUMA 节点级:同一 NUMA 节点的 CPU。

  • 负载均衡:调度器会在同一调度域内的 CPU 之间进行负载均衡,避免某些 CPU 过载。


3. NUMA 和 sched_domain 的关系

在 NUMA 系统中,sched_domain 的层次结构与 NUMA 节点紧密相关。调度器会根据 NUMA 节点的特性优化任务调度和负载均衡,具体关系如下:

3.1 NUMA 节点作为调度域

  • 每个 NUMA 节点可以作为一个调度域。

  • 调度器会优先在同一 NUMA 节点内的 CPU 之间进行负载均衡,以减少远程内存访问的开销。

3.2 任务绑定

  • 调度器会尽量将任务绑定到同一 NUMA 节点的 CPU 上,以利用本地内存的优势。

  • 如果任务需要访问大量内存,调度器会优先将其分配到内存所在的 NUMA 节点。

3.3 跨节点调度

  • 当本地节点负载过高时,调度器可能会将任务迁移到其他 NUMA 节点的 CPU 上。

  • 跨节点迁移会带来性能损失(远程内存访问),因此调度器会尽量避免频繁的跨节点迁移。


4. 代码分析

Linux 内核中,sched_domain 和 NUMA 的关系主要通过以下代码体现:

4.1 调度域初始化

在 Linux 内核中,调度域的初始化是通过 build_sched_domains() 函数完成的。该函数会根据系统的拓扑结构(包括 NUMA 节点)创建调度域。

// 内核源码:kernel/sched/core.c
static int build_sched_domains(const struct cpumask *cpu_map, struct sched_domain_attr *attr)
{
    // 遍历所有 CPU,构建调度域
    for_each_cpu(cpu, cpu_map) {
        // 根据 NUMA 节点创建调度域
        sd = build_sched_domain(topology_core_cpumask(cpu), attr, sd, cpu);
        if (!sd)
            goto error;
    }
    return 0;
error:
    return -ENOMEM;
}

4.2 NUMA 节点与调度域绑定

在调度域的构建过程中,内核会通过 topology.c 中的函数获取 NUMA 节点的信息,并将其与调度域绑定。

// 内核源码:arch/x86/kernel/smpboot.c
static void __init init_sched_domains(void)
{
    // 获取 NUMA 节点信息
    for_each_online_node(node) {
        // 为每个 NUMA 节点创建调度域
        sd = build_sched_domain(node_to_cpumask(node), NULL, NULL, 0);
        if (!sd)
            panic("Failed to build sched domains for node %d", node);
    }
}

4.3 负载均衡与 NUMA

在负载均衡过程中,调度器会优先选择同一 NUMA 节点内的 CPU。

// 内核源码:kernel/sched/fair.c
static int load_balance(int this_cpu, struct rq *this_rq, struct sched_domain *sd, enum cpu_idle_type idle)
{
    // 检查 NUMA 节点
    if (sd->flags & SD_NUMA) {
        // 优先选择同一 NUMA 节点内的 CPU
        group = find_busiest_group(sd, this_cpu, &imbalance, &sd_idle);
    }
    // 执行负载均衡
    return __load_balance(this_cpu, this_rq, sd, idle, &imbalance);
}

5. 适用场景

5.1 高性能计算(HPC)

  • 场景:在 HPC 应用中,任务需要频繁访问内存。

  • 优化:通过将任务绑定到同一 NUMA 节点的 CPU 上,减少远程内存访问,提升性能。

5.2 虚拟化环境

  • 场景:在虚拟机(VM)中运行内存密集型应用。

  • 优化:将虚拟机的 vCPU 绑定到同一 NUMA 节点,避免跨节点内存访问。

5.3 数据库服务器

  • 场景:数据库服务器需要高效处理大量数据。

  • 优化:通过 NUMA 感知的调度策略,将数据库进程绑定到本地内存节点,减少延迟。


6. 总结

NUMA 架构和 sched_domain 的关系主要体现在调度器如何利用 NUMA 节点的特性来优化任务调度和负载均衡。通过将 NUMA 节点作为调度域的一部分,调度器可以更好地管理多核系统中的资源,提升整体性能。在实际应用中,合理配置调度域和 NUMA 绑定可以显著提升内存密集型应用的性能。


http://www.kler.cn/a/573183.html

相关文章:

  • 50.xilinx fir滤波器系数重加载如何控制
  • K8S学习之基础十三:k8s中ReplicaSet的用法
  • 【单片机】嵌入式系统的硬件与软件特性
  • ios使用swift调用deepseek或SiliconFlow接口
  • 网络编程——UDP
  • Java 8 新特性
  • PCA(主成分分析)核心原理
  • Git 2.48.1 官方安装与配置全流程指南(Windows平台)
  • Libgdx游戏开发系列教程(6)——游戏暂停
  • 人工智能直通车系列02【Python 基础与数学基础】(控制流线性代数:向量基本概念)
  • 基于SpringBoot的在线骑行网站的设计与实现(源码+SQL脚本+LW+部署讲解等)
  • SpringMvc与Struts2
  • Switch开关的防抖监听器
  • libcoap在Ubuntu下的编译(基于CMake)
  • Kafka、RabbitMQ、RocketMQ的区别
  • vscode user settings.json分享
  • 数据守护:备份文件的重要性及自动化实践
  • Linux磁盘情况查询
  • Linux下的shell指令(一)
  • Linux基础IO