当前位置：首页 > article >正文

【linux学习指南】线程概念与控制

article 2025/2/4 12:57:35

请添加图片描述

文章目录

📝线程概念与控制
🌠 分⻚式存储管理
- 🌉虚拟地址和⻚表的由来
🌠物理内存管理
- 🌉⻚表
- 🌉⻚⽬录结构
🌠 两级⻚表的地址转换
- 🌉缺⻚异常
🌠 线程的优点
- 🌉线程的缺点
- 🌉 线程异常
- 🌉 线程⽤途
🚩总结

📝线程概念与控制

在⼀个程序⾥的⼀个执⾏路线就叫做线程（thread）。更准确的定义是：线程是“⼀个进程内部的控制序列
一切进程⾄少都有⼀个执⾏线程
线程在进程内部运⾏，本质是在进程地址空间内运⾏
在Linux系统中，在CPU眼中，看到的PCB都要⽐传统的进程更加轻量化
透过进程虚拟地址空间，可以看到进程的⼤部分资源，将进程资源合理分配给每个执⾏流，就形成了线程执⾏流

在这里插入图片描述

🌠 分⻚式存储管理

🌉虚拟地址和⻚表的由来

思考⼀下，如果在没有虚拟内存和分⻚机制的情况下，每⼀个⽤⼾程序在物理内存上所对应的空间必
须是连续的，如下图：
在这里插入图片描述
因为每⼀个程序的代码、数据⻓度都是不⼀样的，按照这样的映射⽅式，物理内存将会被分割成各种离散的、⼤⼩不同的块。经过⼀段运⾏时间之后，有些程序会退出，那么它们占据的物理内存空间可以被回收，导致这些物理内存都是以很多碎⽚的形式存在。

怎么办呢？我们希望操作系统提供给⽤⼾的空间必须是连续的，但是物理内存最好不要连续。此时虚
拟内存和分⻚便出现了，如下图所⽰：
在这里插入图片描述
把物理内存按照一个固定的长度的页框进行分割，有时叫做物理页。每个页框包含一个物理页(page)。一个页的大小等于页框的大小。大多数32位体系结构支持4KB的页，而64位体系结构一般会支持8KB的页。区分一页和一个页框是很重要的:

⻚框是⼀个存储区域；
⽽⻚是⼀个数据块，可以存放在任何⻚框或磁盘中。

有了这种机制，CPU便并⾮是直接访问物理内存地址，⽽是通过虚拟地址空间来间接的访问物理内存地址。所谓的虚拟地址空间，是操作系统为每⼀个正在执⾏的进程分配的⼀个逻辑地址，在32位机上，其范围从0~4G-1。

操作系统通过将虚拟地址空间和物理内存地址之间建⽴映射关系，也就是⻚表，这张表上记录了每⼀对⻚和⻚框的映射关系，能让CPU间接的访问物理内存地址。

总结⼀下，其思想是将虚拟内存下的逻辑地址空间分为若⼲⻚，将物理内存空间分为若⼲⻚框，通过⻚表便能把连续的虚拟内存，映射到若⼲个不连续的物理内存⻚。这样就解决了使⽤连续的物理内存造成的碎⽚问题。

🌠物理内存管理

🌉⻚表

假设一个可用的物理内存有4GB的空间。按照一个页框的大小4KB进行划分4GB的空间就是4GB/4KB = 1048576个页框。有这么多的物理页，操作系统肯定是要将其管理起来的，操作系统需要知道些页正在被使用，哪些页空闲等等。

内核用struct page 结构表示系统中的每个物理页，出于节省内存的考虑，struct page中用了大量的联合体union,要注意的是struct page 与物理页相关，而并非与虚拟页相关。而系统中的每个物理页都要分配一个这样的结构体，让我们来算算对所有这些页都这么做，到底要消耗掉多少内存。

算struct page占40个字节的内存吧，假定系统的物理页为4KB 大小，系统有4GB物理内存。那么系统中共有页面1048576个(1兆个)，所以描述这么多页面的page结构体消耗的内存只不过40MB，相对系统4GB 内存而言，仅是很小的一部分罢了。因此，要管理系统中这么多物理页面，这个代价并不算太大。

要知道的是，页的大小对于内存利用和系统开销来说非常重要，页太大，页页必然会剩余较大不能利用的空间(页内碎片）。页太小，虽然可以减小页内碎片的大小，但是页太多，会使得页表太长而占用内存，同时系统频繁地进行页转化，加重系统开销。因此，页的大小应该适中，通常为512B -8KB , windows系统的页框大小为4KB。

在这里插入图片描述

虚拟内存看上去被虚线“分割”成⼀个个单元，其实并不是真的分割，虚拟内存仍然是连续的。这个虚线的单元仅仅表⽰它与⻚表中每⼀个表项的映射关系，并最终映射到相同⼤⼩的⼀个物理内存⻚上。

⻚表中的物理地址，与物理内存之间，是随机的映射关系，哪⾥可⽤就指向哪⾥(物理⻚)。**虽然最终使⽤的物理内存是离散的，但是与虚拟内存对应的线性地址是连续的。**处理器在访问数据、获取指令时，使⽤的都是线性地址，只要它是连续的就可以了，最终都能够通过⻚表找到实际的物理地址。

在32位系统中，地址的长度是4个字节，那么页表中的每一个表项就是占用4个字节。所以页表占据的总空间大小就是:1048576*4 = 4MB的大小。也就是说映射表自己本身，就要占用4MB /4KB = 1024个物理页。这会存在哪些问题呢?

回想⼀下，当初为什么使⽤⻚表，就是要将进程划分为⼀个个⻚可以不⽤连续的存放在物理内存中，但是此时⻚表就需要1024个连续的⻚框，似乎和当时的⽬标有点背道⽽驰了…

此外，根据局部性原理可知，很多时候进程在一段时间内只需要访问某几个页就可以正常运行了。因此也没有必要一次让所有的物理页都常驻内存。

解决需要⼤容量⻚表的最好⽅法是：把⻚表看成普通的⽂件，对它进⾏离散分配，即对⻚表再分⻚，由此形成多级⻚表的思想。

为了解决这个问题，可以把这个单一页表拆分成1024个体积更小的映射表。如下图所示。这样来，1024(每个表中的表项个数)*1024(表的个数)，仍然可以覆盖4GB的物理内存空间。

在这里插入图片描述
这里的每一个表，就是真正的页表，所以一共有1024个页表。一个页表自身占用4KB，那么1024个页表一共就占用了4MB的物理内存空间，和之前没差别啊?

从总数上看是这样，但是一个应用程序是不可能完全使用全部的4GB空间的，也许只要几十个页表就可以了。例如:一个用户程序的代码段、数据段、栈段，一共就需要[10 MB的空间，那么使用 3个页表就足够了。

计算过程：
每⼀个⻚表项指向⼀个4KB的物理⻚，那么⼀个⻚表中1024个⻚表项，⼀共能覆盖4MB的物理内
存;
那么10MB的程序，向上对⻬取整之后(4MB的倍数，就是12MB)，就需要3个⻚表就可以了。

🌉⻚⽬录结构

到目前为止，每一个页框都被一个页表中的一个表项来指向了，那么这1024个页表也需要被管理起来。管理页表的表称之为页目录表，形成二级页表。如下图所示:
在这里插入图片描述

所有⻚表的物理地址被⻚⽬录表项指向
页目录的物理地址被(CR3寄存器)指向，这个寄存器中，保存了当前正在执行任务的页目录地址。

🌠 两级⻚表的地址转换

下面以一个逻辑地址为例。将逻辑地址（0000000000,0000000001,11111111111）转换为物理地址的过程:

在32位处理器中，采⽤4KB的⻚⼤⼩，则虚拟地址中低12位为⻚偏移，剩下⾼20位给⻚表，分成两级，每个级别占10个bit（10+10）。
CR3寄存器读取页目录起始地址，再根据一级页号查页目录表，找到下一级页表在物理内存中存放位置。
根据⼆级⻚号查表，找到最终想要访问的内存块号。
结合⻚内偏移量得到物理地址

在这里插入图片描述

注:一个物理页的地址一定是4KB|对齐的(最后的|12位全部为0 )，所以其实只需要记录物理
页地址的高20位即可。
以上其实就是MMU的⼯作流程。MMU(MemoryManageUnit)是⼀种硬件电路，其速度很快，
主要⼯作是进⾏内存管理，地址转换只是它承接的业务之⼀。

到这⾥其实还有个问题，MMU要先进⾏两次⻚表查询确定物理地址，在确认了权限等问题后，MMU再将这个物理地址发送到总线，内存收到之后开始读取对应地址的数据并返回。那么当⻚表变为N级时，就变成了N次检索+1次读写。可⻅，⻚表级数越多查询的步骤越多，对于CPU来说等待时间越⻓，效率越低。

让我们现在总结⼀下：单级⻚表对连续内存要求⾼，于是引⼊了多级⻚表，但是多级⻚表也是⼀把双刃剑，在减少连续存储要求且减少存储空间的同时降低了查询效率。

有没有提升效率的办法呢?计算机科学中的所有问题，都可以通过添加一个中间层来解决MMU引入了新武器，江湖人称快表的TLB(其实，就是缓存)

当CPU 给(MMU传新虚拟地址之后，MMU先去问TLB那边有没有，如果有就直接拿到物理地址发到总线给内存，齐活。但(TLB)容量比较小，难免发生Cache Miss，这时候(MMU还有保底的老武器页表，在页表中找到之后(MMu除了把地址发到总线传给内存，还把这条映射关系给到TLB，让它记录一下刷新缓存。
在这里插入图片描述

🌉缺⻚异常

设想，CPU给MMU的虚拟地址，在(TLB和页表都没有找到对应的物理页，该怎么办呢?
其实这就是缺页异常Page Fault，它是一个由硬件中断触发的可以由软件逻辑纠正的错误。

假如目标内存页在物理内存中没有对应的物理页或者存在但无对应权限，CPU就无法获取数据，这种情况下CPU就会报告一个缺页错误。

由于CPU没有数据就无法进行计算，CPU罢工了用户进程也就出现了缺页中断，进程会从用户态切换到内核态，并将缺页中断交给内核的Page Fault Handler处理。
在这里插入图片描述
缺页中断会交给PageFaultHandler处理，其根据缺页中断的不同类型会进行不同的处理:

Hard Page Fault也被称为Major Page Fault，翻译为硬缺页错误/主要缺页错误，这时物理内存中没有对应的物理页，需要CPU打开磁盘设备读取到物理内存中，再让MMU建立虚拟地址和物理地址的映射。
Soft Page Fault也被称为Minor Page Fault，翻译为软缺页错误/次要缺页错误，这时物理内存中是存在对应物理页的，只不过可能是其他进程调入的，发出缺页异常的进程不知道而已，此时MMU只需要建立映射即可，无需从磁盘读取写入内存，一般出现在多进程共享内存区域。
Invalid Page Fault翻译为无效缺页错误，比如进程访问的内存地址越界访问，又比如对空指针解引用内核就会报segment fault错误中断进程直接挂掉。

🌠 线程的优点

创建一个新线程的代价要比创建一个新进程小得多
与进程之间的切换相比，线程之间的切换需要操作系统做的工作要少很多。
最主要的区别是线程的切换虚拟内存空间依然是相同的，但是进程切换是不同的。这两种上下文切换的处理都是通过操作系统内核来完成的。内核的这种切换过程伴随的最显著的性能损耗是将寄存器中的内容切换出。
另外一个隐藏的损耗是上下文的切换会扰乱处理器的缓存机制。简单的说，一旦去切换上下文，处理器中所有已经缓存的内存地址一瞬间都作废了。还有一个显著的区别是当你改变虚拟内存空间的时候，处理的页表缓冲(TLB(快表）会被全部刷新，这将导致内存的访问在一段时间内相当的低效。但是在线程的切换中，不会出现这个问题，当然还有硬件cache.
线程占用的资源要比进程少很
能充分利用多处理器的可并行数量
在等待慢速I/O操作结束的同时，程序可执行其他的计算任务
计算密集型应用，为了能在多处理器系统上运行，将计算分解到多个线程中实现I/0密集型应用，为了提高性能，将I/O操作重叠。线程可以同时等待不同的I/O操作。

🌉线程的缺点

性能损失。

一个很少被外部事件阻塞的计算密集型线程往往无法与其它线程共享同一个处理器。如果计算密集型线程的数量比可用的处理器多，那么可能会有较大的性能损失，这里的性能损失指的是增加了额外的同步和调度开销，而可用的资源不变。
健壮性降低
编写多线程需要更全面更深入的考虑，在一个多线程程序里，因时间分配上的细微偏差或者因共享了不该共享的变量而造成不良影响的可能性是很大的，换句话说线程之间是缺乏保护的。
缺乏访问控制
进程是访问控制的基本粒度，在一个线程中调用某些OS函数会对整个进程造成影响。编程难度提高
编程难度提高
编写与调试一个多线程程序比单线程程序困难得多