当前位置：首页 > article >正文

【Linux】进程地址空间(初步了解)

article 2024/10/6 5:49:54

文章目录

1. 奇怪的现象
2. 虚拟地址空间
3. 关于页表
4. 为什么要有虚拟地址

1. 奇怪的现象

我们先看一个现象：
在这里插入图片描述
为什么父子进程从“同一块地址中”读取到的值不一样呢？

因为这个地址不是物理内存的地址，如果是物理内存的地址是绝对不可能出现该现象的！

在Linux地址下，这种地址叫做虚拟地址（线性地址）。
我们在用C/C++语言所看到的地址，全部都是虚拟地址！物理地址，用户一概看不到，由OS统一管理。

相信大家在未学习Linux之前一定看过下图中C/C++中程序内存区间划分图，但是它根本不是一个程序的内存布局，它应该叫做进程地址空间布局，它不属于语言的范畴，属于系统范畴。
在这里插入图片描述

2. 虚拟地址空间

对操作系统而言，物理空间是有限的，为了避免进程之间“不合理的”使用，OS会给每个进程都画一张进程地址空间布局的“大饼”，它让每个进程都自以为自己可以使用大小为空间布局中所示的空间（上图右图所示），在进程申请空间的时候，OS再确定空间是否足够，是否分配给进程。

OS对于所画的“饼”也要进行管理，这个“饼”就是进程虚拟地址空间，本质上是一种内核数据结构的对象(mm_struct)（类似于PCB）。

所以当我们创建一个进程的时候，会有一个task_struct对应的数据结构，为了不让该进程直接访问物理内存，因此在二者之间，OS设计了一种数据结构mm_struct(当前进程的地址空间，即饼)。每个进程都随时随地携带被画的“饼”，每次它访问物理内存时，都要通过饼进行访问。
在这里插入图片描述

对于虚拟地址空间中的划分，是如何做的呢？

因为虚拟地址空间对应的是一个数据结构，所以就可以在其内部设置各个区域的开始和结束位置即可，下图为Linux内核源代码

尽管有了虚拟地址空间区域划分后，但是进程的代码和数据也是需要占据物理内存的，每一个数据都要占据物理地址，那如何从划分的区域找出对应的物理地址呢？

在操作系统内部，会构建一个叫做页表的东西。
在这里插入图片描述

所以，一个进程所能看到的所有的地址，全部都会经过页表的映射，映射到特定的物理内存中；然后让用户使用虚拟地址，去访问对应的物理地址。
在这里插入图片描述

所以，虚拟地址空间+页表 = 虚拟内存的管理方案

在创建子进程时，子进程会以父进程为模板，构建自己的PCB、虚拟地址空间、页表。所以父子进程指向同样的物理内存。
在这里插入图片描述

在父子不修改指向的同一块地址时，数据其实是共享的。
在一个进程修改数据时，由于进程具有独立性，会先发生写时拷贝，页表中虚拟地址的内容不变，只对要修改的数据重新申请一个新的物理地址，同时修改页表中物理地址的内容即可。
在这里插入图片描述
这也就能解释最开始时我们所看到的奇怪现象了。仅仅是它们的虚拟地址相同，物理地址不同罢了

所以我们可以更新一下进程的定义了，进程 = 内核数据结构（task_struct、mm_struct、页表）+ 自己的代码和数据。

所以为什么进程具有独立性呢？

因为它们的PCB、虚拟地址空间、页表都是各自一份；对于代码和数据采用写时拷贝的机制各自私有一份。
由于它的内核数据结构各自一份，代码和数据也是独立的，所以进程也就是独立的。

因此，进程与虚拟地址空间mm_struct是强绑定的。那么虚拟地址空间中的已初始化、未初始化、字符常量区也就会随着进程一直存在，直到进程结束，虚拟地址空间被释放。

那么全局变量的虚拟地址也就一直被大家看到，所以我们所定义的全局变量具有全局性。

3. 关于页表

页表中除了虚拟地址和物理地址的映射以外，还有很多的标记位，例如：

权限标记位rwx

用于标记当前虚拟地址所映射的物理地址是否具有rwx权限。

当具有w权限时，你就可以对物理地址上的内容进行写入；
当没有w权限，如果对物理地址进行写入，操作系统就可能将进程杀掉。
- 对常量字符串进行修改，程序崩掉就是该原因。char *str = “hello”; *str = ‘C’；
- 运行崩溃，编译不报错，因为这是操作系统运行时才能发现的问题。所以编译器为了检查该类问题，引入了const关键字

isexists

用于标记虚拟地址所对应的物理地址是否在内存中存在（目标数据是否在内存中）。为什么存在这个标记位呢？

当磁盘中的代码量过大，超出内存的大小，无法一次性全部加载到内存中；而且代码中已经跑过的代码没有必要继续在存放在内存中，所以代码不是一下子全部加载到内存中，而是分批加载到内存中。
那么该标记位的作用就是：目标数据是否加载到内存中，通过该标记位就可以知道。
- 如果已经加载到内存中了，直接按照虚拟与物理的映射进行访问；
- 如果未加载到内存中，操作系统会帮我们加载。
有了该标记位，就可以支持分批加载、挂起等操作。

4. 为什么要有虚拟地址

虚拟地址空间+页表，可保护内存

检查所访问的地址是否正确。
- 例如野指针，野指针对应的虚拟地址在页表中根本不存在，也就没有映射关系或者映射关系权限不对，操作系统直接拦住，不允许你访问物理内存。
虚拟地址允许操作系统实施更精细的权限控制，通过设置不同的虚拟地址空间，操作系统可以控制哪些部分是只读、可写、可执行的，进一步提高了系统的安全性。

进程管理与内存管理解耦合

进程管理
- 虚拟地址为每个进程提供了一个独立的地址空间，使得每个进程都认为它是在独占的内存空间中运行，这个空间在逻辑上是连续的，但实际上是由操作系统进行分段和分页管理的。
- 进程管理模块只需要关注进程的创建、调度和终止等操作，而无需关心物理内存的实际布局和大小，而是通过一个统一的虚拟地址来访问内存。
内存管理
- 内存管理模块则负责内存资源的分配、回收和优化等操作，可以根据系统的实际内存情况和需求进行独立管理。

简而言之，进程要被创建，和内存没关系。进程只需要将PCB、地址空间、页表构建好，进程中申请的各种空间，全部在虚拟地址中设置完毕，来骗过进程，等进程后续真正使用的时候，物理内存才真正被申请，以提高物理内存的使用率，虚拟和物理地址二者具有滞后性，各自独立。