当前位置：首页 > article >正文

深入理解计算机系统，源码到可执行文件翻译过程：预处理、编译，汇编和链接

article 2024/12/5 3:50:49

1.前言

从一个高级语言到可执行程序，要经过预处理、编译，汇编和链接四个过程。大家可以思考下，为什么要有这样的过程？
在这里插入图片描述

我们学习计算机之处，就应该了解到，计算机能够识别的只有二进制语言（这是本身硬件特点决定的）。计算机刚诞生时，程序员写的就是二进制语言（机器语言），也就是0101的代码串。但机器语言的缺点也是非常明显的（和人类自然语言相差过大，难以理解，难以编写，难以维护）。

后来就发展出易于理解和编写的汇编语言，汇编语言是使用使用助记符和符号来代替机器码中的复杂二进制指令，提高了程序的可读性和可维护性，也降低了编写程序时的复杂程度。但汇编语言依然有其面临的问题，它依赖于硬件（不同CPU指令集不同，寄存器结构也不同），难以跨平台使用。比如如何把0101的机器码翻译成指令，这就与指令集有关。计算机组成原理这门课会将如何设计一个指令系统，感兴趣的请大家自行查阅资料。

基于汇编语言的一些问题，进一步诞生了高级语言，高级语言的特点是可读性更好，移植性也更好，更利于编写和维护。当然，其缺点就是高级语言无法并计算机直接执行，必须翻译成机器码后，才能被计算机执行。基于程序在执行之初，是否就要全部翻译，有编译型语言和解释型语言之分。自然，如python这样的解释型语言，代码是边解释成机器语言边执行，那么其效率自然低一些。与此相对，编译型语言因为在执行之初，就一次性把高级语言代码翻译成了计算机可以识别的机器码。那么其在执行时，花费的时间相对于解释型语言就少（相同的硬件环境下）。

2.翻译过程

言归正传，我们继续讲高级语言翻译成机器码的过程。前面已经提到从高级语言到机器码要经过四步。下面，我们对每一步做详细讲解。
在这里插入图片描述

1.预处理：

预处理之后，代码仍然是高级语言。预处理做了哪些东西呢？头文件展开（这个过程中会检查头文件循环依赖）
宏替换（宏的本质是文本替换，所以这也是大家看到为什么一些程序员会把定义的宏值用括号给括上）
条件宏（根据预先设定的条件，决定后续编译哪些代码）版本宏（和条件宏本质一样，只不过常用于隔离不同版本的代码）

……
2.编译过程：.i -> .s

编译过程就是把高级语言程序翻译成汇编语言。 .s文件里面就是汇编指令。这个编译是要经过词法分析和语法分析，具体请看编译原理相关书籍。
编译器会把每个源文件都编译生成对应的.s文件，也会生成相应的符号表，存储在.s文件中。比如，一个函数修饰成inline了，并且编译器也根据用户建议把该函数给内联了，那么在符号表中是找不到该函数名的。内联的本质不是函数调用，而是把对应的代码嵌入到程序中，是函数展开。

3.汇编过程：.s->.o