deeply c-函数栈帧(函数栈帧的过程)
接下来这一篇内容我们来说一说函数栈帧的开辟和销毁的一个大体过程.
目录
- 1. 测试代码
- 2. 寄存器简单了解
- 3. 基本的汇编命令
- 4. C代码从编译到运行的大体过程?
- 5. C程序地址空间分布图
- 6. 代码转汇编, 分析每一步.
- 6.1 开始: main()函数被谁调用的???
- 6.2 汇编这么多, 我们从哪开始看???
- 6.3 生成x和y变量
- 6.4 函数调用前的形参实例化
- 6.5 函数调用前的栈帧开辟
- 6.6 执行`int c = a + b;`
- 6.7 栈帧销毁
- 7. 总结
想要了解一个函数栈帧的开辟, 我们需要用一个简单的测试代码去看汇编代码去分析一下他每一步到底做了什么.
在这其中往往涉及到C内存空间分布, 指针/地址, 编译过程, 以及一点点汇编知识, 但是不用担心, 我们会在下面遇到啥就对相关知识点提及一下, 因为虽然涉及到很多知识点, 但是我们用到的涉及到的都是比较简单和基础的内容.
首先, 我先写下了下面的C语言代码, 来方便我们进行测试:
1. 测试代码
/*
* 函数栈帧的研究.
*/
#include <stdio.h>
#include <windows.h>
int MyAdd(int a, int b)
{
int c = a + b;
return c;
}
int main()
{
int x = 0xA;
int y = 0xB;
int z = MyAdd(x, y);
printf("z = %x\n", z);
return 0;
}
因为我们去讲解这个函数栈帧会涉及到一点寄存器硬件方面的知识, 这里简单提及一下: 我们CPU中有寄存器, 是方便数据计算和临时存储的. 常用的有下面寄存器:
2. 寄存器简单了解
eax
:通用寄存器,保留临时数据,常用于返回值
ebx
:通用寄存器,保留临时数据
ebp
:栈底寄存器(用于指向栈底)
esp
:栈顶寄存器(用于指向栈顶)
eip
:指令寄存器,保存当前指令的下一条指令的地址
说完了基本的一些寄存器了解, 我们还得去补充一下基本的汇编命令, 只需要了解即可, 非常简单, 即使你看完下面内容看不懂汇编具体意思也没事, 我们这里不求甚解即可.
3. 基本的汇编命令
mov
:数据转移指令
push
:数据入栈,同时esp栈顶寄存器也要发生改变 说白了这个命令会让计算机做两个动作:
- 数据入栈
- 更新esp的指向)
pop
:数据弹出至指定位置,同时esp栈顶寄存器也要发生改变
- 数据出栈
- 更新esp的指向
sub
:减法命令
add
:加法命令
call
:函数调用,会有两个动作
- 压入返回地址
- 转入目标函数
jump
:通过修改eip,转入目标函数,进行调用
ret
:恢复返回地址,压入eip,类似pop eip命令
4. C代码从编译到运行的大体过程?
我们知道, 我们写的C语言代码都是属于一些文本内容而已, 对于计算机而言, 直接让他去指向相关的C代码, 他表示看不懂, 因此必须先让编译器把C代码编译成汇编语句, 再把汇编语句编译为二进制, 形成二进制文件.
形成对应的二进制文件之后, 计算机表示他看的懂了, 但是想要高效的执行这个文件, 就需要把这个文件的内容读到内存中, 然后CPU进行执行.
5. C程序地址空间分布图
继续上面内容, 我们说C代码被编译为了二进制版本之后, 又加载到内存了, 计算机才可以直接去进行执行相关的代码. 那这个对应的程序在内存中大概是个什么样子呢?
即: 下面是两幅图实际上是一个图, 只是画法不一样而已.
将来我们的二进制代码就会被保存在代码区, 而相关的临时变量就会在栈区去开辟, 而对于全局的一些数据, 就会放在全局数据区, 字符串这种不可修改的东西就会放在字符常量区里…
6. 代码转汇编, 分析每一步.
问: 在VS2022编译器中, 如何查看反汇编呢???
答: 按F11
, 把代码调试起来, 然后随便点一行代码右键, 选择转到反汇编即可查看对应的汇编代码了.
6.1 开始: main()函数被谁调用的???
我们C中常说, 函数一定要被调用才可以执行, main函数也是函数, 当然也需要被调用. 这个main函数是谁调用的呢???
实际上, VS2022这个编译器里, 有个叫做"调用堆栈"的窗口的可以进行观察:
注意, 在调试起来的前提下, (按F11进行调试)
我们可以看到, 是一个叫做:invoke_main(void)
的函数调用了main
函数, 而invoke_main(void)
是由上一层函数调用的, 到最后是一个叫做kernel32
对上一层进行调用的, 也就是说到最后是操作系统内核32
一个函数去调用的.
结论: main()
由操作系统内核调用的!
6.2 汇编这么多, 我们从哪开始看???
我们就从main()
的第一行代码解释开始看起来, 之前的汇编代码已经做好了main函数栈帧的开辟和初始化工作.
接下来, 我们将一边画图, 一边看汇编代码并作对应的解读.
6.3 生成x和y变量
int x = 0xA;
001F1905 mov dword ptr [ebp-8],0Ah
int y = 0xB;
001F190C mov dword ptr [ebp-14h],0Bh
红色区域内的汇编啥意思呢?
就是把0A
这个值, 复制到ebp-8
这个地址处.
然后再把0B
这个值, 复制到ebp-14
这个地址处.
请注意, ebp是一个寄存器, 这个寄存器里保存的是地址哦.
画出抽象图来是这样的:
至此呢, 变量int x
和变量int y
已经生成完毕了.
6.4 函数调用前的形参实例化
接下来, 我们继续看下面红色区域的汇编代码:
int z = MyAdd(x, y);
001F1913 mov eax,dword ptr [ebp-14h]
001F1916 push eax
001F1917 mov ecx,dword ptr [ebp-8]
001F191A push ecx
001F191B call 001F11FE
001F1920 add esp,8
001F1923 mov dword ptr [ebp-20h],eax
啥意思呢?
001F1913 mov eax,dword ptr [ebp-14h]
// 把[ebp-14]
这个地址处的值复制到eax
寄存器中.
001F1916 push eax
// 把eax
这个寄存器的值, 压入栈中, 并更新esp栈顶的指向
001F1917 mov ecx,dword ptr [ebp-8]
// 把[ebp-8]
这个地址处的值复制到ecx寄存器中.
001F191A push ecx
// 把ecx
这个寄存器的值, 压入栈中, 并更新esp栈顶的指向
001F191B call 001F11FE
// 把cal
命令的下一行汇编地址压入栈中, 并跳转到001F11FE
这个地址处, 然后开始>执行这个地址处的汇编.
那么到这里呢, 就开始指向另一个函数了. 这一顿操作主要是在干嘛呢?
结论: 在执行下一个函数前, 先实例化形参, 而且是从右向左的顺序实例化
6.5 函数调用前的栈帧开辟
我们因为上面的cal
命令肯定来到了001F11FE
地址处, 因此我们的EIP = 001F11FE
, 因为EIP就是记录下一条要执行命令的地址的寄存器.
我们下一步就来到了MyAdd()
函数处, 即:
这些红色区域在干啥呢??? 这是准备构建MyAdd函数的栈帧.
001F17B0 push ebp
001F17B1 mov ebp,esp
001F17B3 sub esp,0CCh
001F17B9 push ebx
001F17BA push esi
001F17BB push edi
001F17BC lea edi,[ebp-0Ch]
001F17BF mov ecx,3
001F17C4 mov eax,0CCCCCCCCh
001F17C9 rep stos dword ptr es:[edi]
001F17CB mov ecx,1FC0AEh
001F17D0 call 001F1334
001F17B0 push ebp
// 把ebp里的值压入栈中.
001F17B1 mov ebp,esp
// 把esp
中的值, 复制到ebp
中.
001F17B3 sub esp,0CCh
// 把esp
中的值减去0CC
001F17B9 push ebx
// 把ebx中的值压入栈中.
001F17BA push esi
001F17BB push edi
// 把esi
和edi
中的值都压入栈中.
001F17BC lea edi,[ebp-0Ch]
// 把[dbp-0C]
这个值, 一定要看清楚是这个值, 而不是这个地址保存的数据, 把这个值复制给edi
寄存器.
001F17BF mov ecx,3
// 把3
这个值复制到ecx
中.
001F17C4 mov eax,0CCCCCCCCh
// 把0CCCCCCCC
这个值给eax.
001F17C9 rep stos dword ptr es:[edi]
// 当执行到 001F17C9 处的 rep stos dword ptr es:[edi] 指令时,会发生以下操作:
程序会根据 ecx 寄存器中的计数值重复执行 stos dword ptr es:[edi] 操作。
每次执行 stos dword ptr es:[edi] 时,会将 eax 寄存器的值存储到 es:[edi] 所指向的内存地址中,并且 edi 寄存器的值会根据操作数的大小进行更新。
对于 dword 操作数(32 位),edi 会根据 DF(Direction Flag,方向标志)进行更新:
如果 DF = 0(默认方向),edi 的值会增加 4(因为是 32 位操作数)。
如果 DF = 1,edi 的值会减少 4。
(说白了就是初始化一段空间)
这个我们就不画图了~
结论: 上面整个过程一顿操作计算机无非就是去把新申请的一块空间维护起来, 然后初始化一下.
001F17CB mov ecx,1FC0AEh
// 把1FC0AEh
放到ecx中
001F17D0 call 001F1334
//把下一条汇编指令地址001F17D5
入栈, 然后调用001F1334
这里开始执行汇编.
结论: 到这里呢, 我们才正式把函数栈帧开辟完成, 并且准备开始执行相关代码.
6.6 执行int c = a + b;
int c = a + b;
001F17D5 mov eax,dword ptr [ebp+8]
001F17D8 add eax,dword ptr [ebp+0Ch]
001F17DB mov dword ptr [ebp-8],eax
// 把ebp+8
, 也就是我们的形参a复制到eax
中, 再把ebp+0C
也就是我们的形参b加到eax
中, 此时就是a+b
的结果, 然后把eax
这个值复制到ebp-8
这个位置处(也就是我们先前创建的c变量空间).
6.7 栈帧销毁
001F17DE mov eax,dword ptr [ebp-8]
// 把ebp-8
这个地址处的值给到eax中, 也就是把c的值给eax.
001F17E1 pop edi
001F17E2 pop esi
001F17E3 pop ebx
001F17E4 add esp,0CCh
001F17EA cmp ebp,esp
001F17EC call 001F1253
001F17F1 mov esp,ebp
001F17F3 pop ebp
001F17F4 ret
// 这是各种出栈和销毁栈帧…
结论: 至此, 一整个函数栈帧和销毁的逻辑完成.
我只能说超级麻烦, 这也是汇编不适合阅读的原因… 到了二进制代码就更不是人看的的了~
7. 总结
我们为了去分析栈帧的开辟和销毁过程, 我们铺垫了一点寄存器知识, 基本汇编命令以及C程序地址空间分布图.
然后我们一步一步去分析了代码每一步汇编过程, 直到回到原来位置, 非常麻烦…
不知你有收获吗???
EOF.