【记录】Angr|Angr 的 call_state 是怎么保证不同架构的函数的参数正常传递进去的?
文章目录
- 前言
- 结论:遵循调用约定传参
- call_state 函数 api 声明
- 基本说明
- 必需参数
- 可选参数
- 返回值
- 重要说明
- call_state 的函数传参方式
- 1. 函数参数传递概述
- 必需参数:
- 可选参数:
- 2. 如何传递参数
- 2.1 参数类型转换
- 2.2 寄存器和内存中的参数
- 2.3 自动处理无法放入寄存器的参数
- 3. 栈和内存分配
- 4. 调用约定(cc)
- 详细释义
- 5. 其他注意事项
- 总结
前言
我在学习 Angr,这里会记录一些琐碎的、在中文引擎里一搜没找到解法的问题。Angr 是一种符号执行工具。
我的学习内容:
up 主链接:https://www.bilibili.com/video/BV167411o7WK
Github 教程链接:https://github.com/jakespringer/angr_ctf
本博客是学习到 14_angr_shared_library 时产生的疑惑。
这个里面用到了一个api叫做call_state,它可以直接以调用函数的方式从某个地址开始调用。比如:state=project.factory.call_state(0x000006D7+0x400000,arg1,claripy.BVV(8, 32)),就是从0x000006D7+0x400000调用,然后传递参数arg1和claripy.BVV(8,32)这两个参数进去。
众所周知,不同架构的函数的函数传参方式是不同的,那 Angr 这样传进去真的准确吗?鉴于此,成文如下。
如果不是众所周知,那么请看Kimi的回答:
Q:不同架构的函数传参方式是一样的吗?
A:不同架构的计算机系统在函数传参方式上可能会有所不同,这主要取决于操作系统和编译器的实现。以下是一些常见的情况:
调用约定(Calling Convention):不同的编程语言和编译器可能有不同的调用约定,这规定了函数调用时参数是如何传递的。例如,C语言和C++语言在x86架构上通常使用
cdecl
调用约定,而在x64架构上则可能使用fastcall
或stdcall
。寄存器传递:在某些架构中,函数参数可能通过CPU寄存器传递,尤其是在参数数量较少时。这种方式可以减少内存访问,提高效率。
堆栈传递:当参数较多或寄存器不足以存储所有参数时,剩余的参数可能会通过堆栈传递。堆栈是一种内存结构,参数被压栈(push)到堆栈顶部,函数在执行时从堆栈中读取这些参数。
顺序和对齐:参数在寄存器和堆栈中的排列顺序和对齐方式也可能因架构而异。某些架构可能要求参数按照特定的顺序和对齐方式排列。
参数大小和类型:不同类型的参数(如整数、浮点数、指针等)在传递时的处理方式也可能不同。
架构特定的优化:某些架构可能对特定类型的参数或函数调用有优化措施,这会影响参数传递的方式。
总的来说,函数传参方式并不是完全统一的,它受到多种因素的影响,包括但不限于编程语言、编译器、操作系统、CPU架构等。开发者在进行跨平台开发时,需要考虑到这些差异,并可能需要使用特定的技术或工具来确保代码在不同平台上的兼容性。
Q:不同调用约定之间有什么差别?比如C语言和C++语言在x86架构上通常使用cdecl调用约定,而在x64架构上则可能使用fastcall或stdcall,在汇编层级的区别是什么?
A:在x86架构上,C语言和C++语言常用的调用约定主要有__cdecl
、__stdcall
和__fastcall
。它们在汇编层级的区别主要体现在参数传递方式、栈的清理责任以及函数名的修饰规则上。以下是这些调用约定的具体区别:
__cdecl
调用约定:
- 参数传递顺序:参数从右至左依次压入栈中。
- 栈清理:由调用者负责清理栈上的参数,这意味着每次调用函数时,调用者必须在函数返回后手动调整栈指针。
- 函数名修饰:编译后的函数名前加一个下滑线,如:
_fun
。
__stdcall
调用约定:
- 参数传递顺序:参数从右至左依次压入栈中。
- 栈清理:由被调用者负责清理栈上的参数,即被调用的函数在返回前清理传送参数的内存栈。
- 函数名修饰:编译后的函数名前加一个下滑线,函数名后面加一个
@
,如:_fun@
。
__fastcall
调用约定:
- 参数传递:前两个参数通过寄存器(通常是ECX和EDX)传递,其余参数从右至左压入堆栈。
- 栈清理:由被调用者负责清理堆栈。
- 函数名修饰:编译后的函数名前后各加一个
@
,并且在后面紧跟函数参数的字节数,如:@fun@8
。在x64架构上,情况有所不同,因为x64架构通常使用不同的寄存器传递参数。例如,在Windows上的x64架构上,通常使用
__cdecl
和__stdcall
,但是参数传递方式有所变化:
__cdecl
:前四个参数通过寄存器rdi
、rsi
、rdx
、rcx
传递,剩余参数通过栈传递。__stdcall
:与__cdecl
类似,但是被调用者负责清理堆栈。这些调用约定的选择会影响函数的链接和调用方式,因此在定义和声明函数时,调用约定必须一致。了解这些调用约定对于正确传递参数和处理返回值至关重要,确保两种语言的函数能够正确地相互调用。
结论:遵循调用约定传参
结论先说在最前面:遵循 Angr 自己猜出来的架构(或者用户自己指定的架构)对应的 调用约定 正确传参。
结论综合官方文档、GPT或Claude回答、网络博客以及结合智谱清言智能体语言润色这四方面得到。
官方文档:https://docs.angr.io/en/latest/api.html#angr.factory.AngrObjectFactory.call_state
call_state 函数 api 声明
基本说明
从给定函数的起始位置返回一个状态对象,就像使用给定参数调用该函数一样。
必需参数
- addr:状态应该开始的地址(而不是入口点)
- args:作为函数调用参数的任何额外位置参数
可选参数
- base_state:使用这个 SimState 作为新状态的基础,而不是空白状态
- cc:可选提供 SimCC 对象来使用特定的调用约定
- ret_addr:使用此地址作为函数的返回目标
- stack_base:可选的指针,用作函数入口点附近的栈顶
- alloc_base:可选的指针,用于放置多余的参数数据
- grow_like_stack:在 alloc_base 分配数据时,是否在递减的地址上分配
- toc:ppc64 的目录表地址
- initial_prefix:如果提供,所有符号寄存器将持有以此字符串为前缀的符号值
- fs:文件名与预设 SimFile 对象关联的字典
- concrete_fs:布尔值,描述打开文件时是否应查询主机文件系统
- chroot:用作假根目录的路径,行为类似于真实的 chroot。仅在 concrete_fs 设置为 True 时使用
- kwargs:任何额外的关键字参数都将传递给 SimState 构造函数
返回值
- 类型:SimState
- 说明:函数开始时的状态
重要说明
-
你可以在 args 中提供几乎任何类型的 Python 类型,它们将被转换为二进制格式放入模拟内存中:
- 列表(表示数组)必须完全由相同类型和大小的元素组成
- 元组(表示结构体)可以是任何类型和大小的元素
- 如果你想要一个指向给定值的指针,请将该值包装在 SimCC.PointerWrapper 中
- 任何不能放入寄存器的值都会自动放入 PointerWrapper 中
-
关于 stack_base 和 alloc_base:
- 如果未提供 stack_base,将使用当前栈指针,并且会更新
- 如果未提供 alloc_base,将使用当前栈指针,并且会更新
- 提供 stack_base 但不提供 alloc_base 可能会导致意外结果
-
关于 grow_like_stack:
- 控制在 alloc_base 分配数据的行为
- 当 args 中的数据需要包装在指针中时,该指针需要指向某处,因此数据会被转储到 alloc_base 的内存中
- 如果将 alloc_base 设置为指向栈以外的位置,请将 grow_like_stack 设置为 False,以便顺序分配发生在递增的地址上
call_state 的函数传参方式
在使用 angr
进行二进制分析时,call_state
函数是一个重要的 API,用于创建一个从指定地址开始执行的模拟状态,并将所需的参数传递给目标函数。理解 call_state
的参数传递机制对于有效模拟函数调用至关重要。本文将详细解析 call_state
的参数传递方式及其背后的工作原理。
1. 函数参数传递概述
call_state
函数通过模拟目标函数的调用来创建一个新的状态对象。它的基本工作原理是:将传递的参数按照目标函数的调用约定放入寄存器和堆栈中,确保模拟的状态与实际的函数调用一致。
必需参数:
addr
:指定从哪个地址开始执行目标函数。这个地址通常是函数的起始地址,而不是程序的入口点。args
:函数的参数,可以是任何 Python 类型,angr
会将它们转换为二进制格式并放入模拟内存中。
可选参数:
base_state
:作为基础的 SimState,定义了新状态的初始状态。cc
:可选的调用约定对象(SimCC),用于指定函数调用的具体约定。ret_addr
:函数返回后跳转的目标地址。stack_base
和alloc_base
:定义栈和内存分配的起始位置。- 其他与文件系统、符号寄存器等相关的选项。
2. 如何传递参数
在 call_state
中,传递给函数的参数通过以下方式进行处理:
2.1 参数类型转换
angr
会将传递的 Python 参数转换为适合二进制执行的格式。这些转换通常遵循特定的规则:
- 列表(数组):必须包含相同类型和大小的元素。
angr
会将每个元素依次放入模拟内存中。 - 元组(结构体):可以包含不同类型和大小的元素。
angr
会将这些元素按顺序放入内存。 - 指针类型:如果某些参数需要表示指向某个位置的指针(如字符串、数组等),
angr
会使用PointerWrapper
来处理这些数据,将其包装为指针并存储在内存中。
2.2 寄存器和内存中的参数
- 对于较小的参数(如整数、指针等),它们会被直接放入寄存器中。例如,在 x86-64 架构中,
RDI
、RSI
等寄存器会被用来存放前几个参数。 - 对于较大的参数(如结构体、数组等),它们会被放入内存中,并通过指针传递。
2.3 自动处理无法放入寄存器的参数
如果传递的参数过大,无法直接放入寄存器,angr
会自动将其包装在 PointerWrapper
中,并将该指针存储在内存中。这样,目标函数可以通过指针访问这些较大的参数。
3. 栈和内存分配
call_state
还允许用户自定义栈和内存分配的行为,通过以下参数来控制:
stack_base
:指定栈的起始位置。如果没有提供,angr
会自动使用当前的栈指针并根据需要更新它。alloc_base
:指定额外参数数据的分配起始地址。如果未提供,angr
会使用当前栈指针并更新它。grow_like_stack
:控制分配内存时是递增地址还是递减地址(类似栈的增长方向)。如果将alloc_base
设置为非栈位置,可以通过此选项控制内存分配的方式。
4. 调用约定(cc)
函数调用的参数传递遵循特定的调用约定(Calling Convention)。不同平台和架构有不同的约定,angr
允许通过 cc
参数指定一个调用约定对象(如 SimCCSystemVAMD64
),来适应不同的架构和约定。
调用约定决定了:
- 参数如何分配到寄存器和栈中
- 返回值的存储位置
- 函数调用时栈的布局和清理方式
通过正确指定调用约定,可以确保 angr
在模拟函数调用时遵循正确的参数传递方式。
对此我有新的疑惑:Angr 调用约定是什么?
详细释义
参考:Angr Taint Analysis | 长亭百川云
在Angr中,SimCC
是用于指定函数调用约定的类。Angr通常会根据目标系统和架构自动确定调用约定,但在无法确定时,用户可以从angr.calling_conventions
中选择一个合适的调用约定进行手动指定。在漏洞挖掘工作中,callable
是一个常用的功能,它允许用户定义一个可调用的函数,包括函数地址、调用约定、参数和返回值。
要定义一个callable
,首先需要指定函数的参数和返回值类型。例如,以下代码定义了一个接受char *
类型参数并返回int
类型的函数原型:
charstar = angr.sim_type_.parse_type("char *")
prototype = angr.sim_type.SimTypeFunction((charstar,), angr.sim_type.SimTypeInt(False))
接着,创建一个调用约定实例:
cc = p.factory.cc(func_ty=prototype)
然后,可以使用以下方式创建一个callable
:
check_func = p.factory.callable(find_func.addr, concrete_only=False, cc=cc)
这里的concrete_only
设置为False
,以便启用符号化参数。默认情况下,concrete_only
是关闭的。
使用具体值调用callable
:
my_args = ["abcd", "96", "87", "55", "qqqq"]
print("[+] Running angr callable with concrete arguments")
for arg in my_args:
ret_val = check_func(arg)
stdout = check_func.result_state.posix.dumps(1)
print("Input : {}".format(arg))
print("Stdout : {}".format(stdout))
使用符号变量调用callable
:
# Does not return
my_sym_arg = claripy.BVS('my_arg', 10*8) # 10 byte long str
ret_val = check_func(my_sym_arg)
stdout = check_func.result_state.posix.dumps(1)
print("Stdout : {}".format(stdout))
需要注意的是,callable
在处理具体值时更为有效。如果使用符号化变量,可能会导致路径爆炸问题,从而消耗大量内存。为了解决这个问题,可以使用call_state
,它允许Angr初始化一个状态来调用单个函数,并使用模拟管理器提供的探索和步进功能来缓解callable
的问题。
使用call state
和模拟管理器探索解决方案:
my_sym_arg = claripy.BVS('my_arg', 10*8) # 10 byte long str
# Same calling convention from earlier
state = p.factory.call_state(find_func.addr, my_sym_arg, cc=cc)
simgr = p.factory.simgr(state)
simgr.explore(find=crack_me_good_addr)
found_state = simgr.found[0]
my_input = found_state.se.eval(my_sym_arg, cast_to=bytes).decode("utf-8", "ignore")
print("One solution : {}".format(my_input))
此外,模拟管理器在探索时可以通过添加step_func
来实现内存漏洞的挖掘:
simgr.explore(find=crack_me_good_addr, step_func=check_mem_corruption)
这样,用户就可以更有效地使用Angr进行漏洞挖掘和二进制分析。
5. 其他注意事项
ret_addr
:通过ret_addr
参数,用户可以指定函数执行完后跳转的地址。通常情况下,这个地址是当前状态的返回地址。PointerWrapper
的使用:当函数参数需要在内存中存储时,使用PointerWrapper
来包装这些参数,确保它们可以作为指针传递给目标函数。
总结
call_state
函数是 angr
中一个强大的功能,用于模拟从特定地址开始的函数调用并传递参数。通过灵活使用寄存器、内存、调用约定以及栈和内存分配参数,call_state
能够精确地模拟复杂的函数调用过程。理解其工作原理对于有效地进行二进制分析和固件仿真至关重要。
本账号所有文章均为原创,欢迎转载,请注明文章出处:https://shandianchengzi.blog.csdn.net/article/details/144883404。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的博文进行修正和更新,因此请访问出处以查看本文的最新版本。