零日漏洞被谷歌的 AI 工具发现
谷歌的 AI 研究工具 Big Sleep 取得了重大突破,发现了 SQLite 中的漏洞,SQLite 是全球使用最广泛的数据库引擎之一。
Google Project Zero 和 Google DeepMind 团队最近在官方博客文章中分享了这一里程碑,标志着 AI 驱动的漏洞检测在现实世界软件中的首次应用。
从午睡到长眠:使用大型语言模型捕捉真实代码中的漏洞
https://googleprojectzero.blogspot.com/2024/10/from-naptime-to-big-sleep.html
Big Sleep 发现的漏洞是 SQLite 中的堆栈缓冲区下溢,这可能允许恶意行为者以破坏数据库完整性的方式操纵数据。
该漏洞于 10 月初发现并报告,SQLite 开发团队于当天修补了该漏洞,避免了对用户造成任何实际影响。
研究人员表示:“我们相信这是 AI 代理首次在广泛使用的现实世界软件中发现以前未知的可利用内存安全问题。”
今年早些时候,在 DARPA AIxCC 活动上,亚特兰大团队发现了 SQLite 中的空指针取消引用 ,这启发我们使用它进行测试,看看是否能找到更严重的漏洞。
使用基于 LLM 的系统自主发现并修复 SQLite3 中的隐藏漏洞
https://team-atlanta.github.io/blog/post-asc-sqlite/
人工智能驱动的漏洞研究
Big Sleep 源自早期的研究框架Project Naptime,该框架展示了大型语言模型 (LLM) 在漏洞研究方面的潜力。
与传统测试工具不同,Big Sleep 专注于找出传统模糊测试方法可能遗漏的极端情况。因此,它充当了 AI 增强的“变体分析”系统,可筛选代码以查找与先前发现的漏洞类似的复杂错误。
据 Google Big Sleep 团队称,使用AI进行此类变体分析可能会改变游戏规则。通过查看代码的最近更改并匹配过去问题的模式,Big Sleep 提供了一种主动防御机制,可以帮助扭转网络攻击者的局面。值得注意的是,该工具的表现优于现有的测试框架,如 OSS-Fuzz 和 SQLite 的原生测试系统。
Google 的 Big Sleep 使用经过训练的 AI 来模糊一组特定的代码(SQLite)。模糊测试是一种测试方式,其中向正在运行的软件中输入大量输入和数据,以查看其反应。
Google 技术通过其经过训练的 AI 模型扩展了研究人员或开发人员在其开发工作流程中对模糊测试器的现有使用。
今天,这种方法很脆弱,仅适用于一个特定的代码库,但随着它的发展,它将变得更易于移植到其他软件,从而扩大其实用性。模糊测试只是在安全研究中利用 AI 的一种方式。
目前使用的另一种技术是将 AI 嵌入到开发人员的工作流程和工具中,以便在编写和审查软件时识别出导致漏洞的编码缺陷。
这些 AI 助手结合起来,开始有望减少开发人员的工作量,并在安全漏洞逃逸并成为下游消费者的漏洞之前将其捕获。
SQLite 中的真实世界实验
Big Sleep 的最新成果受到 DARPA 的 AIxCC 活动上 AI 辅助发现的启发,研究人员在该活动中发现了 SQLite 中的漏洞。在此基础上,该团队决定通过检查最近的提交并分析可能导致错误的更改来对 SQLite 进行深入测试。Big Sleep 使用结构化方法分析了 SQLite 代码,并最终标记了堆栈缓冲区下溢问题。
该漏洞围绕变量 iColumn 展开,该变量可以接受标记值 -1,用于表示特殊情况。由于这种独特的设置,系统代码无法处理所有情况,最终导致可利用的漏洞。在特定条件下,这可能导致系统崩溃或允许未经授权的内存访问,从而带来潜在的严重安全风险。
展望未来:人工智能在网络安全中的作用
Big Sleep 的成功凸显了大型语言模型改变网络安全的潜力。像 Big Sleep 这样的人工智能模型可以解决传统方法无法解决的漏洞,帮助防御者比犯罪分子利用它们更快地保护系统。
对于谷歌和更广泛的科技行业来说,这一发展标志着朝着“不对称优势”迈出了有希望的一步,防御工具可以超越网络威胁的能力。
谷歌团队表示,希望人工智能能够继续增强广泛使用的软件的弹性,并提高全球用户的安全性。
将 GenAI 集成到安全工作流程中
这一发现为安全研究人员提供了利用生成式人工智能改进常用软件组件漏洞检测的潜力,这些漏洞检测基于预先训练的知识和模型。
由于生成式人工智能是在包含先前漏洞和代码模式的大型数据集上进行训练的,因此它们可以识别出传统测试方法或人工分析可能遗漏的类似漏洞。
使用人工智能发现漏洞是网络安全从业者和组织考虑将 GenAI 集成到其安全工作流程中的新机会。
虽然模糊测试和其他自动化程序自然存在弱点,但人工智能辅助的漏洞研究可以帮助弥补这些弱点。
虽然应该考虑基于训练数据的幻觉和偏见问题,安全团队应该审查所有输出,但人类专家和 GenAI 的合作可以确保强大的网络安全态势。