通过检索增强生成技术与大语言模型推进网络事件时间线分析
摘要
1. 引言
研究问题
-
RQ1:如何利用 LLM 和 RAG 来增强当前网络事件时间线分析的自动化?
-
RQ2:由 RAG 和 LLM 驱动的框架如何通过无缝集成人工制品分析和事件关联来推进事件时间线分析?
-
RQ3:如何优化框架,为 DFIR 调查生成可靠、全面且语义丰富的时间表?
2. 研究背景及相关工作
2.1. DFIR 中的时间线分析
-
DF 涉及数字证据的管理和分析,从最初的发现到在法律背景下的呈现。这个过程包括证据的识别、收集和分析,其中一个关键组成部分是时间线分析。时间线分析在 DF 中是必不可少的,因为它通过建立动作的时间顺序来帮助重建事件的顺序,这对于发现关键细节和了解事件的流程至关重要。
-
红外:另一方面,是指组织为检测、管理和缓解网络事件而遵循的一系列行动和程序。它通常从准备开始,然后是检测,其中时间线分析在了解事件顺序和确定事件范围方面也发挥着作用。在分析阶段,建立按时间顺序排列的行动有助于评估事件的进展情况。该过程将继续进行遏制、根除、恢复和事件后活动,其中来自时间线分析的见解可以指导决策并帮助评估响应的有效性。
Finding | Approach | Overview |
---|---|---|
Tool: Eric Zimmerman’s tools [27] | Processing various types of data, including event logs, registry entries, and metadata, to provide detailed insights into incidents. | Beyond the tools discussed earlier, others, [27], have gained recognition for their capabilities in performing timeline analysis at a deterministic forensic level. However, they are not AI-based and lack automation, relying heavily on the expertise of the analyst or investigator. |
Study: Chabot et al., 2014 [28] | Data are collected from various sources and analysed using tools like Zeitline and log2timeline. The FORE system manages events, semantic processing converts data into knowledge, and algorithms correlate events. Graphical visualisations then illustrate event sequences, relationships, and patterns, enhancing the clarity and interpretability of the data insights. | This contribution proposes a systematic, multilayered framework focusing on semantic enrichment to tackle challenges in timeline analysis. This approach not only automates timeline analysis but also delivers semantically enriched representations of incident events. However, one apparent limitation is the reliance on multiple standalone tools, which may complicate the workflow. |
Study: Bhandari et al., 2020 [29] | Techniques that primarily involve managing, organising, and structuring temporal artefacts into a more comprehensible timeline. Log2timeline is utilised to extract timestamps from disk image files, while Psort processes the output to further handle the temporal artefacts and generate the final timeline. | A new approach that addresses the complexities and challenges of understanding generated temporal artefacts using abstraction techniques. Artefact analysis is performed manually; although it claims to manage the textual nature of events and produces easily interpretable results, it still relies on manual intervention for analysis. |
Study: Christopher et al., 2012 [30] | Achieved by proposing the use of analyser plugins to conduct detailed analysis on raw, low-level events. These plugins extracted relevant data and aggregated it into high-level events. They then used Bayesian networks to correlate and link these high-level events by performing probabilistic inference. | The study focuses on automating event reconstruction and generating a human-understandable timeline. The main advantage of this approach is its ability to successfully handle and process large volumes of data, as well as produce an interpretable timeline. |
2.2. 大型语言模型
-
Prompt Engineering 是一门巧妙地制作和设计提示以最大限度地发挥模型功能的艺术和科学。在时间线分析的背景下,这包括战略性地构建输入,指定技术细节,并建立调查背景,以根据其精确和有意义的定义来完善模型的输出[23]。例如,DFIR 分析师可能会提示系统,如下所示:“进行人工制品分析,关联事件,并重建事件的连贯时间线。这种方法旨在确保 LLM 理解上下文,遵守特定的 DFIR 时间线分析约束,并实现调查和分析的预期目标。
-
令 牌:在 LLM 中,标记表示字符、单词、子词、符号或数字 [23]。但是,在时间线分析中,令牌可以表示如下:
-
A non-tokenised Windows event log, see Figure 1:
-
-
标记化表单(使用 text-embedding-ada-002—外部嵌入模型),参见图 2:
-
-
标记化形式(使用 GPT3 内部嵌入模型),参见图 3:
-
-
这个过程发生在分词化阶段,这是 LLM 架构的一部分。使用的具体标记化和嵌入方法取决于模型是依赖于其内部系统还是集成外部嵌入模型。此外,每个模型都根据其标记化和嵌入技术产生不同的输出[23]。
-
嵌入是将文本转换为数字表示的过程,通常采用张量的形式,适用于 LLM。它从标记化开始,其中文本中的单词或字符被转换为标记,表示单个单位。然后,这些标记被映射到捕获其语义表示的数值。随后,应用其他图层转换和处理以进一步优化这些表示。最终输出是一个密集向量,其中每个值对应于文本的一个特定特征 [33]。
Finding | Approach | Overview |
---|---|---|
Study: Ferrag et al., 2024 [38] | Reviewing and examining research studies, published articles, and journals addressing the integration of generative AI and LLMs into cybersecurity. Additionally, the paper discusses features, findings, insights, and theoretical approaches derived from datasets relevant to cybersecurity, including training methods, architectures, and associated mathematical equations. | The authors provide an extensive review of the application of LLMs in the field of cybersecurity, covering its subfields, including intrusion detection, cyber forensics, and malware detection. |
Study: Otal et al., 2024 [39], Wang et al., 2024 [40], Fariha et al., 2024 [41], Saha et al., 2024 [42] | -
[39] LLaMA3 8B and 70B, and Phi3 applied to honeypot systems for conducting advanced malicious activity analysis and detection
-
[40] GPT and BERT, with LSTM to predict cyberattacks in IoT networks.
-
[41] GPT-3.5 for log summarisation to analyse and summarise log files and detect specific events.
-
[42] advanced paradigm utilising GPT for SOC tasks, including vulnerability insertion, security assessment, and security verification.
| All of these studies explored the use of different LLMs to automate specific cybersecurity tasks by embedding them into their workflows. |
Study: Wickramasekara et al., 2024 [43] | Theoretically introducing and explaining how LLMs can be utilised in various phases of a DF investigation and how specific models can perform particular tasks. For example, a model like GPT-3.5 can generate textual reports at the conclusion of investigations, while multimodal LLMs, such as GPT-4 and LLaVA with vision assistance, can analyse images and videos, providing contextual outputs for digital forensics. | The paper provides an extensive literature review on the integration of LLMs to advance the DF process. |
Study: Scanlon et al., 2023 [44] | The role of ChatGPT in supporting various tasks, including artefact analysis, generating regular expressions and keyword lists, creating scripts for file carving, RAID disk acquisition, and password cracking, identifying IR sources, anomaly detection, and developing detailed forensic scenarios. | Presents a comprehensive study on how ChatGPT can assist during DF investigations, examining this concept from multiple perspectives. The paper also addresses the limitations and strengths of ChatGPT, clearly stating that the model significantly enhances the DF process. |
Study: Sakshi et al., 2023 [45] | ChatGPT, powered by GPT-4 and GPT-3.5 models, was used to analyse artefacts (input data) and extract relevant evidence, such as conversations, images, and other information pertinent to the investigation. | The paper proposes using ChatGPT to enhance digital investigations by identifying evidence during the DF process. The paper emphasises that, despite the efficiency of this method, its outputs must always be verified and monitored by humans. |
Tool: CADO 2024 [46] | Dedicated to assisting forensic analysts with investigations by providing insights and streamlining the investigation process. | A recent AI-based platform, CADO [46], powered by a local LLM, was developed. |
2.3. 信息提取和知识扩展中的检索增强生成 (RAG)
-
检索增强:在 RAG 的上下文中,检索是指从知识库或文档数据集中搜索和选择相关信息以增强生成模型输出的过程。这确保了模型生成更准确和上下文相关的响应 [47]。信息检索中常用的检索技术包括余弦相似性、Jaccard 相似性、BM25、TF-IDF、潜在语义分析 (LSA) 和基于嵌入的模型。这些方法评估查询和文档之间的相似性,检索相似度得分最高的前 k 个片段,为 LLM 提供相关的上下文知识 [48]。在 GenDFIR 中,检索用于从包含网络事件的文档中提取相关事件。它有助于根据它们与查询或事件上下文的相关性来识别和选择最相关的 (前 k 个部分)。
-
增强生成是检索后将提取的信息提供给 LLM 以进行语义增强的过程,使其能够生成更准确和上下文丰富的输出 [47]。在 GenDFIR 的情况下,这涉及从事件知识库中提取证据(主要是异常事件)并将其传递给 LLM 以生成事件的时间表,其中包括关键事件、相关性和证据分析。
-
基于标记:根据固定数量的标记划分文本。
-
基于段落:按段落对文本进行分段以保持上下文。
-
基于语义:根据含义或主题对文本进行分组。
-
基于句子:将文本分割成多个句子,每个句子可能具有独特的语义。
Finding | Approach | Overview |
---|---|---|
Study: Tihanyi et al., 2024 [52] | RAG to generate high-quality, context-based questions using an external knowledge. | The paper presents RAG usage to advance the process of creating a cybersecurity dataset. Subsequently, CyberMetric was used to benchmark the general cybersecurity knowledge of cybersecurity-oriented LLMs. |
Study: Lála et al., 2023 [53] | Employing RAG agents to answer questions based on embedded scientific literature. | The paper explains and showcases the power of RAG agents in addressing some limitations of traditional LLMs, such as hallucinations and lack of interpretability. |
Study: Wang et al., 2023 [54] | RAG extraction and retrieval are optimised using chunks and tokens, where chunks are used for text segmentation, and tokens represent units, words, or subwords within a chunk. | The authors propose an approach to enhance the performance of RAG in single LLMs for both contextual ranking and answer generation. The goal is to ensure that each chunk contains sufficient context to answer questions and queries accurately. |
System: Chat2Data by Zhao et al., 2024 [55] | A prototype for advanced data analysis using RAG for data retrieval, and a knowledge base where all data are stored. Outputs are shown in a graphical representation. | The authors applied RAG and LLMs to build and introduce an interactive system. |
System: BIDARA by Toukmaji et al., 2024 [56] | Employing RAG technologies and LLM agents to address the complexities of biomimicry. | An AI research assistant model was presented as a system. |
3. 研究方法
3.1. 事件事件预处理和结构化

-
收集的事件是指在网络事件发生的时间范围内发生的事件。
-
现阶段的一个关键考虑因素是,GenDFIR 及其核心 LLM 能够识别各种网络威胁,其范围超出了基于 Windows 的系统。GenDFIR 中集成的 Llama-3.1 LLM 已在涵盖各种类型网络威胁的各种公开可用数据集上进行了训练。因此,即使从不同的来源(例如 IoT 设备或 Linux作系统)收集人工制品,核心 LLM 经过训练,可以通过上下文数据识别这些类型的威胁,也可以在框架内处理和分析相关的网络安全事件。
3.2. 事件事件分块
2.事件分块:所提出的方法通过合并单个事件的计算长度来扩展一般的分块概念。它通过精确的语义嵌入来提高检索精度,因为每个事件属性都有助于分块过程,从而提高检索任务的准确性。分块过程遵循以下公式,以确保符合 LLM 的令牌容量和采用的嵌入模型。



清单 1.分块代码片段。 |
|
3.3. 事件事件和 DFIR 查询嵌入
-
事件:在分块过程之后,此步骤的重点是将块嵌入到高维向量表示中。采用嵌入模型将每个块或事件转换为密集向量,从而捕获其语义含义并实现高效的相似性搜索和分析。第一步涉及传递单个事件𝐸我E我,通过嵌入模型,该模型首先对事件进行标记(即将其拆分为词或子词等标记)
3.4. 用于时间线分析的特定上下文 LLM 驱动的 RAG 代理


2.DFIR 特定于上下文的代理工作流:检索到初始的相关事件集后,DFIR RAG 代理将专注于根据上下文相关性进一步筛选和优化这些结果。在这个阶段,代理专注于识别和过滤与上下文最相关的事件,确保根据其分配的任务排除不相关的证据,如清单 2 所示。
清单 2.GenDFIR 代理提示符和角色的代码片段。 |
|
-
为了增强检索过程,该框架采用了基于矩阵的事件嵌入表示形式,定义如下:
3.时间线分析生成:在此阶段,框架利用通过检索过程提供的上下文(相关证据、𝑉𝑅𝐸我VRE我) 和用户的输入𝑄DF我𝑅QDF我R生成异常事件的时间轴。该过程涉及多个步骤,包括基于注意力的机制、通过 LLM [59] 的上下文丰富以及通过基于解码器的 LLM 模型生成最终的时间线。
-
检索到相关证据后,该框架应用了注意力机制。注意力分数是在查询向量之间计算的,𝑣𝑄DF我𝑅vQDF我R和事件向量𝑣𝑅𝐸我vRE我,允许模型权衡每个事件的相关性。注意力得分 /α我α我的计算方式如下:
-
此过程会放大事件和查询之间相似性分数的差异,因此与查询更相似的事件将具有更高的关注分数。此注意力分数是使用𝑣𝑄𝐷𝐹𝐼𝑅vQDFIR和𝑣𝑅𝐸𝑖vREi,后跟一个指数函数。在这种情况下,指数函数有两个主要目的。首先,它强调检索到的事件事件𝑣𝑅𝐸我vRE我,这些𝑣𝑄DF我𝑅vQDF我R,通过为它们分配更高的关注度分数,这有助于这些事件对最终时间线生成做出更多贡献。其次,它确保以受控方式放大相似度分数之间的差异,防止相似度略低的事件被掩盖或忽视。这种平衡使模型能够同时考虑高度相关的事件以及那些具有较小但仍然有意义的相似性和相关性的事件𝑣𝑄DF我𝑅vQDF我R.
-
一旦注意力评分,α我α我,则下一步是丰富每个事件的上下文。事件向量的加权和(由注意力分数调整)表示事件的初始上下文 c,反映它们与查询的加权相关性𝑣𝑄DF我𝑅vQDF我R:
-
LLM 根据其预先存在的训练知识处理事件的加权和 c 来进一步丰富这一上下文。例如,Llama 3.1 已经过广泛的训练,可以识别异常模式,以及众所周知的网络事件威胁和异常。在这种情况下,上下文𝑐最后c最后代表了对异常事件的细致入微的、基于模型的解释,并结合了 LLM 的理解,𝑐额外c额外,它们的重要性基于训练期间学到的模式、关系和领域知识。这种丰富的上下文包含事件关联,其中 LLM 根据时间顺序、因果关系或上下文关联来识别和链接相关事件。
-
例如,网络事件中的登录尝试失败可能意味着未经授权的访问。LLM 将此事件与后续相关活动(例如权限提升或数据泄露尝试)相关联,从而将它们与同一威胁源相关联。通过分析时间戳、异常严重性和根本原因,LLM 构建了一个按逻辑排序的事件时间线,从而捕捉事件的进展和全部范围。如果没有这种自动化,解决事件将需要大量的时间和专业知识,尤其是在分析复杂的事件关系和揭示因果关系方面。此过程通常需要具有深厚技术知识的专家进行大量手动作。相比之下,GenDFIR 利用 LLM 广泛的上下文理解来加速和改进事件分析,最大限度地减少对人工干预的依赖。
算法 1:GenDFIR 核心 |
![]() |
4. GenDFIR 实施
-
DFIR 时间线分析实践和 GenDFIR 的可变性:认识到 DFIR 行业内方法和程序的多样性至关重要。每个组织或实体可能会采用不同的调查工作流程和报告格式,具体取决于调查的具体性质。从广义上讲,DFIR 流程可以分为两个主要领域:DF,专注于数字证据的保存、收集和分析,以及 IR,专注于遏制、根除和从网络事件中恢复。组织在调查期间的时间表分析方法各不相同,因为以企业为中心的 IR 在分析深度、目标和报告方面与法律取证不同。在企业环境中,时间线分析通常优先考虑速度和运营影响,强调快速识别关键事件和解决步骤,有时不太强调维护正式的监管链。相比之下,法律取证调查更重视时间线的保存和重建,确保所有数字事件都得到准确排序和记录,以满足潜在法律诉讼的证据标准。时间线分析的报告机制也有所不同。IR 报告通常专注于提供可作的见解,例如入侵的时间、传播和补救步骤,通常用于指导即时决策。这些报告优先考虑明确性和即时性,而不是法律手续。相比之下,法医时间线分析报告必须遵守严格的文档标准,确保每个事件都得到精确跟踪,并以保持调查完整性以供法律审查的方式呈现 [2]。这涉及对时间戳、元数据的严格验证,以及交叉引用多个数据源,以重建法律上站得住脚的事件时间线。GenDFIR 框架不是一个放之四海而皆准的解决方案,因为 DFIR 实践因组织而异。该框架旨在作为一种灵活的方法,将 GenAI 模型集成到 DFIR 工作流程中,支持专家提高调查效率。该框架侧重于日志分析、异常检测和快速证据识别等任务,目的是提供上下文丰富的时间线分析,以帮助 DFIR 专家更快地做出明智的决策。
-
GenDFIR 中的大型语言模型:LLM 在 DFIR 任务中的实际应用仍然是新颖的。LLM 在各个领域的应用的最新进展引起了人们的兴趣,但它们远非 DFIR 研究的完全可靠工具 [62]。必须承认几个挑战,包括幻觉、精度和与输入/输出令牌长度相关的限制问题,这可能会限制模型处理 DFIR 案例中典型的大型数据集的能力。LLM 是强大的工具,用于自动化数据分析、总结甚至生成事件报告的某些方面。然而,在没有人工监督的情况下,它们还不能执行高度专业化的法医任务。
-
GenDFIR 中的数据:GenDFIR 中使用的 LLM 以零镜头模式运行,仅依靠其预先存在的训练数据来生成通用的 DFIR 时间线分析报告。虽然这种方法适用于广泛的应用程序,但它不足以满足 DFIR 的特定和动态需求,后者需要实时识别和处理特定于事件的数据。这在丰富事件事件背景的阶段尤为重要,因为丰富和解释的有效性取决于 LLM 预先存在的知识及其处理相关数据的能力。此外,每个 DFIR 案例都涉及独特和敏感的信息,这些信息通常受到监管框架、组织政策和法律要求的影响。因此,事件数据高度多样化,反映了漏洞检测和响应机制的变化。这种多样性凸显了一般知识和 DFIR 的细微要求之间的巨大差距。弥合这一差距需要超越通用输出,例如通过 GenDFIR 生成的时间线分析报告,并将特定于事件的数据集成到模型中。这可以通过使用来自真实事件的精选数据集在安全、受控的环境中训练 LLM 来实现。这种方法使 LLM 能够适应各种 DFIR 情景的不同特征,从而提高他们识别模式和在不同环境中有效响应的能力。然而,将真实世界数据整合到 LLM 培训中提出了重要的隐私、法律和道德考虑。DFIR 调查通常涉及敏感信息,包括个人数据和专有组织内容。使用特定于事件的数据必须遵守数据保护法、组织同意政策和强大的安全措施,以防止在模型训练和推理期间出现违规行为。这些保护措施对于确保机密性同时最大限度地发挥此类数据对未来应用的价值至关重要。此外,当前的 LLM 在适应其原始培训范围之外的新威胁或不断发展的威胁方面面临限制。如果不对新的、合乎道德和合法来源的数据集进行定期更新和再训练,它们在 DFIR 场景中的性能可能会随着时间的推移而下降。
4.1. GenDFIR 组件
-
LLM 模型:Llama-3.1 是 Meta 开发的强大模型,使用一系列标准基准和人工评估进行了评估。选择此模型的基本原理是其开源性质和网络安全相关内容的培训 [37]。这为 GenDFIR 提供了显着的优势,因为它表明 LLM 可以分析并可能识别异常事件,从而提供对网络事件的见解。该模型有不同的版本,具有不同的参数大小,包括 405B、70B 和 8B 参数。在早期阶段,我们采用了 8B 模型来减少幻觉和进行系统原型设计。
-
嵌入模型:mxbai-embed-large,一个 Mixedbread 版本,最大令牌限制为 512,最大维度为 1024,在海量文本嵌入基准测试 (MTEB) [63] 中表现优异。选择此模型的原因是它在检索和语义文本相似性方面的能力。此外,它对检索过程中的评分方法(如 GenDFIR 中采用的余弦相似度)也很有效。
-
DFIR RAG 代理:自主上下文增强代理由 Llama-3.1 提供支持。它在 GenDFIR 中用于基于上下文的检索和输出生成。作为网络安全和 DFIR 方面的专家,它自主运营,专门从事 DFIR 时间表分析,其任务是从我们包含网络事件的知识库中识别与网络事件相关的事件和信息。
4.2. 实验环境
-
Python 库:我们的代码是用 Python 编写的。使用的主要库是用于张量运算的 PyTorch、用于数值计算(如余弦相似性)的 NumPy 以及用于数据作和处理嵌入的 pandas。
-
LLM 响应温度:核心 LLM (Llama3.1:8b) 的温度设置为非常低的值 (温度 = 0.1),以减少困惑并控制预测可变性。这限制了不必要内容的生成,使框架能够更有效地关注从知识库中检索的知识,而不是依赖 LLM 的其他和不相关的内部知识。
-
最大输出令牌设置为 (maxtokens = 2000),以便方便地使用嵌入模型 (mxbai-embed-large:335m) 和 LLM (llama3.1:8b) 规范。
-
完成次数设置为较低的值 (n = 1),以使 LLM 的生成更具确定性,并选择最佳单词预测。
清单 3.GenDFIR 代码片段可视化。 |
|
5.并行计算:为了优化张量计算,CUDA 用于在 GPU 上运行张量(列表 4)。
清单 4.CUDA 和 GPU。 |
|
4.3. 数据集细化
Scenario | Description | Number of Events (Chunks) | Max Chunk Length (Characters—MaxLength) per Event | Event Splitter |
---|---|---|---|---|
SYN Flood | This is a SYN flood attack in which unusual network events disrupted standard operations. The anomalies were characterised by a high volume of synchronise (SYN) requests, causing intermittent service degradation across the network. Data were collected from firewalls, network scanners, and intrusion detection systems (IDSs). The analysis focuses on critical attributes such as event ID, details, level, timestamps, source, task category, and affected devices to assess the nature of the attack and identify potential threats or operational issues.
| 30 | 210 | “.” |
Rhino Hunt (inspired by [64]) | This scenario is inspired by the well-known “Rhino Hunt” incident, but in this case, it involves the illegal exfiltration of copyrighted rhino images. An unauthorised individual accessed the company’s FTP server and stole twelve protected images. The investigation traced the exfiltration to a device within the company’s internal network, with the stolen data directed to an external IP address. Forensic analysis revealed that the user associated with the IP address possessed additional images matching the stolen ones. The collected data included images that met specific metadata criteria, including camera model, artist, and copyright details. - The images used in this scenario are AI-generated (using DALL·E 3) for the purpose of ensuring copyright compliance and consent. The metadata of the images were modified to align with the scenario description, and they can be extracted and viewed using the Metaminer module found in [65].
| 8 | 500 | “/” |
Phishing Email—1 | This scenario represents a phishing attack where an employee was targeted by emails impersonating a security service. The organisation’s policy prohibits communication with untrusted domains, permitting only interactions with verified sources. All suspicious emails were collected for analysis, focusing on domains, sender and receiver details, IP addresses, email content, and timestamps to determine the nature of the attack.
| 15 | 725 | “/” |
Phishing Email—2 | Like in the previous scenario, this is a phishing attack where an employee was targeted by emails impersonating a trusted support service, attempting to deceive the employee into verifying account information. The organisation’s policy restricts communication with unverified domains and permits only trusted sources. All suspicious emails received during the suspected phishing period were collected for analysis, focusing on domains, sender and receiver details, IP addresses, email content, and timestamps to assess the nature of the attack.
| 20 | 500 | “/” |
DNS Spoof | This incident involves a DNS spoofing scenario where multiple event logs were collected from various devices, including Windows event logs, DNS server logs, firewall records, and network traffic monitoring tools. Irregularities such as delayed DNS responses, inconsistent resolutions, and unexpected outbound traffic were identified, triggering alerts from the intrusion detection system (IDS) and performance monitoring tools.
| 23 | 200 | “.” |
Unauthorised Access | This scenario is an unauthorised access attempt detected via an intrusion detection system (IDS). The system flagged multiple access attempts from a blacklisted IP address, which was not authorised for any legitimate activity within the network. The collected data, including warnings, errors, and critical alerts, provided the basis for further investigation into the potential breach.
| 25 | 208 | “.” |
5. 结果、评估和讨论
5.1. 结果
5.2. 评估
1.
(一)知识库(事件)事实部分:此部分包括伪影分析、时间线分析、事件关联和时间线重建。这些组件源自从知识库中检索的事实,并通过 LLM (Llama-3.1) 丰富了上下文信息。
(二)其他 Insights Facts 部分:本节提供补充信息,包括缓解策略、建议和其他相关见解。这些输出是使用 LLM (Llama-3.1) 的一般知识及其对知识库的上下文应用(事件事件)生成的。
-
GenDFIR 报告的准确性是使用一个提议的方程来评估的,该方程旨在量化经过验证的正确事实相对于生成的事实总数的比例。方程定义如下:
-
总体正确事实是通过将事件知识库中的正确事实与通过 LLM 生成的正确事实相结合而获得的准确事实的总数,如表 5 所示。
-
正确事实是指从事件知识库和 LLM 生成的事实中单独验证并被视为准确的事实。
-
同样,不正确的事实是不准确的事实,并与每个来源分开识别。
-
-
根据对时间线分析报告和结果的广泛监控和评估,如表 5 所示,在生成的报告中发现的次要事件事件及其解释和检索在某些情况下被确定为不正确。例如,在 Phishing Email-1 中,据报道“2.尝试让 Michael 通过链接(上午 10:45、下午 3:00 和下午 04:30)验证其账户的后续电子邮件不正确,因为时间(下午 04:30)不存在,并且未在事件事件知识库中提及。另一方面,通过 LLM 生成的额外知识都是正确的。例如,在 SYN-FLOOD 场景中,时间线报告中生成和发现的关键发现是相关的“**关键发现** * 全天检测到的多次 SYN 洪水攻击。* 大量 SYN 数据包和过多的数据包量超过阈值。* 定期网络性能检查发现了潜在问题并成功清除。尽管这些发现和知识是与任何类型的 SYN 洪水攻击相关的常识,但它们在这种情况下是准确的。
-
下图(图 8)说明了每种情况的准确率,根据前面给出的公式和表 5 中的结果计算得出:
Table 5. Timeline analysis report facts.
Scenarios | Overall Timeline Analysis Report Facts | Incident Knowledge Base | LLM Facts (All Correct) |
---|---|---|---|
SYN Flood | 20 | - Correct: 17 - Incorrect: 0 | 03 |
Rhino Hunt | 16 | - Correct: 08 - Incorrect: 0 | 08 |
Phishing Email—1 | 13 | - Correct: 09 - Incorrect: 1 | 03 |
Phishing Email—2 | 22 | - Correct: 13 - Incorrect: 03 | 06 |
DNS Spoof | 19 | - Correct 14 - Incorrect: 0 | 05 |
Unauthorised Access | 22 | - Correct: 14 - Incorrect: 01 | 07 |
-
计算所有场景的平均准确率表明,GenDFIR 的整体准确率为 95.52%。
2.关联:在这种情况下,我们将相关性指标定义为通过框架提供的答案的相关程度。为了衡量这一点,我们为与事件相关的每个场景制作了 20 个 DFIR 上下文特定的提示(在 [65] 中提供 — 总共 240 个提示),以问题的形式出现。这些提示的特点是它们关注各个方面,包括情绪(例如,“事件 2 中描述的图像的整体情绪是什么(图 b)?—Rhino Hunt 情景)、意图(例如,“GlobalBank 在初始电子邮件中要求采取什么具体行动?—电子邮件网络钓鱼 1 情景)和深入分析(例如,“分析与涉及 SYN 洪水攻击的事件相关的严重性级别。列出事件及其相应的严重性级别。—SYN-FLOOD 情景)以及检索、预测和见解。根据生成的答案,GenDFIR 未能为某些问题(DFIR 提示)提供正确的答案。例如,在 SYN 泛洪场景中,GenDFIR 在提示 4 上失败;在 Rhino Hunt 场景中,提示 13 部分正确 (50%),而在网络钓鱼电子邮件 1 场景中,GenDFIR 在提示 11 和 12 上都失败了。这些答案的正确性和不正确性与事件事件知识库(被视为地面实况数据)进行了比较和交叉引用。详细的失败和成功情况如表 6 中的图表所示:
Table 6. Prompts’ relevance (in percentages) in GenDFIR timeline analysis reports for different cyber incident scenarios.
Prompt | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
SYN Flood | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
Rhino Hunt | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 0.5 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
Phishing 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
Phishing 2 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 |
DNS Spoof | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
Unauthorised Access | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 0.25 | 1 | 1 | 0.66 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
-
在这种情况下,GenDFIR 的总体相关性为 94.51%。
3.精确匹配:GenDFIR 中的 EM 指标旨在评估框架从知识库中检索精确和精细信息的能力。它通过提出需要与真值数据完全匹配的 DFIR 问题来测试框架的性能。这包括具体的详细信息,例如时间戳(例如,“Michael Davis 回复 GlobalBank 安全团队的第一封电子邮件的确切时间是什么时候?)”和描述(例如,“在事件 5 中,鳄鱼的描述是什么?”),以及其他相关查询。在 [65] 中发现的结果表明,GenDFIR 表现良好,与基本事实完全一致。GenDFIR 成功通过了所有检查,没有任何错误。因此,本例中的 EM 评分为 100%,因为所有 20 个提示都已正确回答。
4.证据 (Top-k):DFIR 时间线分析主要侧重于通过分析数字人工制品来识别证据,事件之间的相关性与被认为与事件相关的证据的相关性相关。为了促进推理过程中证据识别的实时可视化,我们开发了一个脚本,如清单 5 所示,它使用 UMAP 库。
-
GenDFIR 的 UMAP 库适配:UMAP 库包含用于降维和可视化的算法,能够识别 2D 向量空间中最近的数据点。这些算法的工作原理是计算数据点之间的距离,选择最近的邻居,并生成一个图形表示来说明数据点是如何关联的,同时保留局部和全局结构[66]。在 GenDFIR 的上下文中,我们使用此库开发了一个脚本,以可视化矢量化用户输入中的特征之间的关系𝑉𝑄DF我𝑅VQDF我R及其在嵌入式知识库中的相应功能(事件事件、𝑉𝐸VE).此过程有助于确定 DFIR 专家的输入数据如何与相关事件事件保持一致。请务必注意,此方案中的证据识别取决于用户提供的输入,用户决定应将哪些事件或属性视为证据。换句话说,证据完全基于 DFIR 专家发布的查询提示,其可疑评估指导了该过程。如方法中所述,GenDFIR 集成了基于余弦相似性的算法和 DFIR 特定的代理来评估相关性。在 UMAP 中,我们添加了一个 heat 参数,以可视化 DFIR 专家的查询与知识库中的事件嵌入在推理过程中的相似性。此 heat 参数的范围为 0 到 1,其中接近 1 的值表示查询与事件嵌入之间的相似性较强,接近 0 的值表示相似性较弱。可视化项中的颜色强度反映了这种相似性,较高的值(更接近 1)由较暖的颜色表示,表示事件与查询更相关。除此之外,该脚本还利用了 UMAP 算法的传统功能,该功能根据数据点之间的相似程度对数据点进行聚类。
清单 5.用于计算和可视化相似性的代码片段。 |
|
-
为了解释通过 UMAP 生成的图表,彼此接近的数据点表示更高的上下文相似性。在推理过程中,被认为与查询相关的事件将在可视化项中彼此靠近。heat 参数由颜色变化表示,反映了数据点之间的相似程度,颜色越暖表示与专家查询的匹配程度越强。
-
在代码中,calculate_cosine_similarity 函数计算矢量化输入之间的余弦相似度𝑉𝑄DF我𝑅VQDF我R和知识库嵌入𝑉𝐸VE.然后,visualise_cosine_similarity 函数应用 UMAP 将这些相似性分数降低到 2D 空间,其中接近度表示事件之间的相似性更强。生成的可视化表示形式使 DFIR 专家能够更好地了解查询和知识库之间的一致性。
-
图 9、图 10、图 11、图 12、图 13 和图 14 说明了 UMAP 证据可视化。这些数字中显示的 Top K 数量与事件事件知识库中手动识别的证据以及对提示和事件之间相似性的解释准确对应。
-
图 13 提供了一个示例,其中所有事件都被视为证据。此方案的知识库包含属性 “Level” 设置为 “Warning” 的事件。表 7 中的地面实况数据根据用户的输入指定了总共 25 条证据(未经授权的访问场景):“识别级别为'警告'的所有事件”。然而,使用 UMAP 生成的图 13 显示了所有 25 个数据点聚集在一起,表明邻域和环境相似性都存在。尽管如此,某些数据点的热量参数中的余弦相似性颜色似乎更冷,余弦相似度得分为 ≤0.54。这种差异表明,虽然所有事件都具有相同的 “Level” 属性,但事件中的其他特征或上下文因素(例如时间戳、事件描述或来源)会影响它们的嵌入表示形式,从而影响它们的整体相似性。较冷的颜色表示,尽管共享相同的 “Level”,但这些事件在其他属性或它们与查询上下文的关系上可能有所不同,尤其是在存在内部 DFIR 上下文特定代理及其内部分配的角色时。
Cyber Incident | Criteria of Evidence (Evidence Extraction Prompt) | Incident Events—K | Evidence—Top K |
---|---|---|---|
SYN Flood | Identify all events with Level: Critical. | 30 | 05 |
Rhino Hunt (inspired by [64]) | Rhino. | 08 | 04 |
Phishing Email—1 | Identify all events that appear to be phishing. | 15 | 06 |
Phishing Email—2 | Identify all events that appear to be phishing. | 20 | 07 |
Unauthorised Access | Identify all events with Level: Warning. | 25 | 25 |
DNS Spoof | Identify all events with Level: Error. | 23 | 06 |
-
然而,通过这个指标,我们只关注证据检索和识别,这已经成功证明,因为所有 25 条证据都聚集在一起。在图 13 的可视化中要考虑的另一个方面是维度 2 的大小,范围从 0 到 3.2,例如,与图 14 相比,这个范围会缩小。如果增加,则数据将看起来更紧密。
-
表 7 包含每个网络事件的真值证据(事件 — K)的数量,由用户确定、DFIR 专家提示的说明以及通过 GenDFIR 生成的前 K 个证据:
5.DFIR 行业基准
-
时间线分析中的人工验证和固有的 LLM 限制:虽然 GenDFIR 旨在帮助研究人员进行时间线分析,但它并不能取代人类专业知识。正如以前的研究和行业经验所表明的那样,LLM 会产生幻觉——不正确或不相关的信息——尤其是在生成长序列文本或处理复杂上下文时。这些限制是 LLM 架构所固有的,其中模型根据概率预测单词序列,这通常会导致不连贯或不相关的输出。这一挑战在时间线分析中尤为关键,因为即使是很小的不准确也会对调查产生重大影响。根据 NIST 800-86 和其他法医指南,人工监督对于验证重建的时间线是否准确且在法律上站得住脚至关重要 [67]。法医标准始终强调人类专业知识在审查和验证自动化结果方面的重要性,尤其是在法律诉讼或监管调查等高风险环境中。通过在关键阶段整合人工验证,GenDFIR 增强了调查人员掌握事件更广泛背景的能力。这使他们能够专注于决策和战略响应,同时自动化证据检查中更耗时的方面。
-
DFIR 中的 GenAI:截至目前,还没有明确的基准或标准专门指导将 GenAI(尤其是 LLM)集成到取证或事件响应实践中。然而,由于缺乏一个清晰而全面的既定框架来将 GenAI 整合到 DFIR 中,这使得许多关于最佳实践、性能预期和此类技术局限性的问题尚未解决。GenAI 和 LLM 的使用涉及在训练、推理和交互期间处理上下文数据。这带来了与隐私和机密性相关的重大风险,这些风险从数据收集过程一直到 LLM 输出生成。解决这些挑战可能会导致开发先进的专用、特定于行业的基准,以将 GenAI 集成到 DFIR 中,为其可靠和合乎道德的应用提供结构化的基础。
-
优化大规模部署的性能:为了确保 GenDFIR 在大规模时间线分析中的有效性,尤其是在复杂事件中,必须优化部署配置。与行业标准实践一致,包括用于计算取证的 NIST 标准 [67],LLM 的性能对参数调整高度敏感,尤其是温度设置。温度通过影响模型预测的确定性或多样性来控制 LLM 的困惑度。大规模部署还需要能够有效处理大量数据的系统架构。这可以通过扩展嵌入和 LLM 模型的标记限制来实现,从而允许框架处理更大的输出。当与高性能 GPU 配置结合使用时,GenDFIR 能够更好地扩展以进行更复杂的调查,从而产生既精确又可靠的输出。
-
知识库管理和定期输出审查:使用 GenDFIR 进行可靠的时间线分析还需要对系统中使用的知识库进行有效管理。此知识库必须既最新又准确,因为它直接影响证据提取和时间线重建的准确性。行业标准,如 ISO/IEC 27037 [68],强调法医工具必须经过持续验证,以确保它们产生准确可靠的结果。这个持续的审查过程与输入(从知识库嵌入的证据)和生成的输出的定期验证保持一致,确保时间线分析与最新证据和事件背景保持同步。此外,知识库应在安全的存储库中本地处理,而不是依赖在线系统。虽然现代云基础设施提供了高级安全功能,但本地存储通常被认为更可靠,可用于取证目的。根据 NIST 关于信息系统安全和隐私控制的特别出版物 800-53 [69],本地存储可以提供对敏感数据的更多控制,并且不易受到与基于云的系统相关的风险的影响,例如第三方访问或数据泄露。取证指南通常建议保持对整个存储环境的控制,尤其是在处理敏感证据时。时间线分析中证据提取的一个关键方面是它在支持法律索赔或正式程序方面的作用。因此,法医专家必须在证据提取任务期间将 GenDFIR 部署在优化状态。这包括确保系统配置正确,知识库得到准确管理,并集成人工验证以保护证据处理中最敏感方面的完整性。
-
合法和正式用途的部署:为了使时间线分析适合合法和正式用途,GenDFIR 必须满足法医标准实践要求的严格标准。法律调查中使用的工具必须在法律背景下表现出高水平的准确性、精确性和可采性,如 ISO/IEC 27037 [68] 和 ISO/IEC 17025 [70] 等法医指南所述。专家必须验证 GenDFIR 是否根据其高级要求进行部署,确认用于法律辩护或正式调查的所有输出都是可靠且可辩护的。
5.3. GenDFIR 整体性能
Table 8. Overall performance.
Metric | Rate |
---|---|
Accuracy | 95.52% |
Relevance | 94.51% |
EM | 100% |
Top-K | 100% |
Overall | 97.51% |
5.4. 与其他 DFIR 工具的比较
Table 9. Comparison of GenDFIR with other tools.
Tool | Artefact Analysis | Anomaly Detection | Event Correlation | Full Contextual Timeline Report |
---|---|---|---|---|
Splunk | Yes | Yes | Yes | No |
FTK, Autopsy | Yes | No (basic detection) | No (manual correlation) | No |
Velociraptor | Yes | Yes (basic) | Yes (automated) | No |
Timesketch | Yes | No (basic detection) | Yes (timeline-based correlation) | No (visual timeline only) |
GenDFIR | Yes (Basic) | Yes (basic anomaly detection for basic incidents) | Yes (automated) | Yes (full report with additional context) |
5.5. 讨论
-
事件年表:事件的详细时间线,显示与事件相关的活动的时间顺序。
-
证据相关性:分析各种证据与时间线的关系。
-
事件概述:事件的摘要,包括主要发现和影响。
-
技术利益相关者:取证专家和 IT 专业人员需要具有精确时间戳、技术分析和证据关联的详细技术报告。例如,技术报告可能包括系统日志条目的精细时间戳和详细的取证数据。
-
非技术利益相关者:面向非技术受众(如高级管理层或法律团队)的报表提供了简化的时间表,并突出显示了关键事件。这些报告侧重于事件和影响的总体顺序,其格式设置为非专家可以访问和理解。例如,执行摘要,后跟简化的事件时间线。
6. 限制、道德问题和未来工作
6.1. 限制
-
方法的新颖性:将 LLM 应用于 DFIR 时间线分析是一种相对较新的方法。关于自动化时间线分析的现有研究有限,这意味着几乎没有既定的指南或基准,因此需要为这项任务开发新的背景和方法。
-
数据量和种类:网络事件场景中数据的大量和异构性给数据管理和处理带来了重大挑战 [28]。由于情况不同,现实世界的网络事件通常会带来独特的挑战,需要量身定制的方法。在这些事件中生成的数据可能差异很大,并且每个事件背后的规则或触发因素往往不同 [72],这使得通用解决方案的实施进一步复杂化。此外,网络威胁的动态和演变性质需要深入了解其根本原因以及导致其出现的相互关联的因素。例如,组织的基础设施漏洞和互连设备的相互作用可能会共同暴露出弱点。通常,漏洞并不局限于单一资产,而是互连系统中缺陷组合的结果,从而放大了事件响应的复杂性。在 GenDFIR 的案例中,我们的实验利用了合成和简化的网络事件场景,故意排除了先进的反取证技术。这种方法使我们能够专注于在受控环境中开发和验证核心概念框架。但是,这会带来限制。现实世界的网络事件通常涉及采用反取证和其他规避技术的老练对手,本研究未考虑这些方面。此外,从这些实验场景过渡到现实生活中的应用将需要访问多样化、真实的数据集,这通常涉及法律和道德考虑。此外,在事件响应中处理大型数据集的可扩展性挑战将需要升级硬件资源(例如高性能 GPU)并调整框架配置,尤其是在 LLM 功能方面,例如令牌限制。采用实例并行、批量大小调整和高级资源分配(例如分布式处理和负载平衡)等优化技术将进一步支持框架的扩展。
-
隐私和数据安全:处理 DFIR 案例本身涉及处理敏感、机密和个人数据,包括内部组织信息、客户记录或技术系统日志。在我们的实验中,我们通过使用从模拟网络事件中得出的合成数据集来减轻这些隐私风险。这种方法消除了对真实世界数据的依赖,确保符合严格的法律和道德标准,例如欧盟的 GDPR 和 NIS2 指令,该指令专门针对金融、能源和医疗保健等关键行业的网络安全和数据完整性。利用 GenDFIR 等 LLM 的一个核心挑战是它们依赖于大量数据输入,包括过去事件的运营和历史数据,以提供量身定制的准确响应。这带来了两个关键问题:维护数据机密性和遵守管理数据保留和使用的法律框架。例如,如果最初为调查而收集的数据在未经明确同意的情况下重复使用,则使用详细的历史事件数据(例如攻击模式、缓解响应或取证伪影)对 LLM 进行微调可能会违反 GDPR 的“目的限制”原则。同样,NIS2 指令要求在处理对公共安全至关重要的行业的日志和元数据时采取强有力的保护措施,例如在传输过程中和静止时加密敏感日志。为了应对这些挑战,采用 GenDFIR 的组织应考虑实施先进的隐私保护技术,包括以下内容。
–数据匿名化:从训练数据中删除可识别的属性(例如 IP 地址、用户名和电子邮件域),以确保消除对个人或资产的可追溯性,同时保留事件的上下文。
–联合学习:支持直接在组织场所内的分布式安全系统上对模型进行协作训练。
–差分隐私:应用算法修改以在查询结果中引入统计不确定性,从而防止对单个记录进行逆向工程或公开,即使在共享环境中也是如此。
-
评估方法:在现阶段,评估我们框架的有效性和绩效面临重大挑战,尤其是在 DFIR 实践的背景下。目前对特定领域应用中 LLM 和 AI 系统的自动评估方法的研究仍处于早期阶段,大多数方法严重依赖人工评估。在我们的例子中,这需要创建自定义的基于 DFIR 上下文的评估提示来衡量性能。然而,即使有了提议的指标,我们认为它们也是不够的。DFIR 领域本质上是复杂且不确定的,其结果通常受到各种不可预测的因素的影响,例如不同的事件类型、数据质量和上下文的细微差别。这些变量使得出一致、受控结果的能力复杂化,从而进行自动评估。此外,网络事件的动态和快速发展性质要求评估方法能够适应现实世界场景的技术和背景变量,这为开发强大、可靠的评估框架带来了持续的挑战。
6.2. 道德问题
-
隐私和保密:使用 LLM 推进网络事件时间线分析可能会导致重大隐私泄露。这些技术通常需要访问和处理大量敏感数据,包括个人、数字、财务、健康和其他类型的信息,所有这些信息都必须符合安全标准和框架。这增加了在没有适当保护措施的情况下暴露个人和机密信息的风险。
-
准确性和效率:确保从 LLM 支持的框架中自动分析和生成报告的准确性和可靠性至关重要。不准确的结果可能会导致调查人员和 DFIR 专家得出有缺陷或不相关的结论和决定,从而可能影响法律程序和司法公正。
-
同意:获得其数据用于框架在现实场景改编中自动处理的个人的适当同意至关重要。未经明确同意,使用此类数据将直接侵犯他们的隐私权。
-
偏见、幻觉和公平性问题:LLM 自然会面临强化偏见、幻觉和公平问题的可能性,这可能会导致网络事件分析期间出现不公平的结果。在 GenDFIR 的上下文中,上下文扩充过程(解释和连接知识库中的事件)可能会无意中传播现有偏见或产生扭曲的见解。这损害了调查的公正性和可信度,尤其是在决策必须基于客观证据的高风险情况下。通过设计,他们根据从训练数据中学到的模式和相关性生成响应。这种倾向意味着训练数据集中存在的偏差可以直接影响输出,而幻觉可能会导致与输入数据或事实无关的捏造细节。尽管这些问题无法完全根除,但缓解策略可以显著减少它们的发生。GenDFIR 的成功在很大程度上取决于它的部署环境以及其配置与特定领域的上下文的一致性。有几种措施可以最大限度地减少偏见和幻觉:
–对特定领域的数据进行微调:通过在精选、无偏见和特定于上下文的数据集上训练或微调 LLM,输出可以更符合 DFIR 工作流程的目标和运营需求。
–提示工程:精心构建提示可以指导模型提供更准确、更相关和更少偏见的回答。
–偏差审计和测试:定期评估模型输出的偏差指标和其他错误有助于识别和纠正有问题的模式。
在这个阶段,LLM,包括它们在 GenDFIR 中的实现,不应被视为能够实现最终可靠性的完全自主系统。产出必须始终受到审查,并明确承认其局限性,因为 LLM 不能替代专家判断和仔细分析。 -
自动检测证据:在采用框架自主检测和检索证据的情况下,不当的内部处理或分析可能会损害其可靠性和有效性。