当前位置：首页 > article >正文

通过检索增强生成技术与大语言模型推进网络事件时间线分析

article 2025/2/21 9:49:10

摘要

网络时间线分析或取证时间线分析在数字取证和事件响应（DFIR）调查中至关重要。它涉及检查伪影和事件（尤其是它们的时间戳和相关元数据），以检测异常、建立相关性并重建事件的详细序列。传统方法依赖于处理结构化工件，例如日志和文件系统元数据，使用多种专用工具进行证据识别、特征提取和时间线重建。本文介绍了一个创新框架 GenDFIR，这是一种由大型语言模型（LLM）功能提供支持的特定于上下文的方法。具体来说，它建议在零镜头中使用 Llama 3.1 8B，选择它是因为它能够理解网络威胁的细微差别，并与检索增强一代（RAG）代理集成。我们的方法包括两个主要阶段：（1）数据预处理和结构化：以文本数据表示的事件事件被转换为结构良好的文档，形成事件的综合知识库。（2）上下文检索和语义丰富：RAG 代理根据用户提示从知识库中检索相关事件事件。LLM 处理检索到的相关上下文，从而实现详细的解释和语义增强。拟议的框架在受控环境中的合成网络事件上进行了测试，使用 DFIR 定制的、特定于上下文的指标评估结果，旨在评估框架的性能、可靠性和稳健性，并得到人工评估的支持，以验证结果的准确性和可靠性。我们的研究结果表明，LLM 在推进网络事件时间线分析自动化方面具有实际力量，这是 DFIR 的一个子领域。这项研究还强调了生成式 AI（尤其是 LLM）的潜力，并为高级威胁检测和事件重建开辟了新的可能性。

关键词：

数字取证;事件响应;DFIR;时间线分析;网络事件;基因 AI;法学硕士;RAG 的;网络安全

1. 引言

近年来，网络事件显著增加，原因是暴露的漏洞影响了广泛的数字设备，如计算机、物联网设备、网络硬件（包括路由器、交换机和 IDS）和嵌入式系统。网络事件发生后，会进行 DFIR 调查以揭示攻击的复杂性 [1]。这个过程从收集数字文物开始，然后提取可靠的证据，最后确定事件的根本原因。这项调查的一个重要方面是时间线分析，其重点是检查事件的时间序列和时间顺序。这涉及识别异常和可疑模式，以重建整个事件的综合时间线 [2]。

由于收集的数据量庞大且异质性，时间线分析过程传统上非常耗时，需要多种专用工具。

DFIR 领域正在见证向技术自动化的显着转变，最近的统计数据表明，40% 的从业者已将自动化系统集成到他们的证据处理和分析工作流程中。在这一趋势中，AI 集成获得了特别的动力，五分之一的专业人士在其运营中采用了 AI 驱动的解决方案 [3]。然而，该行业的现代化仍未完成，因为很大一部分组织继续依赖传统方法，例如纸质调查程序和基本数字工具。这些传统做法导致运营效率低下，调查人员每个案件平均花费 45 小时进行数字证据检查。52% 的从业者进一步强调了这一必要性，他们发现迫切需要更先进的工具来提高工作流程效率和加快调查过程 [4]。

数字伪影分析作为时间线分析的第一步，通常使用 Velociraptor [5]、FTK [6]、EnCase [7]、Dissect [8] 等工具进行。这些工具处理结构化数据，例如日志和文件系统元数据，以从许多事件中提取相关且可靠的证据。

在此之后，事件被重建以产生一个连贯的时间线，为事件提供上下文和意义。在这个阶段，Timesketch [9] 和 Log2Timeline （Plaso） [10] 等专业工具被广泛使用，因为它们有助于时间线的重建和可视化，简化活动的关联并增强事件的可解释性。例如，Splunk [11] 代表了一个高级平台，它提供由 AI 和 ML 提供支持的功能，以协助检测异常、识别大型数据集中的异常模式，并为事件调查提供深入的见解 [12]。正如文献所证明的那样，除了利用人工智能实现自动化的工具外，还引入了其他研究方法和推进时间线分析的方法 [13,14,15]。

最近，大型语言模型（LLM）等生成式 AI 模型（GenAI）已成为一股变革力量，超越了传统的 AI 解决方案。这些模型已集成并用于各个领域、流程和任务，并且还被提议用于自动化数字取证、事件响应和网络安全的各个方面。

LLM，包括 GPT [16]、Llama [17] 和 Claude [18]，擅长处理数据、检测异常和生成自然语言解释，这使得它们在协助 DFIR 伪影分析方面很有价值。但是，它们对网络事件时间线分析的直接应用仍未得到解决。此外，根据 DFIR 标准实践，传统工具仍然是管理结构化工件（如日志、文件系统元数据和二进制数据）的首选。

尽管前景广阔，但 LLM 仍面临幻觉 [19]、记忆限制 [20] 和特定背景知识差距等挑战。检索增强生成（RAG）等创新通过集成外部知识库来解决这些限制，从而提高 LLM 输出的上下文准确性和可靠性 [21]。此外，它们的有效性可以通过及时工程[22]进一步提高，特别是在基于解码器的模型中[23]，以及部署特定任务的代理。

研究问题

根据时间线分析的定义以及 DFIR 实践中存在的工具和技术，当前方法面临许多限制。例如，现有解决方案通常会在没有足够语义上下文的情况下呈现最终时间线，其中仅关联事件的时间戳。此外，使用多个分析工具和其他专用于事件关联的工具会使该过程复杂化。另一个挑战在于难以发现并成功提取可能支持有关事件及其根本原因的说法的证据。虽然 GenAI 的进步，尤其是 LLM，以及 RAG 等技术，通过外部知识增强 LLM，为解决这些限制提供了有希望的潜力，但它们在 DFIR 时间线分析中的应用仍未得到充分探索。本研究旨在回答以下研究问题：

RQ1：如何利用 LLM 和 RAG 来增强当前网络事件时间线分析的自动化？
RQ2：由 RAG 和 LLM 驱动的框架如何通过无缝集成人工制品分析和事件关联来推进事件时间线分析？
RQ3：如何优化框架，为 DFIR 调查生成可靠、全面且语义丰富的时间表？

本文的组织方式如下，以解决研究问题：第 1 部分介绍了 DFIR 和 LLM 领域，建立了对它们核心方面的基本理解。第 2 节扩展了这些细节，提供了更深入的见解和与本研究相关的定制定义。然后，我们回顾相关作品和文献，以建立坚实的基础并采用其他观点。第 3 节描述了我们框架的方法，包括其主要功能。第 4 节讨论了使用合成场景实现和测试 GenDFIR。第 5 节涉及通过 GenDFIR 生成的结果和输出。由于生成的报告篇幅较大，论文的附录 A 中只展示了一种情景。本部分还评估了框架的可靠性、功能性和有效性，以评估其性能。第 6 节考虑了开发和部署此框架的局限性和道德方面，以及它在现实世界 DFIR 场景中扩展和采用的潜力。最后，第 7 节通过强调其新颖性及其在该领域的集成和应用潜力来结束本文。

2. 研究背景及相关工作

拟议的 GenDFIR 框架结合了不同的技术，以利用生成式 AI 来自动化 DFIR 任务。为了明确 RAG 和 LLM 在网络事件时间线分析中的应用，本节定义了基本概念并讨论了相关工作。一些定义已被调整以适应本研究的特定背景。

2.1. DFIR 中的时间线分析

数字伪影：文献中没有对该术语的正式或确切定义 [24]。然而，在 DFIR 领域内，人工制品通常被描述为经过处理并从数字设备中收集和提取的相关数据。例如，在作系统（OS）取证中，这些伪影可能包括文件系统、作系统可执行文件、网络活动、Internet 历史记录、缓存和其他相关数据。

网络事件事件和异常：事件是指可能危及或更改系统安全状态的作。在网络事件的背景下，此类行为旨在违反系统的安全策略 [25]。异常是指行为上与数据集中既定规范或预期模式不同的偏差。在网络事件的背景下，异常通常表示与系统预期正常行为的偏差 [26]。例如，在 Windows 事件日志中，这可能包括异常的登录尝试、不规则的应用程序活动或系统配置的意外更改。

DFIR：是一个包含两个基本流程的术语：数字取证（DF）和事件响应（IR）。

DF 涉及数字证据的管理和分析，从最初的发现到在法律背景下的呈现。这个过程包括证据的识别、收集和分析，其中一个关键组成部分是时间线分析。时间线分析在 DF 中是必不可少的，因为它通过建立动作的时间顺序来帮助重建事件的顺序，这对于发现关键细节和了解事件的流程至关重要。
红外：另一方面，是指组织为检测、管理和缓解网络事件而遵循的一系列行动和程序。它通常从准备开始，然后是检测，其中时间线分析在了解事件顺序和确定事件范围方面也发挥着作用。在分析阶段，建立按时间顺序排列的行动有助于评估事件的进展情况。该过程将继续进行遏制、根除、恢复和事件后活动，其中来自时间线分析的见解可以指导决策并帮助评估响应的有效性。

DF 在 IR 中起着至关重要的作用，提供深入的技术分析以支持整个过程。DF 有助于识别事件的根本原因，检测隐藏的访问点，并发现恶意活动。DF 主要关注事件的技术方面，而 IR 则涉及更广泛的范围，包括遏制、漏洞修复以及管理技术和组织要素。

DF 和 IR 共同在解决网络事件方面相辅相成。例如，虽然 IR 可能在处理法律和监管方面遇到困难，但 DF 通过确保正确收集和提交证据，在这一领域表现出色。因此，时间线分析不仅单独支持每个流程，还加强了它们之间有效响应事件的协作 [2]。

时间线分析涉及一系列子活动的存在，以构建网络事件的连贯时间线。文献中的许多研究都集中在单个任务上，例如人工制品分析、异常检测、事件关联或孤立的时间线重建，其中一些结合了基于 AI 的现代解决方案。不幸的是，很少有作品涉及时间线分析所有组成部分的集成，尤其是强调自动化。表 1 介绍了与完整/部分时间线分析自动化领域相关的重要工作。

表 1.DFIR 时间线分析。

Table 1. DFIR timeline analysis.

Finding	Approach	Overview
Tool: Eric Zimmerman’s tools [27]	Processing various types of data, including event logs, registry entries, and metadata, to provide detailed insights into incidents.	Beyond the tools discussed earlier, others, [27], have gained recognition for their capabilities in performing timeline analysis at a deterministic forensic level. However, they are not AI-based and lack automation, relying heavily on the expertise of the analyst or investigator.
Study: Chabot et al., 2014 [28]	Data are collected from various sources and analysed using tools like Zeitline and log2timeline. The FORE system manages events, semantic processing converts data into knowledge, and algorithms correlate events. Graphical visualisations then illustrate event sequences, relationships, and patterns, enhancing the clarity and interpretability of the data insights.	This contribution proposes a systematic, multilayered framework focusing on semantic enrichment to tackle challenges in timeline analysis. This approach not only automates timeline analysis but also delivers semantically enriched representations of incident events. However, one apparent limitation is the reliance on multiple standalone tools, which may complicate the workflow.
Study: Bhandari et al., 2020 [29]	Techniques that primarily involve managing, organising, and structuring temporal artefacts into a more comprehensible timeline. Log2timeline is utilised to extract timestamps from disk image files, while Psort processes the output to further handle the temporal artefacts and generate the final timeline.	A new approach that addresses the complexities and challenges of understanding generated temporal artefacts using abstraction techniques. Artefact analysis is performed manually; although it claims to manage the textual nature of events and produces easily interpretable results, it still relies on manual intervention for analysis.
Study: Christopher et al., 2012 [30]	Achieved by proposing the use of analyser plugins to conduct detailed analysis on raw, low-level events. These plugins extracted relevant data and aggregated it into high-level events. They then used Bayesian networks to correlate and link these high-level events by performing probabilistic inference.	The study focuses on automating event reconstruction and generating a human-understandable timeline. The main advantage of this approach is its ability to successfully handle and process large volumes of data, as well as produce an interpretable timeline.

2.2. 大型语言模型

LLM 是 GenAI 的高级模型，旨在理解和生成人类语言。他们可以预测单词序列并根据输入数据生成新文本。LLM 以其庞大的训练数据集和复杂的架构而著称，它超越了模仿人类的创造力。它们通过提高生产力和自动化传统上需要人类聪明才智的复杂任务，在各个领域发挥着变革性作用 [31]。但是，必须牢记一个关键区别，因为已经引入了各种类型的 LLM，每种 LLM 都针对特定任务进行了优化。例如，请考虑以下内容。

基于解码器的模型（如 GPT、LLaMA、Mistral 和 Microsoft Phi）在文本生成方面表现出色，其中输出基于用户输入和初始提示。

Prompt Engineering 是一门巧妙地制作和设计提示以最大限度地发挥模型功能的艺术和科学。在时间线分析的背景下，这包括战略性地构建输入，指定技术细节，并建立调查背景，以根据其精确和有意义的定义来完善模型的输出[23]。例如，DFIR 分析师可能会提示系统，如下所示：“进行人工制品分析，关联事件，并重建事件的连贯时间线。这种方法旨在确保 LLM 理解上下文，遵守特定的 DFIR 时间线分析约束，并实现调查和分析的预期目标。

这些模型使用自回归解码器架构，一次生成一个 token，并根据前一个 token 预测下一个 token。

令牌：在 LLM 中，标记表示字符、单词、子词、符号或数字 [23]。但是，在时间线分析中，令牌可以表示如下：

A non-tokenised Windows event log, see Figure 1:

图 1.Windows 事件日志示例。

标记化表单（使用 text-embedding-ada-002—外部嵌入模型），参见图 2：

图 2.Text-embedding-ada-002 - Windows 事件日志嵌入（Hugging Face Tokeniser [32]）。

标记化形式（使用 GPT3 内部嵌入模型），参见图 3：

图 3.GPT3 嵌入 - Windows 事件日志嵌入（Hugging Face Tokeniser [32]）。

这个过程发生在分词化阶段，这是 LLM 架构的一部分。使用的具体标记化和嵌入方法取决于模型是依赖于其内部系统还是集成外部嵌入模型。此外，每个模型都根据其标记化和嵌入技术产生不同的输出[23]。

嵌入是将文本转换为数字表示的过程，通常采用张量的形式，适用于 LLM。它从标记化开始，其中文本中的单词或字符被转换为标记，表示单个单位。然后，这些标记被映射到捕获其语义表示的数值。随后，应用其他图层转换和处理以进一步优化这些表示。最终输出是一个密集向量，其中每个值对应于文本的一个特定特征 [33]。

这使得它们特别适合于生成连贯且上下文相关的文本以响应用户查询 [34]。

基于编码器的模型（如 BERT）在分类和情感分析等任务中表现出色，它们通常用于文本分类和情感检测等应用。在这些模型中，输出仅根据输入中存在的信息生成，而不依赖于外部上下文或以前的输出。

T5 和 BART 等编码器-解码器模型在文本翻译和摘要以及语音识别和图像识别等任务中表现出色。这种模型的输出基于输入和上下文，其中输出是输入的转换版本 [35]。

在网络安全和 DFIR 领域，已经进行了多项研究，并提出了将 LLM 集成到各种应用程序的方法，如表 2 所示：

根据现有的发现，本研究范围内使用最广泛的最先进模型是 GPT 和 Llama。在这项研究中 [36]，研究人员披露了 Llama 3.1 在执行高级网络安全任务方面的能力，这些任务基于公开验证的数据（包括网络安全相关内容）进行训练。一个重要的考虑因素是新 CYBERSECEVAL 3 套件的基准测试，以衡量网络安全风险和功能。该模型可以高精度地识别和识别网络威胁。

此外，GPT 已被用于不同的研究，如表 2 所示，用于识别和减轻网络威胁。此外，在研究 [37] 中，作者提到了它即使在零镜头设置下也能执行的能力，因为它已经在海量数据集上进行了广泛的训练，例如报告、期刊和会议论文、以前的 DFIR 案例、标准、框架、指南以及与该领域相关的对话。示例包括 IEEE 文章、维基百科条目、CTDD、IDS2017 和 IDS2018 数据集、ADFA（澳大利亚国防军学院）数据集、OpenTitan 系统级芯片（SoC）数据、Hack@dac 2021 SoC 数据、CVE 报告等 [38]。

表 2.大型语言模型。

Table 2. Large language models.

Finding	Approach	Overview
Study: Ferrag et al., 2024 [38]	Reviewing and examining research studies, published articles, and journals addressing the integration of generative AI and LLMs into cybersecurity. Additionally, the paper discusses features, findings, insights, and theoretical approaches derived from datasets relevant to cybersecurity, including training methods, architectures, and associated mathematical equations.	The authors provide an extensive review of the application of LLMs in the field of cybersecurity, covering its subfields, including intrusion detection, cyber forensics, and malware detection.
Study: Otal et al., 2024 [39], Wang et al., 2024 [40], Fariha et al., 2024 [41], Saha et al., 2024 [42]	- [39] LLaMA3 8B and 70B, and Phi3 applied to honeypot systems for conducting advanced malicious activity analysis and detection - [40] GPT and BERT, with LSTM to predict cyberattacks in IoT networks. - [41] GPT-3.5 for log summarisation to analyse and summarise log files and detect specific events. - [42] advanced paradigm utilising GPT for SOC tasks, including vulnerability insertion, security assessment, and security verification.	All of these studies explored the use of different LLMs to automate specific cybersecurity tasks by embedding them into their workflows.
Study: Wickramasekara et al., 2024 [43]	Theoretically introducing and explaining how LLMs can be utilised in various phases of a DF investigation and how specific models can perform particular tasks. For example, a model like GPT-3.5 can generate textual reports at the conclusion of investigations, while multimodal LLMs, such as GPT-4 and LLaVA with vision assistance, can analyse images and videos, providing contextual outputs for digital forensics.	The paper provides an extensive literature review on the integration of LLMs to advance the DF process.
Study: Scanlon et al., 2023 [44]	The role of ChatGPT in supporting various tasks, including artefact analysis, generating regular expressions and keyword lists, creating scripts for file carving, RAID disk acquisition, and password cracking, identifying IR sources, anomaly detection, and developing detailed forensic scenarios.	Presents a comprehensive study on how ChatGPT can assist during DF investigations, examining this concept from multiple perspectives. The paper also addresses the limitations and strengths of ChatGPT, clearly stating that the model significantly enhances the DF process.
Study: Sakshi et al., 2023 [45]	ChatGPT, powered by GPT-4 and GPT-3.5 models, was used to analyse artefacts (input data) and extract relevant evidence, such as conversations, images, and other information pertinent to the investigation.	The paper proposes using ChatGPT to enhance digital investigations by identifying evidence during the DF process. The paper emphasises that, despite the efficiency of this method, its outputs must always be verified and monitored by humans.
Tool: CADO 2024 [46]	Dedicated to assisting forensic analysts with investigations by providing insights and streamlining the investigation process.	A recent AI-based platform, CADO [46], powered by a local LLM, was developed.

2.3. 信息提取和知识扩展中的检索增强生成（RAG）

RAG 是一种主要旨在优化和增强 LLM 性能的技术。它利用 LLM 预先存在的知识和训练数据集之外的外部知识库，在推理过程中提供更多信息。此过程与微调或训练 LLM 不同，而是涉及从数据库（外部存储）、保险库文件（内部存储）或云管道中动态检索、生成和集成相关的外部文本信息。重要的是要承认，虽然 LLM 本身非常强大，但它的知识可能不包括特定的上下文 [21,47]。

RAG 由两个基本功能组成，检索和生成。

检索增强：在 RAG 的上下文中，检索是指从知识库或文档数据集中搜索和选择相关信息以增强生成模型输出的过程。这确保了模型生成更准确和上下文相关的响应 [47]。信息检索中常用的检索技术包括余弦相似性、Jaccard 相似性、BM25、TF-IDF、潜在语义分析（LSA）和基于嵌入的模型。这些方法评估查询和文档之间的相似性，检索相似度得分最高的前 k 个片段，为 LLM 提供相关的上下文知识 [48]。

在 GenDFIR 中，检索用于从包含网络事件的文档中提取相关事件。它有助于根据它们与查询或事件上下文的相关性来识别和选择最相关的（前 k 个部分）。
增强生成是检索后将提取的信息提供给 LLM 以进行语义增强的过程，使其能够生成更准确和上下文丰富的输出 [47]。在 GenDFIR 的情况下，这涉及从事件知识库中提取证据（主要是异常事件）并将其传递给 LLM 以生成事件的时间表，其中包括关键事件、相关性和证据分析。

知识库：在带有 RAG 的 LLM 中，知识库是指与特定领域相关的事实知识和数据的结构化存储库，模型可以在推理过程中使用它 [21]。在这项研究（GenDFIR）的背景下，它将作为存储和管理从网络事件中生成和收集的所有数据的存储库。这些数据以自然语言格式呈现，所有数据均以英语存储。

前 k 件/证据：Top-k 是 RAG 中的一个超参数，用于控制在检索阶段从外部知识库检索的最相关信息的数量。k 的值决定了返回多少个块或文档，按相关性排序，以便通过 LLM [49] 进行进一步处理。

在 GenDFIR 中，前 k 个部分代表检索到的最相关的日志事件（或证据），这些事件与网络事件相关的异常分数最高。最初，k 是指知识库中的所有事件，前 k 表示通过 LLM 选择进行进一步分析的最相关事件。

块：块是从文档中提取的可管理的文本段，用于特定处理或分析。分块涉及将大文本划分为较小的段，这些段可以通过嵌入模型进行嵌入。在时间线分析中，分块可确保准确捕获关键细节，例如时间戳和表示秒或分钟的数字标记。这些小细节对于事件关联至关重要，其中即使时间的微小变化也会对分析产生重大影响。通过将文本分割成可管理的块，可以有效地保留和嵌入这些细节，从而在将 RAG 与 LLM 一起使用时实现精确的令牌计算和从外部知识库检索。时间线分析的精度取决于所使用的分段方法。标记计算和仔细选择嵌入模型等因素都会影响该过程的准确性和可靠性。几种可靠的分块方法已被证明是有效的[50]。

基于标记：根据固定数量的标记划分文本。
基于段落：按段落对文本进行分段以保持上下文。
基于语义：根据含义或主题对文本进行分组。
基于句子：将文本分割成多个句子，每个句子可能具有独特的语义。

DFIR 特定于上下文的 RAG 代理：RAG 代理是一些由 LLM 提供支持的现代 AI 系统的关键组件。它充当 LLM 和用户之间的中介，在收到查询或输入时管理搜索过程。代理通过采用测量数据相似性的检索方法从知识库中检索相关信息。然后，此特定于上下文的信息将提供给 LLM，LLM 使用它来生成针对查询定制的响应。此外，作为该过程的一部分，代理可以通过优化和修改人工构建的提示来提高生成的响应质量，从而根据特定任务提高生成的响应质量。在推理过程中，代理处理输入，根据其指定的角色进行调整，并帮助 LLM 生成更相关和准确的答案 [51]。需要注意的是，RAG 代理的角色是由人类定义的，确保任务与其预期目的一致。在时间线分析的情况下，一个例子可以总结如下：DFIR 分析师提示系统“进行时间线分析”，而代理的提示（任务）将是“您是 DFIR AI 助理，任务是分析人工制品、关联事件并生成连贯的事件时间线。根据提供的上下文确定你的答案，不要在给定的上下文之外包含其他信息。这允许 RAG 代理从知识库中提取相关的事件信息，例如相关的事件日志。此外，如果忽略了关键细节，该系统可以通过优化提示来支持 DFIR 分析师，以获得更优化的结果。

表 3 突出显示了几项探索使用 RAG 进行信息提取和知识增强的研究。

表 3.检索增强生成。

Table 3. Retrieval-augmented generation.

Finding	Approach	Overview
Study: Tihanyi et al., 2024 [52]	RAG to generate high-quality, context-based questions using an external knowledge.	The paper presents RAG usage to advance the process of creating a cybersecurity dataset. Subsequently, CyberMetric was used to benchmark the general cybersecurity knowledge of cybersecurity-oriented LLMs.
Study: Lála et al., 2023 [53]	Employing RAG agents to answer questions based on embedded scientific literature.	The paper explains and showcases the power of RAG agents in addressing some limitations of traditional LLMs, such as hallucinations and lack of interpretability.
Study: Wang et al., 2023 [54]	RAG extraction and retrieval are optimised using chunks and tokens, where chunks are used for text segmentation, and tokens represent units, words, or subwords within a chunk.	The authors propose an approach to enhance the performance of RAG in single LLMs for both contextual ranking and answer generation. The goal is to ensure that each chunk contains sufficient context to answer questions and queries accurately.
System: Chat2Data by Zhao et al., 2024 [55]	A prototype for advanced data analysis using RAG for data retrieval, and a knowledge base where all data are stored. Outputs are shown in a graphical representation.	The authors applied RAG and LLMs to build and introduce an interactive system.
System: BIDARA by Toukmaji et al., 2024 [56]	Employing RAG technologies and LLM agents to address the complexities of biomimicry.	An AI research assistant model was presented as a system.

3. 研究方法

GenDFIR 是一个由 LLM 提供支持的框架，专门用于 DFIR 中的时间线分析。但是，单独使用 LLM 会带来一些挑战，尤其是在其上下文窗口限制方面。LLM（如 GPT）将输入作为大文本块处理，这限制了它们一次可以容纳的详细事件数据量 [57\u201258]。这在 DFIR 时间线分析中产生了一个重大问题，其中精确的事件特定细节至关重要。在处理 DFIR 事件文件时，LLM 可能会忽略重要信息，因为其上下文窗口优先考虑更广泛的上下文，而不是准确时间线重建所需的精细细节。

此外，捕获网络事件中事件之间的时间和逻辑关系是一项复杂的任务，传统方法经常会忽视这一点。这些方法通常需要将人工制品重复输入到 LLM 中，每次都引用以前的数据。这个过程不仅劳动密集型，而且效率低下，因为模型必须重新处理先前的引用，而无法保持对事件不断发展的背景的连贯理解。

为了解决这些限制，我们建议将 RAG 技术集成到 GenDFIR 中。RAG 不会使用外部知识库来增强 LLM，而是将 DFIR 事件报告本身视为知识来源。这些报告包含详细的事件数据，将直接上传到框架中，其中的知识代表事件中相互关联的事件。RAG 增强了 LLM 准确有效地关联事件的能力，支持动态提取事件并提供对事件数据的轻松、即时访问。

除了 RAG 之外，由 LLM 提供支持的 RAG 代理将通过充当 DFIR 时间线分析特定于上下文的代理来进一步增强该过程。此代理将根据其角色管理从知识库中筛选和提取信息的过程。它将启用高级事件筛选，确保仅检索最相关的事件，以便在事件的特定上下文中进行分析。

这种方法不仅克服了上下文窗口的局限性，而且通过提供可解释和丰富的上下文输出，确保了更全面和高效的时间线分析，从而超越了传统方法。

以下部分进一步解释和推进 GenDFIR 的技术方法，概述了其发展。

3.1. 事件事件预处理和结构化

网络事件发生后，会生成各种伪影并将其存储在 CSV 文件中，形成事件数据集。预处理步骤涉及将这些 CSV 文件转换为结构化文本文档。

单个事件 E 由其属性 e 进行表征和定义，如下所示：

收集的事件是指在网络事件发生的时间范围内发生的事件。

中事件的每一行我CSV 格式我CSV 格式被视为单个上下文，表示事件时间线内的唯一事件。然后，这些行将转换为我𝐷我D，在整个转换过程中保持其顺序和上下文的完整性。

下图说明了我CSV 格式我CSV 格式自我𝐷我D:

未处理和未结构化的 Windows 事件日志以 CSV 格式存储，请参见图 4：

图 4.Windows 事件日志 CSV。

以文档（PDF）格式存储的已处理和结构化 Windows 事件日志，请参见图 5：

图 5.Windows 事件日志文档（知识库）。

在文档中写入事件的格式在提高检索精度和优化 LLM 的理解方面起着至关重要的作用。

在 GenDFIR 中，我们提出了一个基于事件背景的动态结构。例如，对于从 Windows 事件中收集的事件日志，结构如下：事件的每个属性用逗号（“，”）分隔，事件以句号（“.”）结尾，以表示每个事件都是独立的，表示非结构化数据。但是，当事件的格式与 Windows 事件日志的格式不同（例如，Linux syslog 事件、Web 服务器日志、防火墙日志或数据库日志）时，可以根据数据的类型和性质调整替代结构模型。在需要更多上下文分析的事件中，例如网络钓鱼电子邮件事件，每封电子邮件都表示为一个事件，并使用一个符号（例如“/”）来表示每封电子邮件的结尾。

现阶段的一个关键考虑因素是，GenDFIR 及其核心 LLM 能够识别各种网络威胁，其范围超出了基于 Windows 的系统。GenDFIR 中集成的 Llama-3.1 LLM 已在涵盖各种类型网络威胁的各种公开可用数据集上进行了训练。因此，即使从不同的来源（例如 IoT 设备或 Linux作系统）收集人工制品，核心 LLM 经过训练，可以通过上下文数据识别这些类型的威胁，也可以在框架内处理和分析相关的网络安全事件。

3.2. 事件事件分块

基于先前定义的分块概念和包含事件的结构化文档，我们提出了一种 DFIR 特定于上下文的分块方法，旨在提高检索精度，每个事件代表一个不同的块。

2.事件分块：所提出的方法通过合并单个事件的计算长度来扩展一般的分块概念。它通过精确的语义嵌入来提高检索精度，因为每个事件属性都有助于分块过程，从而提高检索任务的准确性。分块过程遵循以下公式，以确保符合 LLM 的令牌容量和采用的嵌入模型。

下图（图 6）直观地展示了应用于事件知识库（events）的特定于上下文的分块方法：

图 6.DFIR 特定于上下文的分块。

但是，清单 1 显示了它的实际应用，它提供了该过程的简要概述并说明了它的实现：

清单 1.分块代码片段。

计算机 14 00067 i001

3.3. 事件事件和 DFIR 查询嵌入

事件：在分块过程之后，此步骤的重点是将块嵌入到高维向量表示中。采用嵌入模型将每个块或事件转换为密集向量，从而捕获其语义含义并实现高效的相似性搜索和分析。第一步涉及传递单个事件𝐸我E我，通过嵌入模型，该模型首先对事件进行标记（即将其拆分为词或子词等标记）

3.4. 用于时间线分析的特定上下文 LLM 驱动的 RAG 代理

2.DFIR 特定于上下文的代理工作流：检索到初始的相关事件集后，DFIR RAG 代理将专注于根据上下文相关性进一步筛选和优化这些结果。在这个阶段，代理专注于识别和过滤与上下文最相关的事件，确保根据其分配的任务排除不相关的证据，如清单 2 所示。

清单 2.GenDFIR 代理提示符和角色的代码片段。

计算机 14 00067 i002

为了增强检索过程，该框架采用了基于矩阵的事件嵌入表示形式，定义如下：

3.时间线分析生成：在此阶段，框架利用通过检索过程提供的上下文（相关证据、𝑉𝑅𝐸我VRE我）和用户的输入𝑄DF我𝑅QDF我R生成异常事件的时间轴。该过程涉及多个步骤，包括基于注意力的机制、通过 LLM [59] 的上下文丰富以及通过基于解码器的 LLM 模型生成最终的时间线。

检索到相关证据后，该框架应用了注意力机制。注意力分数是在查询向量之间计算的，𝑣𝑄DF我𝑅vQDF我R和事件向量𝑣𝑅𝐸我vRE我，允许模型权衡每个事件的相关性。注意力得分 /α我α我的计算方式如下：
此过程会放大事件和查询之间相似性分数的差异，因此与查询更相似的事件将具有更高的关注分数。此注意力分数是使用𝑣𝑄𝐷𝐹𝐼𝑅vQDFIR和𝑣𝑅𝐸𝑖vREi，后跟一个指数函数。在这种情况下，指数函数有两个主要目的。首先，它强调检索到的事件事件𝑣𝑅𝐸我vRE我，这些𝑣𝑄DF我𝑅vQDF我R，通过为它们分配更高的关注度分数，这有助于这些事件对最终时间线生成做出更多贡献。其次，它确保以受控方式放大相似度分数之间的差异，防止相似度略低的事件被掩盖或忽视。这种平衡使模型能够同时考虑高度相关的事件以及那些具有较小但仍然有意义的相似性和相关性的事件𝑣𝑄DF我𝑅vQDF我R.
一旦注意力评分，α我α我，则下一步是丰富每个事件的上下文。事件向量的加权和（由注意力分数调整）表示事件的初始上下文 c，反映它们与查询的加权相关性𝑣𝑄DF我𝑅vQDF我R:
LLM 根据其预先存在的训练知识处理事件的加权和 c 来进一步丰富这一上下文。例如，Llama 3.1 已经过广泛的训练，可以识别异常模式，以及众所周知的网络事件威胁和异常。在这种情况下，上下文𝑐最后c最后代表了对异常事件的细致入微的、基于模型的解释，并结合了 LLM 的理解，𝑐额外c额外，它们的重要性基于训练期间学到的模式、关系和领域知识。这种丰富的上下文包含事件关联，其中 LLM 根据时间顺序、因果关系或上下文关联来识别和链接相关事件。
例如，网络事件中的登录尝试失败可能意味着未经授权的访问。LLM 将此事件与后续相关活动（例如权限提升或数据泄露尝试）相关联，从而将它们与同一威胁源相关联。通过分析时间戳、异常严重性和根本原因，LLM 构建了一个按逻辑排序的事件时间线，从而捕捉事件的进展和全部范围。如果没有这种自动化，解决事件将需要大量的时间和专业知识，尤其是在分析复杂的事件关系和揭示因果关系方面。此过程通常需要具有深厚技术知识的专家进行大量手动作。相比之下，GenDFIR 利用 LLM 广泛的上下文理解来加速和改进事件分析，最大限度地减少对人工干预的依赖。

最终扩充的上下文𝑐最后c最后，源自注意力机制和基于 LLM 的丰富，表示为矢量化时间线。𝑉𝑇一个VT一个.此步骤涉及整合相关证据，𝑣𝑅𝐸我vRE我和用户输入𝑣𝑄DF我𝑅vQDF我R生成事件的时间线。

在这个阶段，𝑉𝑇一个VT一个以数字形式包含所有相关事件信息。它反映了事件在多个维度（例如，事件特征、时间戳和异常级别）中的序列、相关性和异常模式。

为了使时间轴可供人类用户访问和解释，结构化的中间表示𝑉𝑇一个VT一个被解码为自然语言格式。这种转换是通过基于解码器的 LLM 实现的，该 LLM 处理𝑉𝑇一个VT一个并生成一个人类可读的、逻辑结构的事件时间线，表示为𝑇̂一个T^一个.此输出将取证知识（例如系统日志、用户活动和相关事件）组织成按时间顺序排列的自然语言格式的叙述。这使调查人员或 DFIR 专家能够在调查期间有效地分析时间关系、检测异常情况并获得可作的见解。

GenDFIR 工作流程如图 7 所示，并总结为以下算法，即算法 1：

算法 1：GenDFIR 核心

图 7.GenDFIR 框架工作流。

4. GenDFIR 实施

为了正确实施拟议的 GenDFIR 框架，必须对其预期目的和范围进行明确区分。GenDFIR 框架并非旨在作为严格遵守法律证据标准的常规法医工具发挥作用，也不旨在直接应用于在此研究阶段需要完全遵守法律和监管框架的专业法医案件。相反，该框架的概念化、开发和设计作为基础，展示了 GenAI（特别是 LLM）在 DFIR 场景中的潜在用途。

正确实施的一个重要考虑因素是 LLM 的培训知识，尤其是与其知识库中的事件相关的丰富上下文。LLM 对其训练数据的来源提出了重大担忧，这些数据必须来自符合欧洲 GDPR 等法规的合法合规存储库。例如，正如《卫报》[61] 所说，由于监管的不确定性，特别是用于其训练的数据，Meta 选择不在欧盟发布其 Llama-3.2 [60] 等最新模型。在这项研究中，Llama 3.1 以零镜头设置实现，符合英国 GDPR 和安全标准。没有进行微调，确保框架完全依赖于模型的原始功能。此外，实验中使用的数据是完全合成的，用于模拟真实场景，同时保持对结果监控和分析的控制。但是，以下几行将解决进一步的考虑和问题，以及框架的组件、实验环境和用于测试的案例研究。

DFIR 时间线分析实践和 GenDFIR 的可变性：认识到 DFIR 行业内方法和程序的多样性至关重要。每个组织或实体可能会采用不同的调查工作流程和报告格式，具体取决于调查的具体性质。从广义上讲，DFIR 流程可以分为两个主要领域：DF，专注于数字证据的保存、收集和分析，以及 IR，专注于遏制、根除和从网络事件中恢复。

组织在调查期间的时间表分析方法各不相同，因为以企业为中心的 IR 在分析深度、目标和报告方面与法律取证不同。在企业环境中，时间线分析通常优先考虑速度和运营影响，强调快速识别关键事件和解决步骤，有时不太强调维护正式的监管链。相比之下，法律取证调查更重视时间线的保存和重建，确保所有数字事件都得到准确排序和记录，以满足潜在法律诉讼的证据标准。

时间线分析的报告机制也有所不同。IR 报告通常专注于提供可作的见解，例如入侵的时间、传播和补救步骤，通常用于指导即时决策。这些报告优先考虑明确性和即时性，而不是法律手续。相比之下，法医时间线分析报告必须遵守严格的文档标准，确保每个事件都得到精确跟踪，并以保持调查完整性以供法律审查的方式呈现 [2]。这涉及对时间戳、元数据的严格验证，以及交叉引用多个数据源，以重建法律上站得住脚的事件时间线。

GenDFIR 框架不是一个放之四海而皆准的解决方案，因为 DFIR 实践因组织而异。该框架旨在作为一种灵活的方法，将 GenAI 模型集成到 DFIR 工作流程中，支持专家提高调查效率。该框架侧重于日志分析、异常检测和快速证据识别等任务，目的是提供上下文丰富的时间线分析，以帮助 DFIR 专家更快地做出明智的决策。
GenDFIR 中的大型语言模型：LLM 在 DFIR 任务中的实际应用仍然是新颖的。LLM 在各个领域的应用的最新进展引起了人们的兴趣，但它们远非 DFIR 研究的完全可靠工具 [62]。必须承认几个挑战，包括幻觉、精度和与输入/输出令牌长度相关的限制问题，这可能会限制模型处理 DFIR 案例中典型的大型数据集的能力。

LLM 是强大的工具，用于自动化数据分析、总结甚至生成事件报告的某些方面。然而，在没有人工监督的情况下，它们还不能执行高度专业化的法医任务。
GenDFIR 中的数据：GenDFIR 中使用的 LLM 以零镜头模式运行，仅依靠其预先存在的训练数据来生成通用的 DFIR 时间线分析报告。虽然这种方法适用于广泛的应用程序，但它不足以满足 DFIR 的特定和动态需求，后者需要实时识别和处理特定于事件的数据。这在丰富事件事件背景的阶段尤为重要，因为丰富和解释的有效性取决于 LLM 预先存在的知识及其处理相关数据的能力。此外，每个 DFIR 案例都涉及独特和敏感的信息，这些信息通常受到监管框架、组织政策和法律要求的影响。因此，事件数据高度多样化，反映了漏洞检测和响应机制的变化。

这种多样性凸显了一般知识和 DFIR 的细微要求之间的巨大差距。弥合这一差距需要超越通用输出，例如通过 GenDFIR 生成的时间线分析报告，并将特定于事件的数据集成到模型中。这可以通过使用来自真实事件的精选数据集在安全、受控的环境中训练 LLM 来实现。这种方法使 LLM 能够适应各种 DFIR 情景的不同特征，从而提高他们识别模式和在不同环境中有效响应的能力。

然而，将真实世界数据整合到 LLM 培训中提出了重要的隐私、法律和道德考虑。DFIR 调查通常涉及敏感信息，包括个人数据和专有组织内容。使用特定于事件的数据必须遵守数据保护法、组织同意政策和强大的安全措施，以防止在模型训练和推理期间出现违规行为。这些保护措施对于确保机密性同时最大限度地发挥此类数据对未来应用的价值至关重要。

此外，当前的 LLM 在适应其原始培训范围之外的新威胁或不断发展的威胁方面面临限制。如果不对新的、合乎道德和合法来源的数据集进行定期更新和再训练，它们在 DFIR 场景中的性能可能会随着时间的推移而下降。

4.1. GenDFIR 组件

以下是集成到 GenDFIR 中的组件：

LLM 模型：Llama-3.1 是 Meta 开发的强大模型，使用一系列标准基准和人工评估进行了评估。选择此模型的基本原理是其开源性质和网络安全相关内容的培训 [37]。这为 GenDFIR 提供了显着的优势，因为它表明 LLM 可以分析并可能识别异常事件，从而提供对网络事件的见解。该模型有不同的版本，具有不同的参数大小，包括 405B、70B 和 8B 参数。在早期阶段，我们采用了 8B 模型来减少幻觉和进行系统原型设计。
嵌入模型：mxbai-embed-large，一个 Mixedbread 版本，最大令牌限制为 512，最大维度为 1024，在海量文本嵌入基准测试（MTEB） [63] 中表现优异。选择此模型的原因是它在检索和语义文本相似性方面的能力。此外，它对检索过程中的评分方法（如 GenDFIR 中采用的余弦相似度）也很有效。
DFIR RAG 代理：自主上下文增强代理由 Llama-3.1 提供支持。它在 GenDFIR 中用于基于上下文的检索和输出生成。作为网络安全和 DFIR 方面的专家，它自主运营，专门从事 DFIR 时间表分析，其任务是从我们包含网络事件的知识库中识别与网络事件相关的事件和信息。

4.2. 实验环境

GenDFIR 和为其提供支持的 LLM 旨在在本地运行。用于实验的数据是合成的，代表了各种网络事件，这些事件模仿了 Windows 事件日志、网络钓鱼场景（电子邮件）和其他网络事件的特征，所有这些都以文本格式和英语呈现。下面概述了测试 GenDFIR 的实验环境和条件的详细信息（清单 3）。

Python 库：我们的代码是用 Python 编写的。使用的主要库是用于张量运算的 PyTorch、用于数值计算（如余弦相似性）的 NumPy 以及用于数据作和处理嵌入的 pandas。
LLM 响应温度：核心 LLM （Llama3.1：8b）的温度设置为非常低的值（温度 = 0.1），以减少困惑并控制预测可变性。这限制了不必要内容的生成，使框架能够更有效地关注从知识库中检索的知识，而不是依赖 LLM 的其他和不相关的内部知识。
最大输出令牌设置为（maxtokens = 2000），以便方便地使用嵌入模型（mxbai-embed-large：335m）和 LLM （llama3.1：8b）规范。
完成次数设置为较低的值（n = 1），以使 LLM 的生成更具确定性，并选择最佳单词预测。

清单 3.GenDFIR 代码片段可视化。

计算机 14 00067 i003

5.并行计算：为了优化张量计算，CUDA 用于在 GPU 上运行张量（列表 4）。

清单 4.CUDA 和 GPU。

计算机 14 00067 i004

4.3. 数据集细化

本研究中的实验基于合成场景，旨在模拟现实世界的网络事件，同时保护隐私、同意和机密性。每个场景都经过定制，以满足本地运行的实验装置（maxtokens = 2000）和（llama-3.1：8b）的特定要求），确保与其设计和目标兼容。下表（表 4）概述了实验中使用的事件场景的描述和详细信息：

表 4.网络事件场景。

Table 4. Cyber incident scenarios.

Scenario	Description	Number of Events (Chunks)	Max Chunk Length (Characters—MaxLength) per Event	Event Splitter
SYN Flood	This is a SYN flood attack in which unusual network events disrupted standard operations. The anomalies were characterised by a high volume of synchronise (SYN) requests, causing intermittent service degradation across the network. Data were collected from firewalls, network scanners, and intrusion detection systems (IDSs). The analysis focuses on critical attributes such as event ID, details, level, timestamps, source, task category, and affected devices to assess the nature of the attack and identify potential threats or operational issues. Each event log represents a chunk.	30	210	“.”
Rhino Hunt (inspired by [64])	This scenario is inspired by the well-known “Rhino Hunt” incident, but in this case, it involves the illegal exfiltration of copyrighted rhino images. An unauthorised individual accessed the company’s FTP server and stole twelve protected images. The investigation traced the exfiltration to a device within the company’s internal network, with the stolen data directed to an external IP address. Forensic analysis revealed that the user associated with the IP address possessed additional images matching the stolen ones. The collected data included images that met specific metadata criteria, including camera model, artist, and copyright details. - The images used in this scenario are AI-generated (using DALL·E 3) for the purpose of ensuring copyright compliance and consent. The metadata of the images were modified to align with the scenario description, and they can be extracted and viewed using the Metaminer module found in [65]. The events in this scenario represent log entries where the context of the image was added at the beginning of each event to enrich the entry with additional context.	8	500	“/”
Phishing Email—1	This scenario represents a phishing attack where an employee was targeted by emails impersonating a security service. The organisation’s policy prohibits communication with untrusted domains, permitting only interactions with verified sources. All suspicious emails were collected for analysis, focusing on domains, sender and receiver details, IP addresses, email content, and timestamps to determine the nature of the attack. Each single email represents a chunk.	15	725	“/”
Phishing Email—2	Like in the previous scenario, this is a phishing attack where an employee was targeted by emails impersonating a trusted support service, attempting to deceive the employee into verifying account information. The organisation’s policy restricts communication with unverified domains and permits only trusted sources. All suspicious emails received during the suspected phishing period were collected for analysis, focusing on domains, sender and receiver details, IP addresses, email content, and timestamps to assess the nature of the attack. Each single email represents a chunk.	20	500	“/”
DNS Spoof	This incident involves a DNS spoofing scenario where multiple event logs were collected from various devices, including Windows event logs, DNS server logs, firewall records, and network traffic monitoring tools. Irregularities such as delayed DNS responses, inconsistent resolutions, and unexpected outbound traffic were identified, triggering alerts from the intrusion detection system (IDS) and performance monitoring tools. Each event log represents a chunk.	23	200	“.”
Unauthorised Access	This scenario is an unauthorised access attempt detected via an intrusion detection system (IDS). The system flagged multiple access attempts from a blacklisted IP address, which was not authorised for any legitimate activity within the network. The collected data, including warnings, errors, and critical alerts, provided the basis for further investigation into the potential breach. Each event log represents a chunk.	25	208	“.”

5. 结果、评估和讨论

5.1. 结果

在 [65] 中发现的结果包含对人工制品的分析，即知识库中的事件、它们的相关性以及它们与事件相关的解释。此外，对事件事件进行了上下文扩充，以增强其可解释性。该框架还提供其他知识，例如识别异常事件和趋势、根本原因和缓解解决方案。这反映了代理充当 DFIR 助手的角色，在实际场景中，它在网络事件期间提供此类信息。附录 A 中介绍了这些结果的一部分。

然而，如果不进行进一步的评估，这些结果就不能完全被认为相关，这将在下一节中介绍。

5.2. 评估

由于 GenDFIR 是一个特定于上下文的框架，在零镜头环境中使用 LLM，因此我们提出了一种量身定制的评估方法，重点是评估框架的输出，包括检索、证据识别和提取的有效性。传统上，LLM 是使用 MMLU 等既定基准进行评估的，MMLU 衡量通用语言的理解和推理。例如，Llama-3.1 已被 Meta 进行基准测试，证明其可靠性不仅适用于通用应用，也适用于一般网络安全环境 [37]。然而，这样的基准并不能充分反映 DFIR 等高度专业化领域的要求。

F1 分数、精确率和召回率等指标最初是为数值或分类任务设计的，但无法捕捉到在这种情况下证据检索和特定上下文分析的复杂性。为了解决这个问题，我们提出并调整准确性、相关性、精确匹配和 top-k 证据检索等指标，以适应该框架的独特需求。此外，我们简要强调了 DFIR 行业基准的必要性，这是在组织范围内部署 GenDFIR 的关键要求。以下部分介绍了这些指标的设计和应用：

准确性：GenDFIR 的准确性是通过评估生成的时间线分析报告来确定的，以识别和验证事实内容，以及评估这些报告如何以及在多大程度上有用和可靠地协助 DFIR 专家。此过程涉及将生成的信息与经过验证的知识库（事件事件）进行交叉引用，以确保正确性和相关性，同时确认解释合乎逻辑且合理。这些报告分为两个部分：

（一）知识库（事件）事实部分：此部分包括伪影分析、时间线分析、事件关联和时间线重建。这些组件源自从知识库中检索的事实，并通过 LLM （Llama-3.1）丰富了上下文信息。

（二）其他 Insights Facts 部分：本节提供补充信息，包括缓解策略、建议和其他相关见解。这些输出是使用 LLM （Llama-3.1）的一般知识及其对知识库的上下文应用（事件事件）生成的。

GenDFIR 报告的准确性是使用一个提议的方程来评估的，该方程旨在量化经过验证的正确事实相对于生成的事实总数的比例。方程定义如下：

其中，根据表 5，以下内容适用：
- 总体正确事实是通过将事件知识库中的正确事实与通过 LLM 生成的正确事实相结合而获得的准确事实的总数，如表 5 所示。
- 正确事实是指从事件知识库和 LLM 生成的事实中单独验证并被视为准确的事实。
- 同样，不正确的事实是不准确的事实，并与每个来源分开识别。
根据对时间线分析报告和结果的广泛监控和评估，如表 5 所示，在生成的报告中发现的次要事件事件及其解释和检索在某些情况下被确定为不正确。例如，在 Phishing Email-1 中，据报道“2.尝试让 Michael 通过链接（上午 10：45、下午 3：00 和下午 04：30）验证其账户的后续电子邮件不正确，因为时间（下午 04：30）不存在，并且未在事件事件知识库中提及。另一方面，通过 LLM 生成的额外知识都是正确的。例如，在 SYN-FLOOD 场景中，时间线报告中生成和发现的关键发现是相关的“**关键发现** * 全天检测到的多次 SYN 洪水攻击。* 大量 SYN 数据包和过多的数据包量超过阈值。* 定期网络性能检查发现了潜在问题并成功清除。尽管这些发现和知识是与任何类型的 SYN 洪水攻击相关的常识，但它们在这种情况下是准确的。
下图（图 8）说明了每种情况的准确率，根据前面给出的公式和表 5 中的结果计算得出：

表 5.时间线分析报告事实。

Table 5. Timeline analysis report facts.

Scenarios	Overall Timeline Analysis Report Facts	Incident Knowledge Base	LLM Facts (All Correct)
SYN Flood	20	- Correct: 17 - Incorrect: 0	03
Rhino Hunt	16	- Correct: 08 - Incorrect: 0	08
Phishing Email—1	13	- Correct: 09 - Incorrect: 1	03
Phishing Email—2	22	- Correct: 13 - Incorrect: 03	06
DNS Spoof	19	- Correct 14 - Incorrect: 0	05
Unauthorised Access	22	- Correct: 14 - Incorrect: 01	07

计算机 14 00067 g008

图 8.针对不同网络事件场景的 GenDFIR 时间线分析报告的总体准确性。

计算所有场景的平均准确率表明，GenDFIR 的整体准确率为 95.52%。

2.关联：在这种情况下，我们将相关性指标定义为通过框架提供的答案的相关程度。为了衡量这一点，我们为与事件相关的每个场景制作了 20 个 DFIR 上下文特定的提示（在 [65] 中提供 — 总共 240 个提示），以问题的形式出现。这些提示的特点是它们关注各个方面，包括情绪（例如，“事件 2 中描述的图像的整体情绪是什么（图 b）？—Rhino Hunt 情景）、意图（例如，“GlobalBank 在初始电子邮件中要求采取什么具体行动？—电子邮件网络钓鱼 1 情景）和深入分析（例如，“分析与涉及 SYN 洪水攻击的事件相关的严重性级别。列出事件及其相应的严重性级别。—SYN-FLOOD 情景）以及检索、预测和见解。根据生成的答案，GenDFIR 未能为某些问题（DFIR 提示）提供正确的答案。例如，在 SYN 泛洪场景中，GenDFIR 在提示 4 上失败;在 Rhino Hunt 场景中，提示 13 部分正确（50%），而在网络钓鱼电子邮件 1 场景中，GenDFIR 在提示 11 和 12 上都失败了。这些答案的正确性和不正确性与事件事件知识库（被视为地面实况数据）进行了比较和交叉引用。详细的失败和成功情况如表 6 中的图表所示：

表 6.提示在不同网络事件场景的 GenDFIR 时间线分析报告中的相关性（以百分比表示）。

Table 6. Prompts’ relevance (in percentages) in GenDFIR timeline analysis reports for different cyber incident scenarios.

Prompt	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20
SYN Flood	1	1	0	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1
Rhino Hunt	1	1	1	1	1	1	1	1	1	1	1	1	0.5	1	1	1	1	1	1	1
Phishing 1	1	1	1	1	1	1	1	1	1	1	0	0	1	1	1	1	1	1	1	1
Phishing 2	1	1	1	1	1	1	1	1	1	1	1	1	1	1	0	1	1	1	1	1
DNS Spoof	1	1	0	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1	1
Unauthorised Access	1	1	1	1	1	1	1	0.25	1	1	0.66	1	1	1	1	1	1	1	1	1

在这种情况下，GenDFIR 的总体相关性为 94.51%。

3.精确匹配：GenDFIR 中的 EM 指标旨在评估框架从知识库中检索精确和精细信息的能力。它通过提出需要与真值数据完全匹配的 DFIR 问题来测试框架的性能。这包括具体的详细信息，例如时间戳（例如，“Michael Davis 回复 GlobalBank 安全团队的第一封电子邮件的确切时间是什么时候？）”和描述（例如，“在事件 5 中，鳄鱼的描述是什么？”），以及其他相关查询。在 [65] 中发现的结果表明，GenDFIR 表现良好，与基本事实完全一致。GenDFIR 成功通过了所有检查，没有任何错误。因此，本例中的 EM 评分为 100%，因为所有 20 个提示都已正确回答。

4.证据（Top-k）：DFIR 时间线分析主要侧重于通过分析数字人工制品来识别证据，事件之间的相关性与被认为与事件相关的证据的相关性相关。为了促进推理过程中证据识别的实时可视化，我们开发了一个脚本，如清单 5 所示，它使用 UMAP 库。

GenDFIR 的 UMAP 库适配：UMAP 库包含用于降维和可视化的算法，能够识别 2D 向量空间中最近的数据点。这些算法的工作原理是计算数据点之间的距离，选择最近的邻居，并生成一个图形表示来说明数据点是如何关联的，同时保留局部和全局结构[66]。在 GenDFIR 的上下文中，我们使用此库开发了一个脚本，以可视化矢量化用户输入中的特征之间的关系𝑉𝑄DF我𝑅VQDF我R及其在嵌入式知识库中的相应功能（事件事件、𝑉𝐸VE).此过程有助于确定 DFIR 专家的输入数据如何与相关事件事件保持一致。

请务必注意，此方案中的证据识别取决于用户提供的输入，用户决定应将哪些事件或属性视为证据。换句话说，证据完全基于 DFIR 专家发布的查询提示，其可疑评估指导了该过程。如方法中所述，GenDFIR 集成了基于余弦相似性的算法和 DFIR 特定的代理来评估相关性。在 UMAP 中，我们添加了一个 heat 参数，以可视化 DFIR 专家的查询与知识库中的事件嵌入在推理过程中的相似性。此 heat 参数的范围为 0 到 1，其中接近 1 的值表示查询与事件嵌入之间的相似性较强，接近 0 的值表示相似性较弱。可视化项中的颜色强度反映了这种相似性，较高的值（更接近 1）由较暖的颜色表示，表示事件与查询更相关。除此之外，该脚本还利用了 UMAP 算法的传统功能，该功能根据数据点之间的相似程度对数据点进行聚类。

清单 5.用于计算和可视化相似性的代码片段。

计算机 14 00067 i005

为了解释通过 UMAP 生成的图表，彼此接近的数据点表示更高的上下文相似性。在推理过程中，被认为与查询相关的事件将在可视化项中彼此靠近。heat 参数由颜色变化表示，反映了数据点之间的相似程度，颜色越暖表示与专家查询的匹配程度越强。
在代码中，calculate_cosine_similarity 函数计算矢量化输入之间的余弦相似度𝑉𝑄DF我𝑅VQDF我R和知识库嵌入𝑉𝐸VE.然后，visualise_cosine_similarity 函数应用 UMAP 将这些相似性分数降低到 2D 空间，其中接近度表示事件之间的相似性更强。生成的可视化表示形式使 DFIR 专家能够更好地了解查询和知识库之间的一致性。
图 9、图 10、图 11、图 12、图 13 和图 14 说明了 UMAP 证据可视化。这些数字中显示的 Top K 数量与事件事件知识库中手动识别的证据以及对提示和事件之间相似性的解释准确对应。

计算机 14 00067 g009

图 9.SYN flood — 证据（前 K = 5）。

计算机 14 00067 g010

图 10.Rhino Hunt — 证据（前 K = 4）。

计算机 14 00067 g011

图 11.网络钓鱼电子邮件 1 - 证据（前 K = 6）。

计算机 14 00067 g012

图 12.网络钓鱼电子邮件 2 — 证据（前 K = 7。

计算机 14 00067 g013

图 13.未经授权的访问 — 证据（前 K = 25）。

计算机 14 00067 g014

图 14.DNS 欺骗 — 证据（前 K = 6）。

图 13 提供了一个示例，其中所有事件都被视为证据。此方案的知识库包含属性 “Level” 设置为 “Warning” 的事件。表 7 中的地面实况数据根据用户的输入指定了总共 25 条证据（未经授权的访问场景）：“识别级别为'警告'的所有事件”。然而，使用 UMAP 生成的图 13 显示了所有 25 个数据点聚集在一起，表明邻域和环境相似性都存在。尽管如此，某些数据点的热量参数中的余弦相似性颜色似乎更冷，余弦相似度得分为 ≤0.54。这种差异表明，虽然所有事件都具有相同的 “Level” 属性，但事件中的其他特征或上下文因素（例如时间戳、事件描述或来源）会影响它们的嵌入表示形式，从而影响它们的整体相似性。较冷的颜色表示，尽管共享相同的 “Level”，但这些事件在其他属性或它们与查询上下文的关系上可能有所不同，尤其是在存在内部 DFIR 上下文特定代理及其内部分配的角色时。

表 7.知识库中的前 K 个证据（事件事件）。

Table 7. Top K Evidence within the knowledge base (incident events).

Cyber Incident	Criteria of Evidence (Evidence Extraction Prompt)	Incident Events—K	Evidence—Top K
SYN Flood	Identify all events with Level: Critical.	30	05
Rhino Hunt (inspired by [64])	Rhino.	08	04
Phishing Email—1	Identify all events that appear to be phishing.	15	06
Phishing Email—2	Identify all events that appear to be phishing.	20	07
Unauthorised Access	Identify all events with Level: Warning.	25	25
DNS Spoof	Identify all events with Level: Error.	23	06

然而，通过这个指标，我们只关注证据检索和识别，这已经成功证明，因为所有 25 条证据都聚集在一起。在图 13 的可视化中要考虑的另一个方面是维度 2 的大小，范围从 0 到 3.2，例如，与图 14 相比，这个范围会缩小。如果增加，则数据将看起来更紧密。
表 7 包含每个网络事件的真值证据（事件 — K）的数量，由用户确定、DFIR 专家提示的说明以及通过 GenDFIR 生成的前 K 个证据：

5.DFIR 行业基准

由于行业实体通常依赖于针对其特定需求和实践量身定制的各种工具，因此在 DFIR 时间线分析中为 GenDFIR 创建通用基准是一项挑战。虽然 NIST SP 800-86 [67] 和 ISO/IEC 27037 [68] 等既定行业标准为一般过程提供了指南，但它们并没有为时间线分析提供精确或专用的框架。

在本文中，我们提出了一个量身定制的解决方案，以了解如何将 GenDFIR 用于行业基准测试。该基准测试旨在使框架的可靠性、稳健性和性能与行业标准保持一致，特别是那些管理法医完整性和准确性的标准，特别关注在重建准确的事件时间表时生成输出的可信度：

时间线分析中的人工验证和固有的 LLM 限制：虽然 GenDFIR 旨在帮助研究人员进行时间线分析，但它并不能取代人类专业知识。正如以前的研究和行业经验所表明的那样，LLM 会产生幻觉——不正确或不相关的信息——尤其是在生成长序列文本或处理复杂上下文时。这些限制是 LLM 架构所固有的，其中模型根据概率预测单词序列，这通常会导致不连贯或不相关的输出。这一挑战在时间线分析中尤为关键，因为即使是很小的不准确也会对调查产生重大影响。

根据 NIST 800-86 和其他法医指南，人工监督对于验证重建的时间线是否准确且在法律上站得住脚至关重要 [67]。法医标准始终强调人类专业知识在审查和验证自动化结果方面的重要性，尤其是在法律诉讼或监管调查等高风险环境中。通过在关键阶段整合人工验证，GenDFIR 增强了调查人员掌握事件更广泛背景的能力。这使他们能够专注于决策和战略响应，同时自动化证据检查中更耗时的方面。
DFIR 中的 GenAI：截至目前，还没有明确的基准或标准专门指导将 GenAI（尤其是 LLM）集成到取证或事件响应实践中。然而，由于缺乏一个清晰而全面的既定框架来将 GenAI 整合到 DFIR 中，这使得许多关于最佳实践、性能预期和此类技术局限性的问题尚未解决。GenAI 和 LLM 的使用涉及在训练、推理和交互期间处理上下文数据。这带来了与隐私和机密性相关的重大风险，这些风险从数据收集过程一直到 LLM 输出生成。解决这些挑战可能会导致开发先进的专用、特定于行业的基准，以将 GenAI 集成到 DFIR 中，为其可靠和合乎道德的应用提供结构化的基础。
优化大规模部署的性能：为了确保 GenDFIR 在大规模时间线分析中的有效性，尤其是在复杂事件中，必须优化部署配置。与行业标准实践一致，包括用于计算取证的 NIST 标准 [67]，LLM 的性能对参数调整高度敏感，尤其是温度设置。温度通过影响模型预测的确定性或多样性来控制 LLM 的困惑度。大规模部署还需要能够有效处理大量数据的系统架构。这可以通过扩展嵌入和 LLM 模型的标记限制来实现，从而允许框架处理更大的输出。当与高性能 GPU 配置结合使用时，GenDFIR 能够更好地扩展以进行更复杂的调查，从而产生既精确又可靠的输出。
知识库管理和定期输出审查：使用 GenDFIR 进行可靠的时间线分析还需要对系统中使用的知识库进行有效管理。此知识库必须既最新又准确，因为它直接影响证据提取和时间线重建的准确性。行业标准，如 ISO/IEC 27037 [68]，强调法医工具必须经过持续验证，以确保它们产生准确可靠的结果。这个持续的审查过程与输入（从知识库嵌入的证据）和生成的输出的定期验证保持一致，确保时间线分析与最新证据和事件背景保持同步。

此外，知识库应在安全的存储库中本地处理，而不是依赖在线系统。虽然现代云基础设施提供了高级安全功能，但本地存储通常被认为更可靠，可用于取证目的。根据 NIST 关于信息系统安全和隐私控制的特别出版物 800-53 [69]，本地存储可以提供对敏感数据的更多控制，并且不易受到与基于云的系统相关的风险的影响，例如第三方访问或数据泄露。取证指南通常建议保持对整个存储环境的控制，尤其是在处理敏感证据时。

时间线分析中证据提取的一个关键方面是它在支持法律索赔或正式程序方面的作用。因此，法医专家必须在证据提取任务期间将 GenDFIR 部署在优化状态。这包括确保系统配置正确，知识库得到准确管理，并集成人工验证以保护证据处理中最敏感方面的完整性。
合法和正式用途的部署：为了使时间线分析适合合法和正式用途，GenDFIR 必须满足法医标准实践要求的严格标准。法律调查中使用的工具必须在法律背景下表现出高水平的准确性、精确性和可采性，如 ISO/IEC 27037 [68] 和 ISO/IEC 17025 [70] 等法医指南所述。专家必须验证 GenDFIR 是否根据其高级要求进行部署，确认用于法律辩护或正式调查的所有输出都是可靠且可辩护的。

5.3. GenDFIR 整体性能

GenDFIR 的整体性能是通过计算每个指标的聚合准确性来评估的，如表 8 所示：

表 8.整体性能。

Table 8. Overall performance.

Metric	Rate
Accuracy	95.52%
Relevance	94.51%
EM	100%
Top-K	100%
Overall	97.51%

结果表明，该框架具有很高的执行率，表明在这个开发阶段，该框架在 DFIR 调查和时间线分析的可靠性和精度方面显示出前景。然而，重要的是要注意，这些评估是在特定的配置和实验条件下进行的，这可能会影响它们对其他环境和根据正式的 DFIR 行业基准的普遍性。

5.4. 与其他 DFIR 工具的比较

GenDFIR 通过响应当前趋势和现有工具的限制来解决 DFIR 时间表中的关键需求。为了演示其应用，我们将从我们的结果中得出的功能与其他工具的功能进行了比较（表 9）：

表 9.GenDFIR 与其他工具的比较。

Table 9. Comparison of GenDFIR with other tools.

Tool	Artefact Analysis	Anomaly Detection	Event Correlation	Full Contextual Timeline Report
Splunk	Yes	Yes	Yes	No
FTK, Autopsy	Yes	No (basic detection)	No (manual correlation)	No
Velociraptor	Yes	Yes (basic)	Yes (automated)	No
Timesketch	Yes	No (basic detection)	Yes (timeline-based correlation)	No (visual timeline only)
GenDFIR	Yes (Basic)	Yes (basic anomaly detection for basic incidents)	Yes (automated)	Yes (full report with additional context)

5.5. 讨论

根据我们的实验、结果和框架的整体性能，如前所述，GenDFIR 不应被视为所有 DFIR 任务的通用解决方案。相反，它被设计为解决 DFIR 分析师或专家面临的特定挑战的基础框架，尤其是在人工制品分析方面。

如上图所示，评估结果显示成功率从 90% 到 100% 不等，具体取决于所使用的指标。需要强调的是，这些结果基于简化的实验场景和最少的配置设置。此外，生成的报告的主要目的是通过提供与事件相关的一般上下文知识和网络安全信息来支持调查过程。在实践中，随意和精确的 DFIR 时间线分析报告差异很大，因为两者都在记录事件中的事件顺序方面发挥着至关重要的作用。这些报表通常侧重于以下内容：

事件年表：事件的详细时间线，显示与事件相关的活动的时间顺序。
证据相关性：分析各种证据与时间线的关系。
事件概述：事件的摘要，包括主要发现和影响。

此外，这些报告通常是针对不同的受众量身定制的 [71]：

技术利益相关者：取证专家和 IT 专业人员需要具有精确时间戳、技术分析和证据关联的详细技术报告。例如，技术报告可能包括系统日志条目的精细时间戳和详细的取证数据。
非技术利益相关者：面向非技术受众（如高级管理层或法律团队）的报表提供了简化的时间表，并突出显示了关键事件。这些报告侧重于事件和影响的总体顺序，其格式设置为非专家可以访问和理解。例如，执行摘要，后跟简化的事件时间线。

在 GenDFIR 的上下文中，报告模板是通过 LLM 生成的，由人工提示和内部 DFIR 代理的提示指导。此外，生成的报告受到所选 LLM 和所选嵌入模型的标记限制的约束。因此，如果模型和标记输出大小都被改变以包含更大的模型，则时间线分析报告可能会更长，并且内容会有所不同。但是，报告会自动压缩在我们当前配置的范围内，由于 LLM 的令牌限制，该配置限制为最多 2000 个令牌。

强调 GenDFIR 实用性的另一个关键方面是它识别证据的能力。该框架可以根据怀疑、假设或旨在在调查期间监控的特定元素轻松识别证据。如前所述，通过使用特定于上下文的 DFIR 指令或查询提示框架来促进证据检索，从而允许有针对性地识别相关事件。

6. 限制、道德问题和未来工作

6.1. 限制

尽管成功地将拟议的框架变为现实并成功生成时间线分析报告，但这项研究遇到了几个限制：

方法的新颖性：将 LLM 应用于 DFIR 时间线分析是一种相对较新的方法。关于自动化时间线分析的现有研究有限，这意味着几乎没有既定的指南或基准，因此需要为这项任务开发新的背景和方法。
数据量和种类：网络事件场景中数据的大量和异构性给数据管理和处理带来了重大挑战 [28]。由于情况不同，现实世界的网络事件通常会带来独特的挑战，需要量身定制的方法。在这些事件中生成的数据可能差异很大，并且每个事件背后的规则或触发因素往往不同 [72]，这使得通用解决方案的实施进一步复杂化。

此外，网络威胁的动态和演变性质需要深入了解其根本原因以及导致其出现的相互关联的因素。例如，组织的基础设施漏洞和互连设备的相互作用可能会共同暴露出弱点。通常，漏洞并不局限于单一资产，而是互连系统中缺陷组合的结果，从而放大了事件响应的复杂性。

在 GenDFIR 的案例中，我们的实验利用了合成和简化的网络事件场景，故意排除了先进的反取证技术。这种方法使我们能够专注于在受控环境中开发和验证核心概念框架。但是，这会带来限制。现实世界的网络事件通常涉及采用反取证和其他规避技术的老练对手，本研究未考虑这些方面。

此外，从这些实验场景过渡到现实生活中的应用将需要访问多样化、真实的数据集，这通常涉及法律和道德考虑。

此外，在事件响应中处理大型数据集的可扩展性挑战将需要升级硬件资源（例如高性能 GPU）并调整框架配置，尤其是在 LLM 功能方面，例如令牌限制。采用实例并行、批量大小调整和高级资源分配（例如分布式处理和负载平衡）等优化技术将进一步支持框架的扩展。
隐私和数据安全：处理 DFIR 案例本身涉及处理敏感、机密和个人数据，包括内部组织信息、客户记录或技术系统日志。在我们的实验中，我们通过使用从模拟网络事件中得出的合成数据集来减轻这些隐私风险。这种方法消除了对真实世界数据的依赖，确保符合严格的法律和道德标准，例如欧盟的 GDPR 和 NIS2 指令，该指令专门针对金融、能源和医疗保健等关键行业的网络安全和数据完整性。

利用 GenDFIR 等 LLM 的一个核心挑战是它们依赖于大量数据输入，包括过去事件的运营和历史数据，以提供量身定制的准确响应。这带来了两个关键问题：维护数据机密性和遵守管理数据保留和使用的法律框架。例如，如果最初为调查而收集的数据在未经明确同意的情况下重复使用，则使用详细的历史事件数据（例如攻击模式、缓解响应或取证伪影）对 LLM 进行微调可能会违反 GDPR 的“目的限制”原则。同样，NIS2 指令要求在处理对公共安全至关重要的行业的日志和元数据时采取强有力的保护措施，例如在传输过程中和静止时加密敏感日志。

为了应对这些挑战，采用 GenDFIR 的组织应考虑实施先进的隐私保护技术，包括以下内容。

–数据匿名化：从训练数据中删除可识别的属性（例如 IP 地址、用户名和电子邮件域），以确保消除对个人或资产的可追溯性，同时保留事件的上下文。

–联合学习：支持直接在组织场所内的分布式安全系统上对模型进行协作训练。

–差分隐私：应用算法修改以在查询结果中引入统计不确定性，从而防止对单个记录进行逆向工程或公开，即使在共享环境中也是如此。
评估方法：在现阶段，评估我们框架的有效性和绩效面临重大挑战，尤其是在 DFIR 实践的背景下。目前对特定领域应用中 LLM 和 AI 系统的自动评估方法的研究仍处于早期阶段，大多数方法严重依赖人工评估。在我们的例子中，这需要创建自定义的基于 DFIR 上下文的评估提示来衡量性能。然而，即使有了提议的指标，我们认为它们也是不够的。DFIR 领域本质上是复杂且不确定的，其结果通常受到各种不可预测的因素的影响，例如不同的事件类型、数据质量和上下文的细微差别。这些变量使得出一致、受控结果的能力复杂化，从而进行自动评估。此外，网络事件的动态和快速发展性质要求评估方法能够适应现实世界场景的技术和背景变量，这为开发强大、可靠的评估框架带来了持续的挑战。

6.2. 道德问题

将 GenAI 引入 DFIR 领域会带来严重的道德问题，这些问题至关重要，鉴于所涉及的数据、实践和活动的敏感性和私密性，需要仔细考虑。以下是最相关和最常见的问题 [73]：

隐私和保密：使用 LLM 推进网络事件时间线分析可能会导致重大隐私泄露。这些技术通常需要访问和处理大量敏感数据，包括个人、数字、财务、健康和其他类型的信息，所有这些信息都必须符合安全标准和框架。这增加了在没有适当保护措施的情况下暴露个人和机密信息的风险。
准确性和效率：确保从 LLM 支持的框架中自动分析和生成报告的准确性和可靠性至关重要。不准确的结果可能会导致调查人员和 DFIR 专家得出有缺陷或不相关的结论和决定，从而可能影响法律程序和司法公正。
同意：获得其数据用于框架在现实场景改编中自动处理的个人的适当同意至关重要。未经明确同意，使用此类数据将直接侵犯他们的隐私权。
偏见、幻觉和公平性问题：LLM 自然会面临强化偏见、幻觉和公平问题的可能性，这可能会导致网络事件分析期间出现不公平的结果。在 GenDFIR 的上下文中，上下文扩充过程（解释和连接知识库中的事件）可能会无意中传播现有偏见或产生扭曲的见解。这损害了调查的公正性和可信度，尤其是在决策必须基于客观证据的高风险情况下。

通过设计，他们根据从训练数据中学到的模式和相关性生成响应。这种倾向意味着训练数据集中存在的偏差可以直接影响输出，而幻觉可能会导致与输入数据或事实无关的捏造细节。尽管这些问题无法完全根除，但缓解策略可以显著减少它们的发生。

GenDFIR 的成功在很大程度上取决于它的部署环境以及其配置与特定领域的上下文的一致性。有几种措施可以最大限度地减少偏见和幻觉：

–对特定领域的数据进行微调：通过在精选、无偏见和特定于上下文的数据集上训练或微调 LLM，输出可以更符合 DFIR 工作流程的目标和运营需求。

–提示工程：精心构建提示可以指导模型提供更准确、更相关和更少偏见的回答。

–偏差审计和测试：定期评估模型输出的偏差指标和其他错误有助于识别和纠正有问题的模式。

在这个阶段，LLM，包括它们在 GenDFIR 中的实现，不应被视为能够实现最终可靠性的完全自主系统。产出必须始终受到审查，并明确承认其局限性，因为 LLM 不能替代专家判断和仔细分析。
自动检测证据：在采用框架自主检测和检索证据的情况下，不当的内部处理或分析可能会损害其可靠性和有效性。

6.3. 未来工作

该框架的未来方向侧重于通过提高性能、可扩展性和在实际环境中的适用性来减轻其局限性。一个关键目标是整合真实世界的网络事件数据，以根据可信数据而不是合成来源评估框架的输出。这将允许分析更广泛的网络威胁，包括涉及反取证技术的威胁，并将提高框架应对复杂安全事件不断变化的性质的能力。使用的数据将遵守 DFIR 法律标准，确保在必要时获得适当的同意。

为了增加系统的功能，将实施专门的自主 LLM 代理，每个代理都针对特定任务而设计，例如时间线分析、证据关联和根本原因识别。这种模块化方法将改善运营，尤其是在更复杂的事件中。传统的 AI 指标（例如 F1 分数、精度和召回率）不足以评估强调上下文和叙述驱动报告的输出，因此需要为此目的开发新的方法和指标。将 GenAI 集成到 DFIR 流程中是一个重大的困境。虽然 NIST AI 风险管理框架（AI RMF） [74] 等框架为 AI 治理提供了一般性指导，但它们未能解决取证应用程序带来的具体挑战。特别令人担忧的是 GenAI 根据其训练生成捏造数据的能力，这引发了对调查中使用的输出的可靠性和真实性的关键问题。这一差距为开发针对该领域的专业监管框架提供了机会。

框架的性能也将通过部署可以处理更多令牌的更大语言模型来优化，因为这将使框架在处理大型数据集和在高需求环境中处理复杂任务时更加高效。该框架的范围将扩展到其他部门，从数字取证开始。我们将探索其在监管合规和法律诉讼中的应用，以满足特定行业的需求。此外，该框架将在 IoT 安全环境中进行测试，允许分析来自连接设备的数据并支持这一不断增长的领域的取证。因此，根据这些提议的方向，该框架有望更有效地执行并达到新的能力水平。

7. 结论

这项研究为自动化网络事件时间线分析提出了一个新颖的框架，解决了从复杂的数字人工制品中获得人类可理解的见解的长期挑战。通过将特定于 DFIR 的检索增强生成（RAG）代理与 Llama 3.1 8B 模型集成，该框架引入了生成连贯时间线、提取上下文事件洞察和响应各种调查查询的独特功能。

该框架通过结合语义关联、异常检测和证据检索，解决了事件事件解释中的关键挑战。它通过高级使用余弦相似性来使调查查询与特定领域的知识保持一致，以及优先考虑相关性的代理驱动的过滤机制来实现这一点。这项创新超越了传统工具，因为它能够将事件动态置于情境中，为 DFIR 实践中基于 AI 的自动化提供了新的视角。

尽管在概念验证阶段运行，但该框架在实际场景中表现出了巨大的可扩展性和适应性潜力。未来的工作将侧重于减轻在大规模伪影分析期间观察到的轻微噪声，并验证框架在更复杂的环境中的性能。这些进步旨在为专家从业者建立一个强大的工具，为网络事件时间线分析调查中 AI 应用程序的发展做出贡献。