当前位置：首页 > article >正文

NLP期末复习

article 2025/1/7 18:33:03

1 NLP各范式概念

基于规则的方法

概念：依赖语言学规则和手工编写的规则集处理文本。

特点：规则明确，但难以覆盖所有语言现象，扩展性差。

统计方法

概念：利用统计模型和概率方法，从大量数据中学习语言模式。

特点：依赖数据，能处理复杂语言现象，但需要大量标注数据。

机器学习方法

概念：使用机器学习算法(如SVM、决策树)从数据中学习语言模式。

特点：需要特征工程，性能依赖特征设计和数据质量。

深度学习方法

概念：利用神经网络(如RNN、LSTM、Transformer)自动学习语言特征。

特点：自动提取特征，性能优异，但需要大量计算资源。

预训练语言模型

概念：在大规模语料上预训练模型(如BERT、GPT)，再针对特定任务微调。

特点：效果好，通用性强，但训练成本高。

端到端学习

概念：直接从输入到输出进行学习，无需中间步骤。

特点：简化流程，依赖大量数据和计算资源。

多模态学习

概念：结合文本、图像、音频等多种模态信息进行处理。

特点：能处理复杂任务，但数据获取和模型设计难度大。

自监督学习

概念：利用数据本身生成标签进行训练。

特点：减少对标注数据的依赖，适合大规模数据。

强化学习

概念：通过与环境交互，学习最优策略。

特点：适合序列决策任务，但训练复杂且不稳定。

迁移学习

概念：将已学知识迁移到新任务中。

特点：提升小数据任务性能，依赖源任务和目标任务的相关性。

少样本和零样本学习

概念：在少量或没有标注数据的情况下进行学习。

特点：适合数据稀缺场景，但模型泛化能力要求高。

2 不考

3 神经网络基本概念、卷积网基本概念、图卷积网基本概念、循环网络基本概念

神经网络(Neural Networks)

定义: 神经网络是一种模拟生物神经系统的计算模型，由多个神经元(节点)组成，通过权重和激活函数处理输入数据。

基本组成:

输入层: 接收外部数据。

隐藏层: 进行特征提取和转换。

输出层: 生成最终结果。

权重和偏置: 调节输入信号。

激活函数: 引入非线性，如ReLU、Sigmoid等。

卷积神经网络(Convolutional Neural Networks, CNNs)

定义: CNN是一种专门处理网格数据(如图像)的神经网络，通过卷积层提取局部特征。

基本组成:

卷积层: 使用卷积核提取特征。

池化层: 降低数据维度，如最大池化。

全连接层: 将特征映射到输出。

激活函数: 常用ReLU。

图卷积网络(Graph Convolutional Networks, GCNs)

定义: GCN是处理图结构数据的神经网络，通过图卷积操作聚合节点及其邻居信息。

基本组成:

图卷积层: 聚合邻居节点信息。

节点特征: 每个节点的特征向量。

邻接矩阵: 表示节点间关系。

激活函数: 常用ReLU。

循环神经网络(Recurrent Neural Networks, RNNs)

定义: RNN用于处理序列数据，通过隐藏状态记忆之前的信息。

基本组成:

隐藏状态: 记忆之前时间步的信息。

时间步: 序列中的每个元素。

循环连接: 将隐藏状态传递到下一时间步。

激活函数: 常用Tanh或ReLU。

总结：

神经网络: 基础模型，模拟生物神经元。

卷积神经网络: 处理图像等网格数据，擅长特征提取。

图卷积网络: 处理图结构数据，聚合邻居信息。

循环神经网络: 处理序列数据，具有记忆能力。

4 统计语言模型特点、神经网络语言模型特点、词向量及特点、典型词向量训练算法

统计语言模型特点

统计语言模型通过统计方法计算词序列的概率，主要特点包括：

基于频率：利用语料库中的词频和共现频率。
N-gram模型：常用N-gram模型，基于前N-1个词预测下一个词。
平滑技术：使用平滑处理低频或未登录词。
计算简单：模型简单，计算效率高。
数据稀疏：长词序列易出现数据稀疏问题。

神经网络语言模型特点

神经网络语言模型利用神经网络建模，主要特点包括：

分布式表示：词表示为稠密向量，捕捉语义和语法信息。
上下文感知：能捕捉长距离依赖关系。
自动特征学习：自动提取特征，减少人工干预。
模型复杂：计算复杂度高，需大量数据和计算资源。
泛化能力强：在多种任务中表现优异。

词向量及特点

词向量是词的分布式表示，主要特点包括：

稠密向量：低维稠密向量表示词。
语义相似性：语义相近的词向量距离较近。
可计算性：支持向量运算，如加减乘除。
上下文相关：如BERT等模型生成上下文相关词向量。
预训练：可通过大规模语料预训练，迁移到其他任务。

典型词向量训练算法

Word2Vec：
- Skip-gram：通过中心词预测上下文词。
- CBOW：通过上下文词预测中心词。
GloVe：基于全局词共现矩阵，结合全局统计和局部上下文。
FastText：考虑子词信息，适合形态丰富的语言。
ELMo：生成上下文相关词向量，基于双向LSTM。
BERT：基于Transformer，生成上下文相关词向量，通过掩码语言模型和下一句预测任务训练。

这些算法各有优势，适用于不同场景和任务。

5 注意力机制基本概念

注意力机制是一种模拟人类视觉注意力的计算模型，最初用于机器翻译，现广泛应用于自然语言处理、计算机视觉等领域。其核心思想是根据输入数据的不同部分动态分配权重，使模型能够聚焦于重要信息。

关键概念

1.Query, Key, Value：

Query(查询)：当前需要处理的信息。

Key(键)：输入信息的标识，用于与Query匹配。

Value(值)：与Key对应的实际信息。

2.注意力权重：

通过Query和Key的相似度计算权重，决定对每个Value的关注程度。

3.注意力得分：

使用点积、加性模型等计算Query和Key的相似度。

4.加权求和：

根据注意力权重对Value加权求和，得到最终输出。

计算步骤

1.计算相似度：

使用点积或加性模型计算Query和Key的相似度。

2.计算注意力权重：

对相似度进行Softmax归一化，得到注意力权重。

3.加权求和：

用注意力权重对Value加权求和，生成输出。

数学表达

$ Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$

$Q$：查询矩阵

$K$：键矩阵

$V$：值矩阵

$d_k$：键向量的维度

自注意力机制：自注意力机制中，Query、Key、Value来自同一输入序列，能够捕捉序列内部的依赖关系。

多头注意力机制：通过多个注意力头捕捉不同子空间的信息，增强模型表达能力。

应用：

机器翻译：捕捉源语言和目标语言的对应关系。

文本摘要：聚焦重要信息生成摘要。

图像分类：关注图像的关键区域。

注意力机制通过动态分配权重，使模型能够更有效地处理复杂数据。

6 事件抽取、文本匹配基本概念及建模方法；序列标注：维特比算法，RNN+CRF模型基本概念；序列生成：基本概念，解码方法，词元化算法，评价指标，存在问题，Transformer(模型及训练)，指针网络基本概念

事件抽取

事件抽取是从文本中识别特定事件及其相关元素的任务，通常包括事件类型、触发词、参与者、时间、地点等。其目标是将非结构化文本转化为结构化信息。

基本概念：

事件类型：预定义的事件类别，如“地震”、“会议”等。
触发词：指示事件发生的词或短语。
论元：事件的参与者或相关元素，如人物、时间、地点等。

建模方法：

1.规则匹配：基于规则和模板，适用于特定领域。

2.机器学习：使用特征工程和分类器(如SVM、CRF)进行事件检测和论元分类。

3.深度学习方法：
RNN/LSTM：处理序列数据，捕捉上下文。
BERT等预训练模型：利用预训练语言模型进行微调，提升效果。

文本匹配
文本匹配是判断两段文本在语义或结构上的相似度或相关性，常用于问答系统、信息检索等。

基本概念：
语义相似度：文本在语义上的接近程度。
结构相似度：文本在句法或结构上的相似性。

建模方法：

1.传统方法：
TF-IDF：基于词频和逆文档频率。
BM25：基于词频和文档长度。

2.深度学习方法：
Siamese Networks：通过共享权重的双塔结构计算相似度。
BERT：通过预训练模型直接计算文本对的相似度。

序列标注
序列标注是为文本中的每个词分配一个标签的任务，常见应用包括命名实体识别(NER)、词性标注等。

基本概念：

标签集：预定义的标签集合，如人名、地名等。

上下文信息：当前词的标签通常依赖上下文。

维特比算法
维特比算法是一种动态规划算法，用于寻找最可能的标签序列。它通过逐步计算每个位置的最优路径，最终回溯得到全局最优解。

步骤：

初始化：计算第一个词的所有可能标签概率。

递推：逐步计算每个词的最优路径。

终止：选择最后一个词的最优路径。

回溯：回溯得到整个序列的最优标签。

RNN+CRF模型
RNN+CRF结合了RNN和CRF的优点，RNN捕捉上下文信息，CRF处理标签间的依赖关系。

基本概念：

RNN(循环神经网络)：处理序列数据，捕捉长距离依赖。

CRF(条件随机场)：考虑标签间的转移概率，确保标签序列的合理性。

建模方法：

RNN层：输入词向量，输出每个词的隐藏状态。

CRF层：输入RNN的隐藏状态，输出最优标签序列。

优点：

上下文捕捉：RNN有效捕捉上下文。

标签依赖：CRF确保标签序列的合理性。

总结
事件抽取和文本匹配是自然语言处理的重要任务，分别用于信息结构化和文本相关性判断。

序列标注通过维特比算法和RNN+CRF模型，能够有效处理标签间的依赖关系，提升标注效果。

序列生成
序列生成是自然语言处理中的核心任务，旨在生成符合语法和语义规则的文本序列，广泛应用于机器翻译、文本摘要、对话系统等领域。词元化算法(Tokenization)
词元化是将文本分割成最小单位(词元，Token)的过程，是序列生成任务的重要预处理步骤。常见的词元化算法包括：

1.空格分词：
按空格分割文本。
优点：简单快速。
缺点：无法处理未用空格分隔的语言(如中文)。

2.子词词元化(Subword Tokenization)：
将单词拆分为更小的子词单元，解决未登录词(OOV)问题。
常见算法：
Byte Pair Encoding (BPE)：
从字符开始，逐步合并高频字符对。
广泛应用于 GPT、BERT 等模型。
WordPiece：
类似 BPE，但基于概率模型选择合并对。
用于 BERT 等模型。
Unigram Language Model：
基于统计语言模型选择最优词元化方案。
用于 SentencePiece 工具。

3.字符级词元化：
将文本分割为单个字符。
优点：适用于所有语言。
缺点：序列长度增加，计算成本高。

4.SentencePiece：
一种通用的词元化工具，支持 BPE 和 Unigram 算法。
不依赖空格，可直接处理原始文本。

在序列生成任务中，评价生成的文本质量是关键。常用的评价指标可以分为两类：基于重叠度的指标和基于语义的指标。以下是常见的评价指标及其特点：

1. 基于重叠度的指标

这类指标通过比较生成文本和参考文本之间的重叠程度来评估质量。

(1)BLEU(Bilingual Evaluation Understudy)

用途：广泛用于机器翻译和文本生成任务。
原理：计算生成文本和参考文本之间的 n-gram 重叠度，并引入 brevity penalty(短句惩罚)防止生成过短的句子。
公式：$ \text{BLEU} = BP \cdot \exp\left(\sum_{n=1}^N w_n \log p_n\right) $
其中：
- $BP$ 是 brevity penalty。
- $p_n$ 是 n-gram 精度。
- $w_n$ 是 n-gram 的权重(通常均匀分布)。
优点：简单高效，与人类评价相关性较高。
缺点：只考虑表面重叠，无法捕捉语义一致性。

(2)ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

用途：常用于文本摘要任务。
原理：计算生成文本和参考文本之间的 n-gram、词序列或词对的重叠度，通常以召回率(Recall)为主。
常见变种：
- ROUGE-N：基于 n-gram 重叠。
- ROUGE-L：基于最长公共子序列(LCS)。
优点：适合评估生成文本的覆盖度。
缺点：无法直接评估流畅性和语义。

(3)METEOR(Metric for Evaluation of Translation with Explicit ORdering)

用途：机器翻译和文本生成。
原理：在 BLEU 的基础上，引入同义词匹配、词干匹配以及更精细的句子对齐策略。
优点：比 BLEU 更贴近人类评价。
缺点：计算复杂度较高。

(4)CIDEr(Consensus-based Image Description Evaluation)

用途：最初用于图像描述生成，现也用于文本生成。
原理：通过 TF-IDF 加权计算生成文本和参考文本之间的 n-gram 相似度。
优点：能捕捉生成文本的独特性和多样性。
缺点：对参考文本的数量和质量敏感。

2. 基于语义的指标

这类指标通过捕捉生成文本和参考文本之间的语义相似性来评估质量。

(1)BERTScore

用途：文本生成、机器翻译等。
原理：使用预训练的 BERT 模型计算生成文本和参考文本之间的词向量相似度。
公式：
- 精确度(Precision)：生成文本中每个词与参考文本中最相似词的余弦相似度。
- 召回率(Recall)：参考文本中每个词与生成文本中最相似词的余弦相似度。
- F1 值：精确度和召回率的调和平均。
优点：能捕捉语义相似性，与人类评价相关性高。
缺点：计算成本较高。

(2)BLEURT

用途：文本生成、机器翻译等。
原理：基于预训练的 BERT 模型，通过微调使其更适合评估生成文本的质量。
优点：比 BERTScore 更贴近人类评价。
缺点：需要额外的微调数据。

(3)MoverScore

用途：文本生成、机器翻译等。
原理：基于词向量和 Earth Mover's Distance(EMD)计算生成文本和参考文本之间的语义距离。
优点：能捕捉语义相似性和文本流畅性。
缺点：计算复杂度较高。

3. 基于人类评价的指标

尽管自动评价指标高效，但人类评价仍然是黄金标准。

(1)人工评分

用途：所有文本生成任务。
方法：让人类从流畅性、相关性、一致性等维度对生成文本打分。
优点：最贴近实际质量。
缺点：成本高，耗时长。

(2)众包评价

用途：大规模评估。
方法：通过众包平台(如 Amazon Mechanical Turk)收集人类评价。
优点：成本相对较低。
缺点：评价一致性可能较差。

4. 其他指标

(1)Perplexity(困惑度)

用途：语言模型评估。
原理：衡量模型对测试数据的预测能力，困惑度越低，模型越好。
公式：$ \text{Perplexity} = \exp\left(-\frac{1}{N} \sum_{i=1}^N \log P(w_i | w_{<i})\right) $
优点：简单直观。
缺点：无法直接反映生成文本的质量。

(2)Diversity(多样性)

用途：对话生成、文本生成。
原理：计算生成文本的词汇多样性或 n-gram 多样性。
常用方法：
- Distinct-1/2：统计生成文本中 unique unigrams/bigrams 的比例。
- Entropy：计算生成文本的词汇分布熵。
优点：能反映生成文本的丰富性。
缺点：无法评估语义质量。

总结

基于重叠度的指标(如 BLEU、ROUGE)简单高效，但无法捕捉语义。
基于语义的指标(如 BERTScore、MoverScore)能更好地评估语义相似性。
人类评价是最可靠的指标，但成本高。
实际应用中，通常结合多种指标进行综合评估。

Transformer 模型及训练

Transformer 是一种基于自注意力机制(Self-Attention)的深度学习模型，由 Vaswani 等人在 2017 年提出，广泛应用于自然语言处理任务(如机器翻译、文本生成等)。它摒弃了传统的 RNN 和 CNN 结构，完全依赖注意力机制捕捉序列中的全局依赖关系。

Transformer 模型结构

Transformer 由 编码器(Encoder) 和 解码器(Decoder) 组成，每部分由多层堆叠而成。

编码器(Encoder)：
- 每层包含两个子层：
  - 多头自注意力机制(Multi-Head Self-Attention)：
    - 计算输入序列中每个词与其他词的相关性。
    - 通过多个注意力头捕捉不同的语义信息。
  - 前馈神经网络(Feed-Forward Network, FFN)：
    - 对每个位置的表示进行非线性变换。
- 每个子层后接 残差连接(Residual Connection) 和 层归一化(Layer Normalization)。
解码器(Decoder)：
- 每层包含三个子层：
  - 掩码多头自注意力机制(Masked Multi-Head Self-Attention)：
    - 防止解码器在生成当前词时看到未来词。
  - 编码器-解码器注意力机制(Encoder-Decoder Attention)：
    - 计算解码器输入与编码器输出的相关性。
  - 前馈神经网络(FFN)。
- 同样使用残差连接和层归一化。
位置编码(Positional Encoding)：
- 由于 Transformer 没有显式的序列顺序信息，需要通过位置编码为输入序列添加位置信息。
- 公式：$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right), \quad PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{\text{model}}}}\right)$
  其中 $pos$ 是位置，$i$ 是维度索引。

Transformer 的训练

损失函数：
- 使用交叉熵损失(Cross-Entropy Loss)计算生成序列与目标序列的差异。
- 公式：$\text{Loss} = -\sum_{t=1}^T \log P(y_t | y_{<t}, x)$
  其中 $y_t$ 是目标词，$x$ 是输入序列。
优化器：
- 使用 Adam 优化器，并结合学习率预热(Warm-up)和衰减策略。
- 学习率公式:$lr = d_{\text{model}}^{-0.5} \cdot \min(step^{-0.5}, step \cdot warmup\_steps^{-1.5})$
正则化：
- Dropout：在注意力机制和前馈网络中使用 Dropout 防止过拟合。
- 标签平滑(Label Smoothing)：软化目标分布，提高模型泛化能力。
训练技巧：
- 批量训练：将多个序列打包成一个批次，填充到相同长度。
- 梯度裁剪：防止梯度爆炸。

指针网络(Pointer Network)

指针网络(Pointer Network)是一种特殊的序列到序列(Seq2Seq)模型，由 Vinyals 等人在 2015 年提出。它的核心思想是通过注意力机制直接从输入序列中选择元素，而不是生成新的词。

基本概念

适用任务：
- 需要从输入序列中选择元素的任务，如文本摘要、排序、组合优化等。
核心思想：
- 传统 Seq2Seq 模型通过生成新词来构造输出序列，而指针网络通过指向输入序列中的位置来选择输出。
结构：
- 基于注意力机制，计算解码器当前状态与输入序列中每个词的相关性。
- 输出是一个概率分布，表示选择输入序列中每个词的概率。
优点：
- 适合处理输出词汇表动态变化的任务。
- 能直接利用输入序列中的信息，减少生成错误。

指针网络的工作原理

编码器：
- 使用 RNN 或 Transformer 将输入序列编码为隐藏状态。
解码器：
- 每一步计算解码器当前状态与输入序列隐藏状态的相关性。
- 使用 Softmax 生成概率分布，选择输入序列中的词。
注意力机制：
- 计算注意力分数：$ u_i^t = v^T \tanh(W_1 h_i + W_2 d_t) $
  其中 $h_i$ 是输入序列的隐藏状态，$d_t$ 是解码器当前状态。
- 生成概率分布：$ P(y_t | y_{<t}, x) = \text{Softmax}(u^t) $
训练：
- 使用交叉熵损失函数，最大化选择正确词的概率。

应用场景

文本摘要：
- 从原文中选择重要句子或词生成摘要。
组合优化：
- 解决旅行商问题(TSP)、凸包问题等。
对话系统：
- 从对话历史中选择关键信息生成回复。

总结

Transformer 是一种基于自注意力机制的模型，适用于多种序列生成任务。
指针网络 是一种特殊的 Seq2Seq 模型，通过指向输入序列中的元素生成输出，适合动态词汇表任务。
两者都依赖于注意力机制，但在结构和应用场景上有所不同。

8 属性级情感分析概念及建模方法

属性级情感分析(Aspect-Based Sentiment Analysis, ABSA)

属性级情感分析是细粒度的情感分析任务，旨在识别文本中提到的特定属性(Aspect)并判断其情感倾向。与传统的句子级情感分析不同，ABSA 关注文本中不同属性的情感差异。

基本概念

属性(Aspect)：
- 文本中提到的特定实体或属性，例如产品评论中的“电池”、“屏幕”等。
- 可以是显式的(直接出现在文本中)或隐式的(需要推断)。
情感倾向(Sentiment Polarity)：
- 对属性的情感态度，通常分为：
  - 正面(Positive)
  - 负面(Negative)
  - 中性(Neutral)
任务分类：
- 属性提取(Aspect Extraction)：从文本中识别属性。
- 情感分类(Sentiment Classification)：判断属性的情感倾向。
- 属性-情感对提取(Aspect-Sentiment Pair Extraction)：同时提取属性和情感倾向。

建模方法

ABSA 的建模方法可以分为传统机器学习方法和深度学习方法。

1. 传统机器学习方法

(1)基于规则的方法

原理：使用预定义的规则或模板识别属性和情感。
优点：简单直观，适用于特定领域。
缺点：泛化能力差，难以处理复杂文本。

(2)基于特征工程的方法

原理：提取文本的词汇、句法和语义特征，使用分类器(如 SVM、CRF)进行属性提取和情感分类。
常用特征：
- N-gram 特征
- 词性标注(POS)
- 依存句法关系
优点：可解释性强。
缺点：特征工程复杂，性能有限。

2. 深度学习方法

深度学习方法通过端到端的学习，自动捕捉文本中的语义和情感信息。

(1)基于注意力机制的模型

原理：使用注意力机制捕捉属性与上下文之间的关系。
经典模型：
- ATAE-LSTM：
  - 在 LSTM 基础上引入属性嵌入和注意力机制。
  - 计算属性与上下文词的相关性，加权生成情感表示。
- IAN(Interactive Attention Network)：
  - 分别对属性和上下文建模，通过交互注意力机制融合信息。
优点：能有效捕捉属性与上下文的关联。

(2)基于 Transformer 的模型

原理：利用 Transformer 的自注意力机制捕捉全局依赖关系。
经典模型：
- BERT-ABSA：
  - 在预训练的 BERT 模型基础上微调，用于属性级情感分析。
  - 通过特殊标记(如 [ASPECT])标识属性，生成属性相关的表示。
- AEN-BERT：
  - 使用注意力机制增强属性与上下文的交互。
优点：性能优越，适用于多种 ABSA 任务。

(3)基于图神经网络(GNN)的模型

原理：将文本建模为图，利用 GNN 捕捉词与词之间的关系。
经典模型：
- ASGCN(Aspect-Specific Graph Convolutional Network)：
  - 构建属性相关的依赖图，使用 GCN 捕捉局部和全局信息。
优点：能有效处理长距离依赖和复杂句法结构。

(4)基于多任务学习的模型

原理：将属性提取和情感分类作为联合任务，共享模型参数。
经典模型：
- TAS-BERT：
  - 使用多任务学习框架，同时优化属性提取和情感分类。
优点：通过任务间的信息共享提升性能。

3. 数据集与评价指标

(1)常用数据集

SemEval 2014 Task 4：包含餐厅和笔记本电脑领域的评论。
Twitter 数据集：社交媒体文本，属性多样。
Amazon 产品评论：涵盖多种产品类别。

(2)评价指标

属性提取：
- 精确率(Precision)、召回率(Recall)、F1 值。
情感分类：
- 准确率(Accuracy)、F1 值(针对多分类任务)。

4. 挑战与未来方向

隐式属性识别：
- 如何识别未明确提及的属性(如“价格便宜”中的“价格”)。
跨领域适应：
- 如何将模型迁移到新领域，减少标注数据需求。
多语言支持：
- 如何构建适用于多种语言的 ABSA 模型。
情感原因分析：
- 不仅判断情感倾向，还分析情感产生的原因。

总结

属性级情感分析是细粒度的情感分析任务，关注文本中特定属性的情感倾向。
建模方法包括传统机器学习方法和深度学习方法，后者以注意力机制和 Transformer 为主流。
未来方向包括隐式属性识别、跨领域适应和多语言支持等。

10 问答系统方法设计思想及典型模型

问答系统的设计思想及典型模型涉及多个方面，以下是主要的设计思路和常见模型：

设计思想

问题理解：
- 自然语言处理(NLP)：通过分词、词性标注、句法分析等技术，理解问题的语义和结构。
- 意图识别：确定用户提问的目的，如查询事实、寻求建议等。
- 实体识别：识别问题中的关键实体，如人名、地点、时间等。
信息检索：
- 文档检索：从大规模文档库中检索与问题相关的文档或段落。
- 知识库查询：在结构化知识库(如知识图谱)中查找相关信息。
答案生成：
- 抽取式答案：从检索到的文档或知识库中直接抽取答案。
- 生成式答案：通过自然语言生成技术，生成符合语法和语义的答案。
答案排序与选择：
- 相关性排序：根据答案与问题的相关性进行排序。
- 置信度评估：评估每个答案的可信度，选择最可靠的答案。

典型模型

基于规则的模型：
- 模板匹配：使用预定义的模板匹配问题和答案。
- 规则引擎：通过一系列规则推导出答案。
基于检索的模型：
- TF-IDF：通过词频-逆文档频率检索相关文档。
- BM25：改进的检索算法，考虑词频和文档长度。
基于机器学习的模型：
- 分类模型：将问题分类到预定义的类别，然后从类别对应的答案库中检索答案。
- 序列标注模型：如CRF(条件随机场)，用于实体识别和答案抽取。
基于深度学习的模型：
- RNN/LSTM：用于处理序列数据，适合生成式答案。
- Transformer：如BERT、GPT，通过预训练和微调，显著提升问答系统的性能。
- Attention机制：增强模型对关键信息的关注，提升答案生成质量。
混合模型：
- 结合规则与机器学习：利用规则的精确性和机器学习的泛化能力。
- 多模型融合：结合多个模型的输出，提升答案的准确性和多样性。