当前位置：首页 > article >正文

关键词提取技术：TF-IDF 详解

article 2025/3/9 22:47:49

1. 什么是TF-IDF？

TF-IDF（Term Frequency-Inverse Document Frequency） 是一种统计方法，用于评估单词在文档集或语料库中的重要性。它是自然语言处理和信息检索中的核心技术之一。

TF-IDF主要基于以下两个概念：

TF（Term Frequency, 词频）：衡量某个词语在文档中的出现频率。
IDF（Inverse Document Frequency, 逆文档频率）：衡量词语在整个语料库中的普遍性。

TF-IDF = TF × IDF

2. TF-IDF 的底层原理

2.1 词频 (TF) 的定义

词频是指某个词在文档中出现的次数。常用的公式是：

TF(t,d)=f(t,d)∑t′∈df(t′,d)TF(t,d)=∑t′∈df(t′,d)f(t,d)

其中：

f(t,d) 表示词 t 在文档 d 中出现的次数。
∑t′∈df(t′,d) 表示文档 d 中所有词的出现次数总和。

解释：TF 的目的是衡量某个词在文档中出现的频率，但由于文档长度不同，直接使用词频会造成偏差，因此通常将词频归一化，防止词频受到文档长度影响。

2.2 逆文档频率 (IDF) 的定义

逆文档频率用于衡量某个词在整个文档集中有多普遍。若某个词在很多文档中都出现，则其IDF较低，反之，若某个词只在少数文档中出现，则其IDF较高。

IDF 的公式为：

$IDF(t,D)=log\frac{|D|}{|d\in D : t\in d|}$

其中：

∣D∣ 表示文档集中的文档总数。
∣d∈D:t∈d∣ 表示包含词 t 的文档数。

解释：IDF 减少那些普遍出现在很多文档中的常见词的重要性（例如“的”、“是”等），强调那些具有区分度的词。

2.3 TF-IDF 的计算

TF-IDF 是将 TF 和 IDF 相乘得到的：

$TF-IDF(t,d,D)=TF(t,d)*IDF(t,D)$

它的作用是衡量词 t 在文档 d 中的相对重要性，同时考虑到该词在整个语料库中的普遍性。

3. 代码实现（Python）

我们可以通过 Python 从底层原理来实现 TF-IDF。假设我们有如下文本：

import math
from collections import Counter

# 假设的文档集
documents = [
    "the cat is on the table",
    "the dog is in the house",
    "there is a cat and a dog",
]

# 1. 计算 TF
def compute_tf(doc):
    tf_dict = {}
    bow = doc.split()
    word_count = len(bow)
    word_freq = Counter(bow)
    
    for word, count in word_freq.items():
        tf_dict[word] = count / float(word_count)
    
    return tf_dict

# 2. 计算 IDF
def compute_idf(docs):
    idf_dict = {}
    total_docs = len(docs)
    all_words = set([word for doc in docs for word in doc.split()])
    
    for word in all_words:
        containing_docs = sum([1 for doc in docs if word in doc.split()])
        idf_dict[word] = math.log(total_docs / float(containing_docs))
    
    return idf_dict

# 3. 计算 TF-IDF
def compute_tfidf(docs):
    tfidf_list = []
    idf_dict = compute_idf(docs)
    
    for doc in docs:
        tf_dict = compute_tf(doc)
        tfidf_dict = {}
        
        for word, tf_value in tf_dict.items():
            tfidf_dict[word] = tf_value * idf_dict[word]
        
        tfidf_list.append(tfidf_dict)
    
    return tfidf_list

# 运行结果
tfidf_values = compute_tfidf(documents)
for idx, doc_tfidf in enumerate(tfidf_values):
    print(f"Document {idx+1}: {doc_tfidf}")

代码解释：

compute_tf(doc)：
- 输入：一个文档（字符串）。
- 输出：一个字典，键是词语，值是词频。
- 它通过分割字符串来获取每个词的出现次数，并将其归一化，得到 TF 值。
compute_idf(docs)：
- 输入：文档集。
- 输出：一个字典，键是词语，值是该词的 IDF。
- 通过统计每个词语出现在多少文档中，然后根据公式计算 IDF。
compute_tfidf(docs)：
- 输入：文档集。
- 输出：每个文档的 TF-IDF 值。
- 计算每个词在文档中的 TF 和在整个文档集中的 IDF，将两者相乘得到 TF-IDF。

输出结果示例：

Document 1: {'the': 0.0, 'cat': 0.13515503603605478, 'is': 0.0, 'on': 0.3662040962227032, 'table': 0.3662040962227032}
Document 2: {'the': 0.0, 'dog': 0.13515503603605478, 'is': 0.0, 'in': 0.3662040962227032, 'house': 0.3662040962227032}
Document 3: {'there': 0.3662040962227032, 'is': 0.0, 'a': 0.3662040962227032, 'cat': 0.13515503603605478, 'and': 0.3662040962227032, 'dog': 0.13515503603605478}