当前位置: 首页 > article >正文

sklearn 计算 tfidf 得到每个词分数

from sklearn.feature_extraction.text import TfidfVectorizer

# 语料库 可以换为其它同样形式的单词
corpus = [
    list(range(-5, 5)),
    list(range(-6,4)),
    list(range(12)),
    list(range(13))]

# corpus = [
#    ['Two', 'wrongs', 'don\'t', 'make', 'a', 'right', '.'],
#    ['The', 'pen', 'is', 'mightier', 'than', 'the', 'sword'],
#    ['Don\'t', 'put', 'all', 'your', 'eggs', 'in', 'one', 'basket', '.']]
    
def dummy_fun(doc):
    return doc
    
tfidf_vec = TfidfVectorizer(
    analyzer='word',
    tokenizer=dummy_fun,
    preprocessor=dummy_fun,
    token_pattern=None)  

# 使用 fit_transform() 得到 TF-IDF 矩阵。此为 scipy 稀疏矩阵
tfidf_matrix = tfidf_vec.fit_transform(corpus)
# print(tfidf_matrix)

# 使用 get_feature_names() 得到不重复的单词
print(tfidf_vec.get_feature_names_out())

# 得到每个单词对应的 ID
print(tfidf_vec.vocabulary_)

在这里插入图片描述

# 得到 corpus 中每个词得分
for i in range(len(corpus)):
    column_indexes = [tfidf_vec.vocabulary_[key] for key in corpus[i]]
    tf_idf = tfidf_matrix[i, column_indexes].toarray()[0]
    print(tf_idf)

在这里插入图片描述
参考:
Applying scikit-learn TfidfVectorizer on tokenized text
sklearn.feature_extraction.text.TfidfVectorizer


http://www.kler.cn/a/227910.html

相关文章:

  • 5.3.2 软件设计原则
  • 【视频+图文详解】HTML基础4-html标签的基本使用
  • 【四川乡镇界面】图层shp格式arcgis数据乡镇名称和编码2020年wgs84无偏移内容测评
  • ChatGPT与GPT的区别与联系
  • 力扣【1049. 最后一块石头的重量 II】Java题解(背包问题)
  • 解码,蓝桥杯2020G
  • MySQL创建索引的注意事项
  • 华为数通方向HCIP-DataCom H12-831题库(简答题01-27)
  • pdmodel从动态模型转成静态onnx
  • WiFi测试的核心思路和主要工具
  • BAPI_PRODORD_CREATE-创建生产订单BAPI测试
  • WPS Office18.7软件日常更新
  • 代码随想录算法训练营Day48|198.打家劫舍、213.打家劫舍II、337.打家劫舍 III
  • 通过 ChatGPT 的 Function Call 查询数据库
  • 20240202在WIN10下使用fast whisper缺少cudnn_ops_infer64_8.dll
  • python+PyQt5 左右声道测试
  • Qt应用软件【协议篇】http协议get、post示例
  • 网络原理TCP/IP(1)
  • 【Unity知识点详解】自定义程序集
  • 大数据学习之Redis,十大数据类型的具体应用(四)
  • 判断和循环 - 循环语句 - for循环格式和练习
  • EtherCAT转ModbusTCP网关
  • 雨云游戏云VPS服务器用Linux搭建MCSM面板和Minecraft Mohist 1.20.2服务器教程,我的世界MOD和插件服开服教程。
  • 行为型设计模式—访问者模式
  • 自学Java的第十九天
  • 【数据分享】1929-2023年全球站点的逐日最低气温数据(Shp\Excel\免费获取)