当前位置: 首页 > article >正文

TfidfVectorizer

TF-IDF / Term Frequency - Inverse Document Frequency

作用:是自然语言处理NLP中常用的文本特征提取工具,用于将文本数据转换为数据向量。
核心思想:是通过统计词频和逆文档频率来量化词语在文本中的重要性。

  • T F − I D F ( t , d ) = T F ( t , d ) ∗ I D F ( t ) TF-IDF_{(t,d)} = TF_{(t,d)} * IDF_{(t)} TFIDF(t,d)=TF(t,d)IDF(t)

  • 意义:
    – 高频词(TF高)但罕见(IDF高)的词语会获得高权重(e.g.专业术语);
    – 高频但常见的词语(如“的”、“是”)会被抑制。

  • 子公式1/2
    T F ( t , d ) = 词 t 在文档 d 中出现次数 文档 d 的总词语 TF_{(t,d)} = \dfrac{词t在文档d中出现次数}{文档d的总词语} TF(t,d)=文档d的总词语t在文档d中出现次数

  • 子公式2/2
    I D F ( t ) = 总文档数 包含词 t 的文档数 + 1 + 1 IDF_{(t)} = \dfrac{总文档数}{包含词t的文档数+1}+1 IDF(t)=包含词t的文档数+1总文档数+1


http://www.kler.cn/a/535719.html

相关文章:

  • Spring Boot 自动装配原理与优化实践
  • 个人笔记---关于详解threadlocal 上下文环境存储的最佳数据类型
  • android 打包AAR-引入资源layout-安卓封包
  • 基于ansible部署elk集群
  • 2025职业发展规划
  • UG NX二次开发(Python)-API函数介绍与应用实例(三)-UFLayer类操作
  • 若依框架使用(低级)
  • 软件工程导论三级项目报告--《软件工程》课程网站
  • TaskBuilder低代码开发项目实战—创建项目
  • 【数据科学】一个强大的金融数据接口库:AKShare
  • Blender 3D建模——AI脚本3D建模技巧
  • (五)QT——QDialog 对话框
  • 第八篇:数据库的安全性与权限管理
  • 求解大规模单仓库多旅行商问题(LS-SDMTSP)的成长优化算法(Growth Optimizer,GO),MATLAB代码
  • Android原生开发问题汇总
  • react使用DatePicker日期选择器
  • UE学习日志#23 C++笔记#9 编码风格
  • Ubuntu重启搜狗输入法
  • 安卓路由与aop 以及 Router-api
  • golang轻量级版本管理工具g安装使用
  • Python 数据挖掘与机器学习
  • 【GeeRPC】7天用 Go 从零实现 RPC 框架 GeeRPC
  • python知识阶段小练习
  • 基于Java(MVC)+MySQL实现的心理咨询预约管理系统
  • 蛋糕商城 Rust 版介绍
  • Unity DoTween使用文档