当前位置: 首页 > article >正文

数据挖掘——认识数据

数据挖掘——认识数据

  • 数据对象和属性
    • 数据对象
    • 属性和属性值
  • 数据统计与可视化
    • 数据统计汇总
    • 离散度度量
  • 数据的相似性和相异性度量
    • 数值属性的邻近性度量

数据对象和属性

数据对象

数据集由数据对象组成

  • 一个数据对象代表一个实体

  • 例子

    • 销售数据库:客户,商店物品,销售额
    • 医疗数据库:患者,治疗信息
    • 大学数据库:学生,教授,课程信息
  • 称为样品,示例,实例,数据点,对象,元组(tuple)

  • 数据对象所描述的属性

    • 数据库中的行 - >数据对象
    • 数据库中的列 - >“属性”

在这里插入图片描述

属性和属性值

属性是对象特征
属性值:定义属性的特定的特征或参数

常见的四类属性

  • 标称(Nominal)
    • Examples: ID numbers, zip codes
  • 序数(Ordinal)
    • Examples: rankings (e.g., taste of potato chips on a scale from 1-10),
      grades, height in {tall, medium, short}
  • 区间(Interval)
    • Examples: calendar dates, temperatures in Celsius or Fahrenheit.
  • 比率(Ratio)
    • Examples: temperature in Kelvin, length, time, counts

在这里插入图片描述
标称和序数一般是离散型的
区间和比率一般是连续性的

数据统计与可视化

数据统计汇总

  • 动机
    • 为了更好地理解数据:集中趋势,分布
  • 数据的统计特性
    • 最大值,最小值,中位数,位数,离群值,方差等
  1. 平均值一组数据的均衡点。
  2. 但是,均值对离群值很敏感。
  3. 因此,中位数和截断均值也很常用。
  4. 众数指一组数据中出现次数最多的数据值。

经验公式 m e a n − m o d e = 3 ∗ ( m e a n − m e d i a n ) mean-mode=3*(mean-median) meanmode=3(meanmedian)

离散度度量

  • 方差和标准差
  • 分位数
    • 分位数:Q1(第25百分位),Q3(第75百分位)
    • 分位数极差:IQR= Q3 - Q1
  • 五点概况:min, Q1, median, Q3, max
  • 盒状图(boxplot):min, Q1,median, Q3, max;单独添加胡须表示离群点
  • 离群点:通常情况下,一个值高于/低于1.5×IQR

I Q R = Q 3 − Q 1 m a x = Q 3 + 1.5 ∗ I Q R m i n = Q 1 − 1.5 ∗ I Q R IQR =Q3-Q1\\ max = Q3+1.5*IQR\\ min = Q1- 1.5*IQR IQR=Q3Q1max=Q3+1.5IQRmin=Q11.5IQR

在这里插入图片描述

数据的相似性和相异性度量

  • 相似度Similarity
    • 度量两个数据对象有多相似
    • 值越大就表示数据对象越相似
    • 通常取值范围为[0,1]
  • 相异度Dissimilarity (e.g., distance)
    • 度量两个数据对象的差别程度
    • 值越小就表示数据越相似
    • 最小相异度通常为0
  • 邻近性Proximity
    • 指相似度或者相异度

数值属性的邻近性度量

闵可夫斯基距离:
d ( i , j ) = ∣ x i 1 − x j 1 ∣ h + ∣ x i 2 − x j 2 ∣ h + ⋯ + ∣ x i p − x j p ∣ h h d(i, j)=\sqrt[h]{\left|x_{i 1}-x_{j 1}\right|^{h}+\left|x_{i 2}-x_{j 2}\right|^{h}+\cdots+\left|x_{i p}-x_{j p}\right|^{h}} d(i,j)=hxi1xj1h+xi2xj2h++xipxjph

  • 性质
    • d(i, j) > 0 if i ≠ j, and d(i, i) = 0 (正定性)
    • d(i, j) = d(j, i) (对称性)
    • d(i, j) < d(i, k) + d(k, j) (三角不等性)

h=1:曼哈顿距离
d ( i , j ) = ∣ x i 1 − x j 1 ∣ + ∣ x i 2 − x j 2 ∣ + … + ∣ x i p − x j p ∣ d(i, j)=\left|x_{i_{1}}-x_{j_{1}}\right|+\left|x_{i_{2}}-x_{j_{2}}\right|+\ldots+\left|x_{i_{p}}-x_{j_{p}}\right| d(i,j)=xi1xj1+xi2xj2++ xipxjp
h=2:欧氏距离
d ( i , j ) = ( ∣ x i 1 − x j 1 ∣ 2 + ∣ x i 2 − x j 2 ∣ 2 + … + ∣ x i p − x j p ∣ 2 ) d(i, j)=\sqrt{\left(\left|x_{i_{1}}-x_{j_{1}}\right|^{2}+\left|x_{i_{2}}-x_{j_{2}}\right|^{2}+\ldots+\left|x_{i_{p}}-x_{j_{p}}\right|^{2}\right)} d(i,j)=(xi1xj12+xi2xj22++ xipxjp 2)
h → ∞ \rightarrow \infty ,“上确界距离”
d ( i , j ) = lim ⁡ h → ∞ ( ∑ f = 1 p ∣ x i f − x j f ∣ h ) 1 h = max ⁡ f p ∣ x i f − x j f ∣ d(i, j)=\lim _{h \rightarrow \infty}\left(\sum_{f=1}^{p}\left|x_{i f}-x_{j f}\right|^{h}\right)^{\frac{1}{h}}=\max _{f}^{p}\left|x_{i f}-x_{j f}\right| d(i,j)=hlim f=1pxifxjfh h1=fmaxpxifxjf

  • 余弦相似性
    • 一个文档可以用词频向量来表示(注意:词的对齐)
      在这里插入图片描述
    • 余弦度量
      • cos(d1, d2) = (d1 • d2) /||d1|| ||d2||

http://www.kler.cn/a/463072.html

相关文章:

  • OWASP ZAP之API 请求基础知识
  • IIS设置IP+端口号外网无法访问的解决方案
  • 安装PyQt5-tools卡在Preparing metadata (pyproject.toml)解决办法
  • Servlet解析
  • ES中查询中参数的解析
  • 为什么最好吧css的link标签放在head之间?
  • SQL-Server链接服务器访问Oracle数据
  • 【蓝桥杯】:蓝桥杯之路径之谜
  • 机器人C++开源库The Robotics Library (RL)使用手册(四)
  • 关于ElasticSearch
  • 搭建医疗产品行业知识中台的手册
  • 深度学习在文本情感分析中的应用
  • 基于Redis的分布式锁
  • easybox
  • 【YashanDB知识库】hive初始化崖山报错YAS-04209
  • 万里数据库GreatSQL监控解析
  • 永嘉县瓯北六小:庆元旦,献爱心,让新永嘉人在童装节中找到归属感!
  • Golang学习历程【第五篇 复合数据类型:数组切片】
  • ShardingSphere-Proxy分表场景测试案例
  • CPT203 Software Engineering 软件工程 Pt.4 软件设计(中英双语)
  • Spring 核心技术解析【纯干货版】- II:Spring 基础模块 Spring-Beans 模块精讲
  • pyside6总结
  • 网络编程原理:回显服务器与客户端通信交互功能
  • Day20:逻辑运算
  • 30.Marshal.AllocHGlobal C#例子
  • 递归算法.