数据挖掘——认识数据
数据挖掘——认识数据
- 数据对象和属性
- 数据对象
- 属性和属性值
- 数据统计与可视化
- 数据统计汇总
- 离散度度量
- 数据的相似性和相异性度量
- 数值属性的邻近性度量
数据对象和属性
数据对象
数据集由数据对象组成
-
一个数据对象代表一个实体
-
例子
- 销售数据库:客户,商店物品,销售额
- 医疗数据库:患者,治疗信息
- 大学数据库:学生,教授,课程信息
-
称为样品,示例,实例,数据点,对象,元组(tuple)
-
数据对象所描述的属性
- 数据库中的行 - >数据对象
- 数据库中的列 - >“属性”
属性和属性值
属性是对象特征
属性值:定义属性的特定的特征或参数
常见的四类属性:
- 标称(Nominal)
- Examples: ID numbers, zip codes
- 序数(Ordinal)
- Examples: rankings (e.g., taste of potato chips on a scale from 1-10),
grades, height in {tall, medium, short}
- Examples: rankings (e.g., taste of potato chips on a scale from 1-10),
- 区间(Interval)
- Examples: calendar dates, temperatures in Celsius or Fahrenheit.
- 比率(Ratio)
- Examples: temperature in Kelvin, length, time, counts
标称和序数一般是离散型的
区间和比率一般是连续性的
数据统计与可视化
数据统计汇总
- 动机
- 为了更好地理解数据:集中趋势,分布
- 数据的统计特性
- 最大值,最小值,中位数,位数,离群值,方差等
- 平均值一组数据的均衡点。
- 但是,均值对离群值很敏感。
- 因此,中位数和截断均值也很常用。
- 众数指一组数据中出现次数最多的数据值。
经验公式: m e a n − m o d e = 3 ∗ ( m e a n − m e d i a n ) mean-mode=3*(mean-median) mean−mode=3∗(mean−median)
离散度度量
- 方差和标准差
- 分位数
- 分位数:Q1(第25百分位),Q3(第75百分位)
- 分位数极差:IQR= Q3 - Q1
- 五点概况:min, Q1, median, Q3, max
- 盒状图(boxplot):min, Q1,median, Q3, max;单独添加胡须表示离群点
- 离群点:通常情况下,一个值高于/低于1.5×IQR
I Q R = Q 3 − Q 1 m a x = Q 3 + 1.5 ∗ I Q R m i n = Q 1 − 1.5 ∗ I Q R IQR =Q3-Q1\\ max = Q3+1.5*IQR\\ min = Q1- 1.5*IQR IQR=Q3−Q1max=Q3+1.5∗IQRmin=Q1−1.5∗IQR
数据的相似性和相异性度量
- 相似度Similarity
- 度量两个数据对象有多相似
- 值越大就表示数据对象越相似
- 通常取值范围为[0,1]
- 相异度Dissimilarity (e.g., distance)
- 度量两个数据对象的差别程度
- 值越小就表示数据越相似
- 最小相异度通常为0
- 邻近性Proximity
- 指相似度或者相异度
数值属性的邻近性度量
闵可夫斯基距离:
d
(
i
,
j
)
=
∣
x
i
1
−
x
j
1
∣
h
+
∣
x
i
2
−
x
j
2
∣
h
+
⋯
+
∣
x
i
p
−
x
j
p
∣
h
h
d(i, j)=\sqrt[h]{\left|x_{i 1}-x_{j 1}\right|^{h}+\left|x_{i 2}-x_{j 2}\right|^{h}+\cdots+\left|x_{i p}-x_{j p}\right|^{h}}
d(i,j)=h∣xi1−xj1∣h+∣xi2−xj2∣h+⋯+∣xip−xjp∣h
- 性质
- d(i, j) > 0 if i ≠ j, and d(i, i) = 0 (正定性)
- d(i, j) = d(j, i) (对称性)
- d(i, j) < d(i, k) + d(k, j) (三角不等性)
h=1:曼哈顿距离
d
(
i
,
j
)
=
∣
x
i
1
−
x
j
1
∣
+
∣
x
i
2
−
x
j
2
∣
+
…
+
∣
x
i
p
−
x
j
p
∣
d(i, j)=\left|x_{i_{1}}-x_{j_{1}}\right|+\left|x_{i_{2}}-x_{j_{2}}\right|+\ldots+\left|x_{i_{p}}-x_{j_{p}}\right|
d(i,j)=∣xi1−xj1∣+∣xi2−xj2∣+…+
xip−xjp
h=2:欧氏距离
d
(
i
,
j
)
=
(
∣
x
i
1
−
x
j
1
∣
2
+
∣
x
i
2
−
x
j
2
∣
2
+
…
+
∣
x
i
p
−
x
j
p
∣
2
)
d(i, j)=\sqrt{\left(\left|x_{i_{1}}-x_{j_{1}}\right|^{2}+\left|x_{i_{2}}-x_{j_{2}}\right|^{2}+\ldots+\left|x_{i_{p}}-x_{j_{p}}\right|^{2}\right)}
d(i,j)=(∣xi1−xj1∣2+∣xi2−xj2∣2+…+
xip−xjp
2)
h
→
∞
\rightarrow \infty
→∞,“上确界距离”
d
(
i
,
j
)
=
lim
h
→
∞
(
∑
f
=
1
p
∣
x
i
f
−
x
j
f
∣
h
)
1
h
=
max
f
p
∣
x
i
f
−
x
j
f
∣
d(i, j)=\lim _{h \rightarrow \infty}\left(\sum_{f=1}^{p}\left|x_{i f}-x_{j f}\right|^{h}\right)^{\frac{1}{h}}=\max _{f}^{p}\left|x_{i f}-x_{j f}\right|
d(i,j)=h→∞lim
f=1∑p∣xif−xjf∣h
h1=fmaxp∣xif−xjf∣
- 余弦相似性
- 一个文档可以用词频向量来表示(注意:词的对齐)
- 余弦度量
- cos(d1, d2) = (d1 • d2) /||d1|| ||d2||
- 一个文档可以用词频向量来表示(注意:词的对齐)