什么是 One-Hot 编码?
hello大家好,俺是没事爱瞎捣鼓又分享欲爆棚的叶同学!!!几天来科普一下One-Hot 编码哈!
One-Hot 编码 是一种将分类变量转换为二进制向量的编码方法,常用于机器学习模型处理非数值型数据。每个类别都会被转换成一个独立的二进制列,其中只有一个值为 1,其余都为 0。
为什么需要 One-Hot 编码?
在很多机器学习算法中,模型无法直接处理非数值型的分类数据,比如 'Title'
列就可能包含 'Mr.'
、'Mrs.'
、'Miss'
等类别。为了让模型能够使用这些数据,我们需要将它们转换为数值型特征。
One-Hot 编码的工作原理
假设我们有一个名为 Title
的列,包含以下三个类别:
'Mr.'
'Mrs.'
'Miss'
通过 One-Hot 编码,这个列会被转换为三个独立的列,每个列表示一个类别:
Title | Mr. | Mrs. | Miss |
---|---|---|---|
Mr. | 1 | 0 | 0 |
Mrs. | 0 | 1 | 0 |
Miss | 0 | 0 | 1 |
Mr. | 1 | 0 | 0 |
Miss | 0 | 0 | 1 |
在编码后,每个类别都对应一个二进制列,其中只有该类别对应的列为 1,其余列为 0。