---
title: 数据预处理之One-Hot(独热编码)编码
date: 2019-03-18 17:36:48
tags:
- python
- MachineLearning
toc:
true
---
对于机器学习任务中,特征并不总是连续值,很多是分类值。这些分类值本身没有大小的意义。为了将数据集中一个分类变量替换为一个或多个新特征,我们使用One-Hot编码对数据进行预处理。
独热编码(哑变量 dummy variable)是因为大部分算法是基于向量空间中的度量来进行计算的,为了使非偏序关系的变量取值不具有偏序性,并且到圆点是等距的。使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样,对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1。
为什么特征向量要映射到欧式空间?
将离散特征通过one-hot编码映射到欧式空间,是因为,在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。
独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效(即各种属性之间相互排斥)。
简而言之,即把离散的特征的每一种取值都看成一种状态。
这样做的好处主要有:
-
解决了分类器不好处理属性数据的问题
-
在一定程度上也起到了扩充特征的作用
eg:
自然状态码为:000,001,010,011,100,101
独热编码为:000001,000010,000100,001000,010000,100000
- 经过独热编码后,就变成了m个二元特征。
- 这些特征互斥,每次只有一个激活。
- 数据会变的稀疏
- 优点:独热编码解决了分类器不好处理属性数据的问题,在一定程度上也起到了扩充特征的作用。它的值只有0和1,不同的类型存储在垂直的空间。
- 缺点:当类别的数量很多时,特征空间会变得非常大。在这种情况下,一般可以用PCA*(principal Component Analysis,主成分分析方法)来减少维度。而且one hot encoding+*PCA这种组合在实际中也非常有用。
首先要明确,独热编码用来解决类别型数据的离散值问题。
将离散型特征进行one-hot编码的作用,是为了让距离计算更合理,但如果特征是离散的,并且不用one-hot编码就可以很合理的计算出距离,那么就没必要进行one-hot编码。 有些基于树的算法在处理变量时,并不是基于向量空间度量,数值只是个类别符号,即没有偏序关系,所以不用进行独热编码。 Tree Model不太需要one-hot编码: 对于决策树来说,one-hot的本质是增加树的深度。
首先One-Hot编码主要解决数据的向量化 表示,而虚拟变量则是一个统计学概念。
对于哑变量余独热编码的相异点,最直观的理解就是哑变量将任意一个One-Hot编码状态去除。即哑变量将定性特征转化为n-1个特征,而One-hot则是转化为n个特征。意思就是哑变量在编码时会去除第一个状态,而One-hot则对所有的状态都会进行编码。
这样可以使One-Hot编码减少一个冗余位,这种去除是随机的。但是对于一个没有权重的数据集而言随机取出有点过于随意。