Skip to content

Latest commit

 

History

History
66 lines (41 loc) · 4.09 KB

数据预处理之One-Hot(独热编码)编码.md

File metadata and controls

66 lines (41 loc) · 4.09 KB
Error in user YAML: (<unknown>): found character that cannot start any token while scanning for the next token at line 4 column 1
---
title: 数据预处理之One-Hot(独热编码)编码
date: 2019-03-18 17:36:48
tags:
	- python
	- MachineLearning
toc:
	true
---

数据预处理之One-Hot(独热编码)编码

为什么使用One-Hot编码

对于机器学习任务中,特征并不总是连续值,很多是分类值。这些分类值本身没有大小的意义。为了将数据集中一个分类变量替换为一个或多个新特征,我们使用One-Hot编码对数据进行预处理。

独热编码(哑变量 dummy variable)是因为大部分算法是基于向量空间中的度量来进行计算的,为了使非偏序关系的变量取值不具有偏序性,并且到圆点是等距的。使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样,对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1。

​ 为什么特征向量要映射到欧式空间?

​ 将离散特征通过one-hot编码映射到欧式空间,是因为,在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。

什么是One-Hot编码

独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效(即各种属性之间相互排斥)。

简而言之,即把离散的特征的每一种取值都看成一种状态。

这样做的好处主要有:

  1. 解决了分类器不好处理属性数据的问题

  2. 在一定程度上也起到了扩充特征的作用

eg:

自然状态码为000,001,010,011,100,101

独热编码为000001,000010,000100,001000,010000,100000

One-Hot编码特征

  1. 经过独热编码后,就变成了m个二元特征。
  2. 这些特征互斥,每次只有一个激活。
  3. 数据会变的稀疏

One-Hot编码的优缺点

  • 优点:独热编码解决了分类器不好处理属性数据的问题,在一定程度上也起到了扩充特征的作用。它的值只有0和1,不同的类型存储在垂直的空间。
  • 缺点:当类别的数量很多时,特征空间会变得非常大。在这种情况下,一般可以用PCA*(principal Component Analysis,主成分分析方法)来减少维度。而且one hot encoding+*PCA这种组合在实际中也非常有用。

使用One-Hot编码的场合

首先要明确,独热编码用来解决类别型数据的离散值问题。

将离散型特征进行one-hot编码的作用,是为了让距离计算更合理,但如果特征是离散的,并且不用one-hot编码就可以很合理的计算出距离,那么就没必要进行one-hot编码。 有些基于树的算法在处理变量时,并不是基于向量空间度量,数值只是个类别符号,即没有偏序关系,所以不用进行独热编码。 Tree Model不太需要one-hot编码: 对于决策树来说,one-hot的本质是增加树的深度

One-Hot 和 哑变量(虚拟变量)

首先One-Hot编码主要解决数据的向量化 表示,而虚拟变量则是一个统计学概念。

对于哑变量余独热编码的相异点,最直观的理解就是哑变量将任意一个One-Hot编码状态去除。即哑变量将定性特征转化为n-1个特征,而One-hot则是转化为n个特征。意思就是哑变量在编码时会去除第一个状态,而One-hot则对所有的状态都会进行编码。

这样可以使One-Hot编码减少一个冗余位,这种去除是随机的。但是对于一个没有权重的数据集而言随机取出有点过于随意。