机器学习中分类特征的几种编码技术

机器学习算法的输入,只能是数字,因此对于分类的特征,就需要编码技术。

Data variables generally fall into one of the four broad categories: nominal scale, ordinal scale, interval scale, and ratio scale.
数据变量一般有四种:

  1. nominal scale:名词词性的变量
  2. ordinal scale:有顺序变量
  3. interval scale:有间隔的变量
  4. ratio scale:有比率的变量

名词词性的变量没有数字,仅仅是性质数据值,通常用类型表示,比如性别为男女、婚姻状态为未婚和已婚。

顺序变量除了有名词描述,还有方向性的顺序信息,但是名词之间的距离是无法精确衡量的,比如低、中、高,或者快和慢。

间隔变量除了有顺序的信息,也提供了它们之间的等距间隔信息,比如温度,每个刻度都是一个衡量。

比率变量则除了拥有词性,是可以比较大小的。

Leave a Comment