-
资料:Multi-Hot encoding
https://datascience.stackexchange.com/questions/37234/muti-hot-encoding-vs-label-encoding -
资料:论文:A Comparative Study of Categorical Variable Encoding
https://www.researchgate.net/profile/Kedar_Potdar/publication/320465713_A_Comparative_Study_of_Categorical_Variable_Encoding_Techniques_for_Neural_Network_Classifiers/links/59e6f9554585151e5465859c/A-Comparative-Study-of-Categorical-Variable-Encoding-Techniques-for-Neural-Network-Classifiers.pdf
机器学习算法的输入,只能是数字,因此对于分类的特征,就需要编码技术。
Data variables generally fall into one of the four broad categories: nominal scale, ordinal scale, interval scale, and ratio scale.
数据变量一般有四种:
- nominal scale:名词词性的变量
- ordinal scale:有顺序变量
- interval scale:有间隔的变量
- ratio scale:有比率的变量
名词词性的变量没有数字,仅仅是性质数据值,通常用类型表示,比如性别为男女、婚姻状态为未婚和已婚。
顺序变量除了有名词描述,还有方向性的顺序信息,但是名词之间的距离是无法精确衡量的,比如低、中、高,或者快和慢。
间隔变量除了有顺序的信息,也提供了它们之间的等距间隔信息,比如温度,每个刻度都是一个衡量。
比率变量则除了拥有词性,是可以比较大小的。