·发布于 Towards Data Science ·阅读时间 15 分钟·2024 年 5 月 17 日
--
图片来源:Gabriel Tenan 通过 Unsplash
作为数据科学家的我,经常会遇到很多标签。数据中包含了邮政编码标签、性别标签、医疗诊断标签、职位标签、股票代码标签,等等。标签可以是简单的(如 S、M、L 尺码的衬衫)或复杂的(国际疾病分类系统编码了超过 70,000 种医疗状况,这些编码有时可能非常具体,令人忍俊不禁).
当它们出现在数据中时,我们称这些标签为类别特征。具有“很多”可能值的类别特征被称为高基数类别特征。高基数类别特征在机器学习模型中使用时会带来困难。大量的维度使得它们无法直接使用,或使用起来不切实际(例如“维度灾难”)。因此,采用了各种编码方案来简化这些特征。
低频或未见过的编码也为高基数类别特征带来了挑战。例如,一些邮政编码的区域人口稀少,而其他邮政编码区域则拥有数百万居民;我们对某些编码的信心更高。此外,常见的编码集,如医疗诊断编码,定期更新,导致在训练时没有可用的未见过值。未见过和低频…