不让任何标签被遗漏：层次化类别的替代编码方法

原文：towardsdatascience.com/no-label-left-behind-alternative-encodings-for-hierarchical-categoricals-d1bcf00afc37?source=collection_archive---------8-----------------------#2024-05-17

寻找一个适用于当前和未来编码的系统

Valerie Carey

·发布于 Towards Data Science ·阅读时间 15 分钟·2024 年 5 月 17 日

--

图片来源：Gabriel Tenan 通过 Unsplash

作为数据科学家的我，经常会遇到很多标签。数据中包含了邮政编码标签、性别标签、医疗诊断标签、职位标签、股票代码标签，等等。标签可以是简单的（如 S、M、L 尺码的衬衫）或复杂的（国际疾病分类系统编码了超过 70,000 种医疗状况，这些编码有时可能非常具体，令人忍俊不禁）.

当它们出现在数据中时，我们称这些标签为类别特征。具有“很多”可能值的类别特征被称为高基数类别特征。高基数类别特征在机器学习模型中使用时会带来困难。大量的维度使得它们无法直接使用，或使用起来不切实际（例如“维度灾难”）。因此，采用了各种编码方案来简化这些特征。

低频或未见过的编码也为高基数类别特征带来了挑战。例如，一些邮政编码的区域人口稀少，而其他邮政编码区域则拥有数百万居民；我们对某些编码的信心更高。此外，常见的编码集，如医疗诊断编码，定期更新，导致在训练时没有可用的未见过值。未见过和低频…

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

no-label-left-behind-alternative-encodings-for-hierarchical-categoricals-d1bcf00afc37.md

no-label-left-behind-alternative-encodings-for-hierarchical-categoricals-d1bcf00afc37.md

不让任何标签被遗漏：层次化类别的替代编码方法

寻找一个适用于当前和未来编码的系统

Files

no-label-left-behind-alternative-encodings-for-hierarchical-categoricals-d1bcf00afc37.md

Latest commit

History

no-label-left-behind-alternative-encodings-for-hierarchical-categoricals-d1bcf00afc37.md

File metadata and controls

不让任何标签被遗漏：层次化类别的替代编码方法

寻找一个适用于当前和未来编码的系统