·发布于Towards Data Science ·8 分钟阅读·2024 年 11 月 26 日
--
在理想的世界中,我们希望能使用干净、完整且准确的数据集。然而,现实世界中的数据很少符合我们的期望。我们常常遇到包含噪声、不一致性、离群值和缺失数据的数据集,这需要仔细处理才能得到有效的结果。特别是,缺失数据是一个不可避免的挑战,我们如何处理它对预测模型或分析结果有着重要影响。
为什么?
其原因隐藏在定义中。缺失数据是那些如果被观察到将对分析具有意义的未观察值。
摄影:由Tanja Tepavac提供,来源于Unsplash
在文献中,我们可以找到几种处理缺失数据的方法,但根据缺失的性质,选择合适的技术至关重要。像删除缺失值行这样简单的方法可能会导致偏差或丢失重要的信息。错误的填充值也可能导致扭曲,影响最终结果。因此,在决定修正措施之前,理解数据中缺失性的性质至关重要。
缺失性的性质可以简单地分为三种: