Skip to content

Latest commit

 

History

History
25 lines (13 loc) · 2.31 KB

addressing-missing-data-f6f7920bcc55.md

File metadata and controls

25 lines (13 loc) · 2.31 KB

处理缺失数据

原文:towardsdatascience.com/addressing-missing-data-f6f7920bcc55?source=collection_archive---------9-----------------------#2024-11-26

了解缺失数据模式(MCAR、MNAR、MAR),以利用 Missingno 提高模型性能

Gizem KayaTowards Data Science Gizem Kaya

·发布于Towards Data Science ·8 分钟阅读·2024 年 11 月 26 日

--

在理想的世界中,我们希望能使用干净、完整且准确的数据集。然而,现实世界中的数据很少符合我们的期望。我们常常遇到包含噪声、不一致性、离群值和缺失数据的数据集,这需要仔细处理才能得到有效的结果。特别是,缺失数据是一个不可避免的挑战,我们如何处理它对预测模型或分析结果有着重要影响。

为什么?

其原因隐藏在定义中。缺失数据是那些如果被观察到将对分析具有意义的未观察值。

摄影:由Tanja Tepavac提供,来源于Unsplash

在文献中,我们可以找到几种处理缺失数据的方法,但根据缺失的性质,选择合适的技术至关重要。像删除缺失值行这样简单的方法可能会导致偏差或丢失重要的信息。错误的填充值也可能导致扭曲,影响最终结果。因此,在决定修正措施之前,理解数据中缺失性的性质至关重要。

缺失性的性质可以简单地分为三种: