-
Notifications
You must be signed in to change notification settings - Fork 1
/
analisis_inicial.qmd
59 lines (33 loc) · 3.46 KB
/
analisis_inicial.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
---
title: "Análisis Inicial de Datos"
---
> ¿Que problemas o limitaciones presenta el conjunto de datos seleccionado para su investigación?
Muchas veces, el conjunto de datos viene 'sucio', es decir, con información que se determina, generalmente por factores externos, que no representa el objeto de estudio apropiadamente o directamente es invalida.
```{python}
import pandas as pd
import numpy as np
```
```{python}
df = pd.read_csv("data/studentmockup.csv")
df
```
El *dataframe* mostrado aquí representa un conjunto de datos bastante sucio. Se sobreentiende, por ejemplo, que la edad y puntuación no deberían ser representadas con valores decimales, o que no es posible que el puntaje del estudiante David llegue a 100.
Durante un projecto de analísis de datos, es posible que se puedan rellenar o corregir datos incorrectos con suficiente contexto. Sin embargo, también es posible que se deban directamente eliminar filas con datos erroneos. Se realiza un análisis inicial tanto para ver cuales y cuantos de estos problemas se presentan en el conjunto, como para establecer una estrategía para manejarlos, que cambiara dependiendo de cual es el objetivo final del analísis.
## Calidad de los datos
- ¿Cuantos de los datos en el conjunto son válidos, consistentes, completos, etcetera? ¿Se encuentran en un formato fácil de manipular y analizar? ¿Servirán para el objetivo final del projecto?
Como parte de esta evaluación, se verifican la existencia de valores duplicados, faltantes, o atípicos. También se verifica si se presentan anomalías generadas durante la carga o codificación, o durante el proceso de extracción original.
Dependiendo de donde se hayan encontrado los datos, no es poco probable que ya exista un documento que detalle, por ejemplo, en que estado se encuentran los valores del conjunto, o en que formato se encuentran los valores faltantes.
## Calidad de las medidas
- Al recibir el conjunto de datos, comunmente se recibe información acerca de cual columna tiene que valores en que formato. ¿Se observa que corresponden el formato dado para las medidas con sus valores?
Esto puede incluir, pero no esta limitado a: verificar el punto decimal (o cuantos decimales tienen los valores), verificar la existencia de valores negativos, verificar el rango de los valores dados.
Esto es particularmente importante para análisis experimentales donde se utilizan equipos de alta precisión.
## Extracción de características de los datos
- Previo a un proceso de analísis de datos o aprendizaje reforzado, ¿como se identífican que categorías o características relevantes se encuentran en los datos?
Generalmente se utilizan técnicas estadísticas, como medidas de centralidad y dispersión, auxiliandose con visualizaciones:
- Gráficos como diagramas de dispersión o histogramas de frecuencia que describen la distribución de los datos, ya sea de forma unidimensional o en relación a otras variables.
![Ejemplo de clustering con K-Means (sacado de la documentación de scikit-learn)](images/kmeans_clustering_example.png)
- Tablas cruzadas que reflejen relaciones entre las variables.
## Transformaciones a los datos
- Cambios de formato para que se ajusten a las necesidades de análisis y visualización.
- Operaciones básicas: filtros, consultas, selección de variables, creación de nuevas variables a partir de las actuales, agrupar valores por unas variables y agregar los valores de las restantes.
- Formatos especiales como fechas o geolocalización.