-
Notifications
You must be signed in to change notification settings - Fork 0
/
4. Estadistica descriptiva
239 lines (167 loc) · 6.43 KB
/
4. Estadistica descriptiva
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
////////////////////////////////////////////////// ///////////////////////////////
// PROYECTO: ESTADISTICA DESCRIPTIVA
// AUTOR: ADRIAN ALEJANDRO DELGADO RIVERO
// BASE DE DATOS: -
// FUENTE: -
// VARIABLES: -
// CONTACTO: [email protected]
// CONTACTO: +591 69539797
// PAIS: Bolivia
////////////////////////////////////////////////// ///////////////////////////////
*1. PREVIO
* Memoria
set mem 300m // Aumenta la memoria del sistema a 300 megas
* Directorio
cd "C:\Users\Usuario\Documents\Bases de datos\EJEMPLO"
* Archivo de registro
* log using name.log, replace
* log close // off on
*2. DATOS.
*2.1. IMPORTAMOS BASES DE DATOS
import spss "C:\Users\Usuario\Documents\Bases de datos\EH-SPSS\EH 2022\EH2022_Persona", clear // abrimos la EH_2022, seccion
*3. TRATAMIENTO DE DATOS
*3.1. MANTENER VARIABLES
{
keep folio /// id
area ///
aestudio /// escolaridad
s01a_03 /// edad
cobersalud /// tiene seguro medico
s04f_35 /// afiliado a AFP
depto /// departamento
ylab /// ingresos laboral
ynolab /// ingreso no laboral
s01a_02 /// Sexo
phrs /// hrs laborales semana
factor
}
*3.2 RENOMBRAR
{
rename (aestudio s01a_03 s01a_02 phrs) ///
(escolaridad edad sexo hrs_sem)
}
*3.3. GENERAR VARIABLES
{
generate exper = ((edad-6)-escolaridad) // ejemplo para experiencia
replace expe=0 if edad<0 // remplazamos experiencia nula si no tienen edad
label variable expe "Experiencia laboral en años" //colocamos etiquetas
generate mujer= sexo ==2
generate empleado =1 if ylab!=0 // creamos la variable "empleado" si
replace empleado=0 if ylab ==0
replace empleado=. if ylab==.
generate seg= cobersalud==1 // ejemplo para una dicotomica
replace seg=0 if cobersalud==2 // remplazamos para valores del caso
replace seg=. if cobersalud==. // remplazamos para valores faltante
generate AFP= s04f_35 ==1 // ejemplo para una dicotomica
replace AFP=0 if s04f_35 ==2
replace AFP=. if s04f_35 ==.
generate informalidad =1 if AFP==0 | seg==0 // ejemplo para una variable con condicion logica
replace informalidad =0 if AFP==1 | seg==1
}
*4. ESTADISTICA DESCRIPTIVA
* TABLAS
{
*4.1. TAB. Tabla de frecuencias
tab depto
*4.2 TAB2. tablas cruzadas
tab2 area informal, cell chi2 exact column expected row
tab2 area informal //frecuencia observada
tab2 area informal, cell //porcentaje total
tab2 area informal, column //porcentaje columna
tab2 area informal, expected //frecuencia esperada
tab2 area informal, row //porcentaje fila
tab2 area informal, chi2 // chi2 : asociacion
tab2 area informal, exact // Fisher's Exact: asociacion
*4.3. ****TABLA PERSONALIZADA*****
table ( fila ) ( columna ), statistic(commando X)
*EJEMPLO
table ( depto ) ( area ), statistic(mean escolaridad)
table ( depto ) ( area ) ( mujer ), statistic(mean escolaridad) statistic(mean exper) // segmentado para mujer, para las estadisticas de escolaridad y exper
}
*4.4 TENDENCIA CENTRAL
{
*CODEBOOK
*Descripcion general de las variables
codebook ylab sexo escolaridad edad area hrs_sem
codebook ylab sexo escolaridad edad area hrs_sem if empleado==1
*SUMMARIZE
summarize [varlist] [if] [in] [weight] [, options]
*Sumario estadistico, con las medidas más relevantes
sum ylab edad escolaridad hrs_sem
*Condicional
sum ylab edad escolaridad hrs_sem if empleado==1
*Ponderado
sum ylab edad escolaridad hrs_sem [aweight=area] // ponderado por area
**NOTA: la ponderacion es pemite corregir desequilibrios
*En Rango
sum ylab edad escolaridad hrs_sem in 5000/l // desde la obs 5000 hasta el final
sum ylab edad escolaridad hrs_sem in f/1000 // desde la obs 1 hatas la 1000
sum ylab edad escolaridad hrs_sem in 1000/5000 // en el rango de obs 1000 a 5000
*Por valores de D
by depto, sort: sum ylab edad escolaridad hrs_sem
*TABSATAT. Tablas con estadisticos (Tendencia central)
tabstat varlist [if] [in] [weight] [, options]
* Options
* labelwidth(#) width for by() variable labels; default is
* labelwidth(16)
* varwidth(#) variable width; default is varwidth(12)
* columns(variables) display variables in table columns; the default
* columns(statistics) display statistics in table columns
* format[(%fmt)] display format for statistics; default format is %9.0g
* casewise perform casewise deletion of observations
* nototal do not report overall statistics; use with by()
* missing report statistics for missing values of by() variable
* noseparator do not use separator line between by() categories
* longstub make left table stub wider
* save store summary statistics in r()
tabstat escolaridad, statistics( mean count sum max min median p1 p10 p25 p50 p75 p90 p99) by(depto)
mean // promedio
count // conteo no vacio
sum // suma * ojo fuera de la tabla dara sumario
max // maximo
min // minimo
median// mediana
p90 // percentil 90
p25 // percentil 25
* Con restricciones
tabstat escolaridad if depto ==1, statistics( mean count sum max min ) by (area)
* Ponderado por el factor de expansión
sum yprilab edad escolaridad [w=factor]if area==1 & mujer==1
*Media
ameans yprilab // media aritmetica, geometrica , harmonica
proportion depto // proporcion
*Estandarizacion
egen escolaridad_std = std(escolaridad)
*Estandarizar un conjunto de variables
foreach Z in escolaridad exper yprilab {
egen `Z'_std = std(`Z')
}
*Sumario para conjuntos de variables
sum *_std // summario de todo lo que termine con "_std"
sum Z* // sumario de todo lo que inicie con "Z"
}
* 4.5. VARIABILIDAD
*TABSATAT. Tablas con estadisticos (variabilidad)
{
tabstat escolaridad, statistics( sd var cv semean range iqr skewness kurtosis) by(depto)
cv // coef variacion
range // rango
iqr //rango intercuantil (75-25)
var // varianza
sd // desviacion estandar
semean // error estandar de la media
skewness // asimetria
kurtosis // kurtosis
}
*4.6 CORRELACION
{
corr X1 X2
spearman escolaridad yprilab
* ktau escolaridad yprilab, stats(p)
}
*4.7. INDICES
ratio [name:] varname [/] varname
{
ratio (ejemplo: ylab/escolaridad), fvwrap(1)
}
}