-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathP3.qmd
More file actions
183 lines (102 loc) · 3.75 KB
/
P3.qmd
File metadata and controls
183 lines (102 loc) · 3.75 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
---
title: "Taller 3"
---
```{r}
if (!require("pacman")) install.packages("pacman") # instala pacman si se requiere
pacman::p_load(tidyverse, readxl, writexl, haven, sjlabelled, pollster,
janitor, magrittr) #carga los paquetes listados
```
## Datos
Recuerda, estos los puedes descargar desde el repo de la clase que hizo la profe <https://github.com/FCPyS/eacsii2023/tree/main/datos>
```{r}
enoet322socdem_tiempo <- haven::read_dta("datos/enoet322socdem_tiempo.dta")
```
## Filtros
Los filtros seleccionan **casos** que cumplen con una condición.
- Se pueden usar varias condiciones con los operadores `&` y `|`
- Se puede negar una condición con el operador `!`
- El operador `%in%` o `match` puede combinarse con vectores como listas de elementos válidos en una variable
Aquí unos ejemplos:
```{r}
enoet322socdem_tiempo %>%
dplyr::filter(eda>14) # cumple con la condición de mayores de 14 años
enoet322socdem_tiempo %>%
dplyr::filter(!eda>14) # NO cumple con la condición de mayores de 14 años
enoet322socdem_tiempo %>%
dplyr::filter(eda>14 & sex==2) # la condición que sea mujer Y mayor de 14 años
enoet322socdem_tiempo %>%
dplyr::filter(eda>14 | sex==2) # la condición que sea mujer O mayor de 14 años
# Veracruz - 30
# Puebla - 21
# Guanajuato - 11
# Nuevo León - 19
enoet322socdem_tiempo %>%
filter(ent%in%c(30, 21, 11, 19))
```
Los filtros son útiles para identificar la población objetivo dentro del cuestionario.
```{r}
# Filtro para identificar una población en nuestro cuestionario
enoet322socdem_tiempo %>%
filter(eda>5) %>%
select(anios_esc) %>%
summary()
```
## Gráficos con filtros
Si bien ya habíamos hecho gráficas con `{esquisse}`, ahí es era un difícil establecer filtros. Por ello usaremos directamente el paquete `{ggplot2}`
Cheatsheet en español: <https://diegokoz.github.io/intro_ds/fuentes/ggplot2-cheatsheet-2.1-Spanish.pdf>
El ggplot2 se basa en la construcción de gráficos a partir de tres componentes:
1) Datos,
2) Coordenadas y
3) Objetos geométricos
Esto será nuestra "gramática de gráficas"
Para visualizar los resultados, nosotres asignamos variables a las propiedades visuales o estéticas
Por ejemplo: los tamaños, colores y posiciones.
De manera genérica, podríamos pensar que el código para el ggplot será de la siguiente manera:
`ggplot(datos) + (geometria) + (esteticas)`
```{r}
enoet322socdem_tiempo %>%
filter(eda>5) %>%
ggplot2::ggplot() +
aes(x=anios_esc) +
geom_histogram()
enoet322socdem_tiempo %>%
filter(eda>5) %>%
ggplot2::ggplot() +
aes(x=anios_esc) +
geom_density()
enoet322socdem_tiempo %>%
filter(eda>5) %>%
ggplot2::ggplot() +
aes(x=anios_esc) +
geom_density() +
facet_wrap(vars(as_label(sex)))
```
## Tabulados de doble entrada
### tabla cruzada sin factor
- Los adornos de janitor cambian la lógica
- Tenemos que saber qué variables queremos
```{r}
enoet322socdem_tiempo %>%
filter(clase1==1) %>% # nos quedamos con la p. ocupada
dplyr::mutate(sex=sjlabelled::as_label(sex)) %>%
dplyr::mutate(clase2=sjlabelled::as_label(clase2)) %>%
janitor::tabyl(clase2, sex)
```
Agregando adornos
```{r}
enoet322socdem_tiempo %>%
dplyr::mutate(sex=sjlabelled::as_label(sex)) %>%
dplyr::mutate(clase2=sjlabelled::as_label(clase2)) %>%
janitor::tabyl(clase2, sex) %>%
janitor::adorn_totals(where = "row") %>%
janitor::adorn_percentages("col") %>%
janitor::adorn_pct_formatting(digits = 2)
```
### tabla cruzada con factor de expansión
Mucho cuidado con los adornitos
```{r}
enoet322socdem_tiempo %>%
dplyr::mutate(sex=sjlabelled::as_label(sex)) %>%
dplyr::mutate(clase2=sjlabelled::as_label(clase2)) %>%
pollster::crosstab(clase2, sex, weight = fac_tri)
```