-
Notifications
You must be signed in to change notification settings - Fork 2
/
Copy path05-tidy_task.qmd
530 lines (365 loc) · 15.7 KB
/
05-tidy_task.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
# 数据清洗
前面,我们花了不少篇幅,做了一些基础性的操作。在正式进入数据可视化和分析以前,我们还要学会如何将导入的原始数据,通过某些操作
把数据转化成可以直接分析的整洁数据,这个过程就是数据清洗。英文名有很多,data cleaning,data wrangling,data manipulation,data munging, data transformation, data processing等
## 清洗步骤
这些步骤,前三步,顺序在某些情况下可以变化,比如可以先数据变形
1. 列操作
2. 行操作
3. 数据变形
4. 数据归一
5. 清除重复和空值
6. 数据合并
## 列-行操作
想一想,拿到表格数据后,我们应该做些什么。首先就是先留下自己想要的,不需要的内容我们可以剔除,比如,病人的姓名是隐私,一般不需要(剔除列);一些记录不符合纳入标准,需要剔除掉,比如患者年龄太小或太大(剔除行)。这就需要列-行的操作。先进行列操作,是我的习惯,你当然也可以先操作行。
需要加载的包,需要读取的数据如下
```{r}
pacman::p_load(tidyverse,rio)
stroke <- import("dataset/stroke.csv")
```
在进行各种操作以前,我们一般先整体上看一下这个数据的状况,我们可以用一个函数`glimpse()`
```{r}
glimpse(stroke)
```
::: callout-note
该数据集的变量名解释
- doa : date of admission
- dod : date of discharge
- status : event at discharge (alive or dead)
- sex : male or female
- dm : diabetes (yes or no)
- gcs : Glasgow Coma Scale (value from 3 to 15)
- sbp : Systolic blood pressure (mmHg)
- dbp : Diastolic blood pressure (mmHg)
- wbc : Total white cell count
- time2 : days in ward
- stroke_type : stroke type (Ischaemic stroke or Haemorrhagic stroke)
- referral_from : patient was referred from a hospital or not from a hospital
:::
### 列[选择-重命名-新列]
列-行操作,用到的包主要是`dplyr`,隶属于tidyverse系列,按照习惯,我们直接加载tidyverse即可(前面已经加载过)。
#### 选择列select()
通过列号或者列名选择
```{r}
stroke2 <- stroke %>%
select(1,3,sex,dm,stroke_type) %>%
glimpse()
```
有时候,我们希望大部分列都保留,只剔除不想要的列,只需在列号或列名前加`-`
```{r}
stroke3 <- stroke %>%
select(-1,-sex) %>%
glimpse()
```
#### 重命名列rename()
对列名字不太满意?
```{r}
#| echo: true
stroke3 %>%
rename(type = stroke_type, DM=dm) %>%
glimpse()
```
其实,如果我们用`select()`命令,在选择行的同时,可以将重命名同时进行。
:::{.callout-tip}
想想,这样做和`rename()`有什么区别。
:::
```{r}
#| echo: true
stroke4 <- stroke %>%
select( gender = sex, DM = dm) %>%
glimpse()
```
#### 创建新列 mutate()
我们想创建一个新列,是脉压值,pulse_p = 收缩压-舒张压。可以用mutate()
```{r}
#| echo: true
stroke5 <- stroke %>%
select(-1,-sex) %>%
mutate(pulse_p = sbp - dbp) %>%
glimpse()
```
:::{.callout-note}
留个作业,如果你想创建一个新列,收缩压>140或舒张压>90为高血压,并赋值为HBP,其余赋值为norm。如何做?
提示:我们可以用`ifelse`这个语句,ifelse(sbp>140|dbp>90, 'HBP', 'norm')
:::
#### 列的数据类型转换 mutate()
```{r}
#| echo: true
stroke5 %>%
mutate(status = as.factor(status)) %>%
glimpse()
```
### 行操作 filter()
行操作的需求一般就只有一个,把我要的记录筛选出来。
比如我们创建一个名为stroke_m_9的数据集,筛选出Glasgow Coma Scale (gcs)>9分以上的男性。
```{r}
#| echo: true
stroke_m_9 <- stroke %>%
filter(sex == "male", gcs>9) %>%
glimpse()
```
### 分组和运算
有时候我们很想对数据进行分组,并分开计算。如我们想计算男女之间的血压均值分别是多少。可以分别用到`group_by()`和`summarize()`。
```{r}
#| echo: true
stroke_sex <- stroke %>%
group_by(sex) %>%
summarise(meansbp = mean(sbp, na.rm = TRUE), # na.rm参数是剔除空值
meandbp = mean(dbp, na.rm = TRUE),
meangcs = mean(gcs, na.rm = TRUE))
```
还可试试计算统计频数,如status这个代表是生存还是死亡。
```{r}
#| echo: true
stroke_status <- stroke %>%
group_by(sex) %>%
count(status, sort = TRUE)
```
关于列-行操作,我们来总结一下`dplyr`的主要操作。
大家要学会找速查表(cheatsheet),直接在搜索引擎搜索,某包的名字+cheatsheet即可,如dplyr cheatsheet。
https://dplyr.tidyverse.org/
- `mutate()` adds new variables that are functions of existing
variables
- `select()` picks variables based on their names.
- `filter()` picks cases based on their values.
- `summarise()` reduces multiple values down to a single summary.
- `arrange()` changes the ordering of the rows.
## 数据变形 tidyr
### 长宽数据转换
Reshaping Data from Wide (Fat) to Long (Tall)
宽数据变长数据
![示例(The Epidemiologist R Handbook)](image/05/pivot_longer_new.png)
首先来看看什么是宽数据。
```{r}
pwide <- read.csv("dataset/pwide.csv")
head(pwide)
```
这个数据来自[Gapminder ](https://www.gapminder.org/data/)。代表每个国家每年的民主指数。
我们看到,这个表格是把年作为了列名,但其实,我们需要的是年作为变量(variable),然后具体的年份作为数值,存入该变量。只需要一个tidyr包的`pivot_longer`命令即可。这样就符合整洁数据的要求。
```{r}
pivot_longer(pwide,
cols = !country, #选择要改变的列
names_to = "year", #变量名合并至新列
values_to = "score"
) %>%
head(15)
```
更复杂的例子,来自https://epirhandbook.com/en/pivoting-data.html
看看下面这个例子
前面的例子合并的列是相同类型的数据,比如都是数值。但我们也经常见到一些不同类型数据(multiple classes)的列合并,比如下面这个例子
```{r}
dfmc <-
tribble(
~id, ~obs1_date, ~obs1_status, ~obs2_date, ~obs2_status, ~obs3_date, ~obs3_status,
"A", "2021-04-23", "Healthy", "2021-04-24", "Healthy", "2021-04-25", "Unwell",
"B", "2021-04-23", "Healthy", "2021-04-24", "Healthy", "2021-04-25", "Healthy",
"C", "2021-04-23", "Missing", "2021-04-24", "Healthy", "2021-04-25", "Healthy"
)
```
我们强行合并一下试试
```{r}
pivot_longer(dfmc,
cols = -id, #选择要改变的列
names_to = c("index"), #变量名合并至新列
values_to = "record"
)
```
目前这数据肯定还不是tidydata,因为有的数据合并在同一个列里面了。我们可以尝试这样
这里的重点和难点是这个`.value`
```{r}
dfmcl <- pivot_longer(dfmc,
cols = -id, #选择要改变的列
names_to = c("obs",".value"), #找到变量里面共同字符串"obs",然后"_"后面的字符作为新变量名(".value"的作用)
names_sep = "_" # 变量分割"_"
)
dfmcl
```
长数据变宽数据,就非常简单了,大家可以看看官方教程
https://tidyr.tidyverse.org/articles/pivot.html?q=.value#wider
:::callout-note
留个作业,请把刚刚的dfmcl数据,obs这个列拆分,变成宽数据(wide data)。
:::
### 拆分列
之前我们曾经看到过这样的数据,将不同的变量合并到了一列。如下,_f和_m分别代表女和男,性别。
```{r}
read.csv("dataset/heartrate2.csv")
```
下面我们仍然可以采用tidyr的 separate命令来拆分
```{r}
heartrate2 <- read.csv("dataset/heartrate2.csv") %>%
separate(patient, into= c("patient", "sex"), sep = "_")
heartrate2
```
## 数据归一
### 日期数据
R日期可以保存为Date类型, 一般用整数保存,默认数值为从1970-1-1经过的天数。
R中用一种叫做POSIXct和POSIXlt的特殊数据类型保存日期和时间, 可以仅包含日期部分,也可以同时有日期和时间。
基础的R包已包含了部分日期和时间操作功能。用as.Date()、as.POSIXct()等函数生成日期型和日期时间型。
```{r}
as.Date("1970-01-01")
as.numeric(as.Date("1970-01-01"))
as.Date(1255, origin = "1900-01-01")
```
注意,平时我们在读取数据后,日期和时间默认都是文本类型,可以看看我们前面的stroke数据。
```{r}
glimpse(stroke) # doa和dod的数据类型都是<chr>文本。
```
我们来转换一下,这时候我们可以用到一个专门处理日期和时间的包*lubridate*。
```{r}
library(lubridate)
stroke <- stroke %>%
mutate(doa = as_date(doa), dod = dmy(dod)) %>% # as_date()函数必须对应年/月/日格式
glimpse()
```
在年号只有两位数字时,默认对应到1969-2068范围。
如,
```{r}
as_date("70-01-01") #
```
对于日期数据很不规整的,一团糟的,我们还可以用parsedate这个包的`parse_date`函数来进行归一化。
```{r}
parsedate::parse_date(c("03 January 2018",
"07/03/1982",
"08/20/85"))
```
其他还有很多函数,我就不再一一介绍了,更多的用法,可以访问
[R日期时间](https://www.math.pku.edu.cn/teachers/lidf/docs/Rbook/html/_Rbook/prog-type-date.html)或官方文档[Make Dealing with Dates a Little Easier • lubridate](https://lubridate.tidyverse.org/index.html)。
我们为什么对日期规范要求严格,只有这样才能实现日期或时间之间的运算。
lubridate还有一些对时间段类型数据进行规整的方法和数据类型。
- durations are time spans in exact numbers of seconds
- periods are time spans in human units (e.g., days, months, years)
- intervals are time spans with a given start and end point in time
具体来说*duration*数据和*interval*数据都是精确到秒的,都是两个具体时间之间以秒来计算的时间段。不同的是*interval*必须有起止时间。period这个时间段更像人话,因为用秒去计算的话,人读起来太难受,但有个问题,period有时候并不是固定的,比如每个月天数不一样,如果说一月一次为周期,那肯定间隔时间不恒定。
下面我们以一个例子来理解这三个数据类型。案例来源[time-lubridate](https://bookdown.org/hneth/ds4psy/10-3-time-lubridate.html)
#### duration
美东时间2001年9月11日,星期二,上午08:46,“基地”组织五名劫机者劫持一架美国航空公司的飞机撞向了纽约市世贸中心的北面。这就是著名的911事件。
我们讨论的第一个问题是,该时间离现在到底有多久了?
```{r}
tm_911 <- ymd_hm("2001 September 11, 8:46", tz = "US/Eastern")
tm_now <- now() # re-set current time
td <- tm_now - tm_911
td
```
这里的td表示“difftime”类的R对象的duration ,它自动显示为“days”的计数。如果我们想用其他单位,可以试试。但这个R基础数据实质最高的单位只到weeks,无法到月和年。
```{r}
class(td)
difftime(tm_now, tm_911, units = "weeks")
```
因此我们更推荐lubridate的数据类型,更像人话
```{r}
tdl <- as.duration(tm_now - tm_911)
tdl
```
大家看看输出结果,确实是秒,但备注了默认让人看起来舒服的转化后的时间单位
```{r}
class(tdl)
```
lubridate为我们设计了很多创造duration的函数
```{r}
dmonths(2) + dweeks(3) - ddays(4)
```
#### period
*period*适合设置和跟踪两个事件(日期时间)之间的“时钟时间”(或者日历)变化。
```{r}
as.period(tm_now - tm_911)
```
我们看到period的显示结果与duration完全不同。
```{r}
t1 <- ymd_hms("2020-03-29 00:00:00", tz = "Asia/Shanghai")
t1 + years(1)
```
虽然2020年时闰年366天,但加了一年以后,日期仍然没变。我们可以再试试其他的方式,来验证我们的猜想。
```{r}
start <- mdy_hm("3-11-2017 5:21", tz = "US/Eastern")
end <- mdy_hm("3-12-2017 5:21", tz = "US/Eastern")
time.interval <- start %--% end
time.interval
```
我们建立了一个interval,然后将其强行转化为period
```{r}
time.period <- as.period(time.interval)
time.period
```
其结果时1d,虽然这两个时间相差23h,不满24h,但在period看来,这是两个不同的日期了,差了1天。
#### interval
刚刚,我们已经稍微介绍了interval的情况。
可以有两种定义方法
- 方法1:定义起止的具体实践,上面已经用了
```{r}
start_end <- tm_911 %--% tm_now
start_end
```
- 方法2:只定义一个起点,然后联合时间段(time difference, duration, or period)确定终点。
```{r}
# (a) based on durations:
next_6m_d <- tm_now %--% (tm_now + dmonths(6))
last_6m_d <- (tm_now - dmonths(6)) %--% tm_now
# (b) based on periods:
next_6m_p <- tm_now %--% (tm_now + months(6))
```
我们看看二者有什么不同
```{r}
next_6m_p
next_6m_d
```
#### 时间除法
interval可以被duration or period除,而测算的。
```{r}
next_6m_p / years(1)
next_6m_p / months(1)
next_6m_d / dmonths(1)
```
回到我们最开始的问题。911事件离现在到底有多久了?
```{r}
# (1) from a duration:
t_dur <- as.duration(tm_now - tm_911)
round(t_dur / dyears(1), 1)
round(t_dur / dmonths(1), 1)
# (2) from a period:
t_per <- as.period(tm_now - tm_911)
round(t_per / years(1), 1)
round(t_per / months(1), 1)
# (3) from an interval:
t_int <- tm_911 %--% tm_now
t_int %/% years(1)
t_int %/% months(1)
```
:::{.callout-note}
如何选择合适的时间段,我们可以参考[r4ds Dates and times](https://r4ds.had.co.nz/dates-and-times.html)。当我们主要关注的是以秒为单位的流逝时间时,我们使用duration。当时间跨度以人为习惯的单位衡量时,period通常提供最佳解决方案。如果我们需要测量受日历时间限制的时间段,我们可以使用interval,或者组合几个时间段组合。
:::
### 字符数据vs.factor
前面讲数据结构的时候,我们提过因子factor是R语言特殊的数据类型,专门用于分类变量, 如性别、省份、职业。 有序因子代表有序量度,如打分结果,疾病严重程度等。它其实有四个属性
- levels: It is a set of distinct values which are given to the input vector x.
- labels: It is a character vector corresponding to the number of labels.
- exclude: This will mention all the values you want to exclude.
- Ordered: This logical attribute decides whether the levels are ordered.
- nmax: It will decide the upper limit for the maximum number of levels.
```{r}
x <- c("男", "女", "男同", "男", "女","男同","女同","双性恋")
class(x)
```
当我们建立这样的字符数据的时候,和其他编程语言相同,我们还需要将其转化为factor,R语言基础包有这个方法。
```{r}
x_f <- factor(x,exclude = "双性恋", ordered = FALSE, nmax = 4)
x_f
```
我们重新把Levels 调整一下
```{r}
levels(x_f) <- c("男", "男同","女", "女同" )
x_f
```
我们还可以用前面的stroke数据集操练一下。首先把status数据转换为factor
```{r}
stroke_fac <- stroke %>%
mutate(status = factor(status))
str(stroke_fac$status)
```
我们还可重新改一下levels,我们用的到的是forcats包的`fct_relevel`方法
```{r}
stroke_fac <- stroke %>%
mutate(status = fct_relevel(status, "dead", "alive"))
str(stroke_fac$status)
```
为什么我们要调整一下levels呢?举个例子,下面的病人情况,如果你不改,默认alive在dead上面,可我想让这个表格dead在计算的时候出现在上面,我怎么办呢,只要按上面的把level顺序改了即可。
![病人情况](image/05/levels.png)
大家还可以浏览[R语言中的"因子"变量类型](https://blog.csdn.net/zhangxiaojiakele/article/details/80117602)去查看更多。
## 清除重复和空值