-
Notifications
You must be signed in to change notification settings - Fork 221
/
eda_anscombe.Rmd
239 lines (177 loc) · 5.32 KB
/
eda_anscombe.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
# 探索性数据分析-anscombe数据集 {#eda-anscombe}
```{r, include=FALSE}
knitr::opts_chunk$set(
echo = TRUE,
warning = FALSE,
message = FALSE,
fig.showtext = TRUE
)
```
在可视化章节,我们提到 Anscombe’s quartet这个数据集,
```{r eda-anscombe-1, eval=FALSE}
?datasets::anscombe
```
在其官方文档,我们可看到它是这样描述的:
> Four x-y datasets which have the same traditional statistical properties (mean, variance, correlation, regression line, etc.), yet are quite different.
```{r eda-anscombe-2, message=FALSE, warning=FALSE}
d <- datasets::anscombe
head(d)
```
## 探索anscombe
```{r eda-anscombe-3, message=FALSE, warning=FALSE}
library(tidyverse)
```
本节课的内容,就是用tidyverse的方法去探索下这个数据集:
- 规整数据
- 分组统计
- 建模
- 可视化
## 规整数据
我们再看看数据
```{r eda-anscombe-4}
head(d)
```
实际上,这是四组`(x1, y1), (x2, y2), (x3, y3), (x4, y4)`。那要怎么样规整数据,
或者说怎么样把数据弄成tidy呢。这里有个技巧,你可以想象,数据能`ggplot()`可视化的基本上就是tidy的。
```{r eda-anscombe-5, eval=FALSE}
d %>%
ggplot(aes(x = x, y = y)) +
geom_point() +
facet_wrap(~set)
```
那么,我们希望我们的数据是这样的格式
| set | x | y |
|:----|:---|:-----|
| 1 | 10 | 8.04 |
| 1 | 8 | 6.95 |
| ... | | |
| 2 | 10 | 9.14 |
| 2 | 8 | 8.14 |
| ... | | |
### 小小的回顾
我们之前讲过,数据变形中,**宽表格**变成**长表格**,
需要用到`tidyr::pivot_longer()`函数
```{r eda-anscombe-6, out.width='99%', fig.align='left', echo = F}
knitr::include_graphics("images/pivot.png")
```
比如
```{r eda-anscombe-7}
dt <- tibble(id = c("a", "b"), x_1 = 1:2, x_2 = 3:4, y_1 = 5:6, y_2 = 8:9)
dt
dt %>% pivot_longer(-id,
names_to = "name",
values_to = "vaules"
)
```
有时候,我们不想要下划线后面的编号,只想保留前面的第一个字母
```{r eda-anscombe-8}
dt %>% pivot_longer(
cols = -id,
names_to = "name",
names_pattern = "(.)_.",
values_to = "vaules"
)
```
有时候人的需求是多样的,比如不想要前面的第一个字母,只要下划线后面的编号
```{r eda-anscombe-9}
dt %>% pivot_longer(
cols = -id,
names_to = "name",
names_pattern = "._(.)",
values_to = "vaules"
)
```
有时候我们都想要呢?
```{r eda-anscombe-10}
dt %>% pivot_longer(
cols = -id,
names_to = c("name", "group"),
names_pattern = "(.)_(.)",
values_to = "vaules"
)
```
有时候,我们希望`"x", "y"`保留在列名,那么匹配出来的第一个字母,就不能给`"name"`,而是传给特殊的符号`".value"`,它会收集匹配出来的字符,然后放在列名中
```{r eda-anscombe-11}
dt %>% pivot_longer(
cols = -id,
names_to = c(".value", "group"),
names_pattern = "(.)_(.)",
values_to = "vaules"
)
```
是不是觉得很强大?
### 回到案例
具体来说,我们希望 `x1` 按照指定的正则表达式分成了两个部分 `x`和 `1`,那么`1`放在`set`下,而 `x` 传给了`.value` 当作变型后的**列名**.
```{r eda-anscombe-12, out.width='90%', fig.align='left'}
knitr::include_graphics("images/pivot_longer_values.jpg")
```
那么和上面的情况一样,使用`tidyr::pivot_longer()`函数
```{r eda-anscombe-13}
tidy_d <- d %>%
pivot_longer(
cols = everything(),
names_to = c(".value", "set"),
names_pattern = "(.)(.)"
)
tidy_d
```
再啰嗦下参数的含义:
- `cols = everything()` 表示选择所有列
- `names_to = c(".value", "set")` 希望变型后的列名是`c(".value", "set")`, 这里 `".value"` 是个特殊的符号,代表着`names_pattern`匹配过来的值,一般情况下,是多个值,如果传给`".value"`的`"x, y, z"`,那么列名就会变成`c("x", "y", "z", "set")`
- `names_pattern = "(.)(.)"` 将变换前的**列名**按照指定的**正则表达式**匹配,并且传递给`names_to`的对应的参数,比如这里第一个`(.)`传递给`.value`;第二个`(.)`传递给`set`.
## 统计
数据规整了,统计就很简单了
```{r eda-anscombe-14}
tidy_d_summary <- tidy_d %>%
group_by(set) %>%
summarise(across(
.cols = everything(),
.fns = lst(mean, sd, var),
.names = "{col}_{fn}"
))
tidy_d_summary
```
## 建模
具体参考第 \@ref(tidyverse-colwise) 章整理的四种方法
```{r eda-anscombe-15, eval=FALSE}
tidy_d %>%
group_nest(set) %>%
mutate(
fit = map(data, ~ lm(y ~ x, data = .x)),
tidy = map(fit, broom::tidy),
glance = map(fit, broom::glance)
) %>%
unnest(tidy)
```
感觉大家更喜欢这种
```{r eda-anscombe-16}
tidy_d %>%
group_by(set) %>%
group_modify(
~ broom::tidy(lm(y ~ x, data = .))
)
```
```{r eda-anscombe-17}
tidy_d %>%
group_by(set) %>%
summarise(
broom::tidy(lm(y ~ x, data = cur_data()))
)
```
## 可视化看看
```{r eda-anscombe-18}
tidy_d %>%
ggplot(aes(x = x, y = y, colour = set)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE) +
theme(legend.position = "none") +
facet_wrap(~set)
```
```{r eda-anscombe-19, echo = F}
# remove the objects
# rm(list=ls())
rm(d, dt, tidy_d, tidy_d_summary)
```
```{r eda-anscombe-20, echo = F, message = F, warning = F, results = "hide"}
pacman::p_unload(pacman::p_loaded(), character.only = TRUE)
```