forked from yukiyanai/quant-methods-R
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathch07-answers.Rmd
73 lines (57 loc) · 2.88 KB
/
ch07-answers.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
---
title: "Rによる計量政治学:練習問題の解答例"
subtitle: "第7章 統計的推定"
author: "浅野正彦, 矢内勇生"
date: "2018-11-28"
output:
html_document:
theme: united
highlight: tango
css: my-markdown.css
toc: true
self_contained: true
---
```{r global_option, include = FALSE}
knitr::opts_chunk$set(warning = FALSE, echo = TRUE, message = FALSE,
fig.width = 5, fig.height = 4)
```
## パッケージの読み込み
```{r load-packs}
library("tidyverse")
```
## Q7-1
Rds形式の衆院選データ (hr-data.Rds) を読み込む。
手元にない場合はまずダウンロードする。
```{r read-HR-data}
# dir.create("data") # dataディレクトリがない場合は作る
#download.file(url = "https://git.io/fp00p",
# destfile = "data/hr-data.Rds")
HR <- read_rds("data/hr-data.Rds")
## Rdsファイルの読み込みがうまくいかない場合は以下を実行してCSVファイルを使う
#download.file(url = "https://git.io/fAnI2",
# destfile = "data/hr96-17.csv")
#HR <- read_csv("data/hr96-17.csv", na = ".")
```
正しく読み込めたかどうか確認する。
```{r check-HR}
glimpse(HR)
```
### Q7-1-1
得票数の95%信頼区間を求める。
```{r ci95}
vote_ci95 <- t.test(HR$vote, conf.level = 0.95)$conf.int
## conf.levelの既定値は0.95なので指定しなくても同じ
# vote_ci95 <- t.test(HR$vote)$conf.int
vote_ci95
```
獲得票数の95%信頼区間は、[`r as.character(round(vote_ci95[1]))`, `r as.character(round(vote_ci95[2]))`] である。
### Q7-1-2
得票数の50%信頼区間を求める。
```{r ci50}
vote_ci50 <- t.test(HR$vote, conf.level = 0.5)$conf.int
vote_ci50
```
獲得票数の50%信頼区間は、[`r as.character(round(vote_ci50[1]))`, `r as.character(round(vote_ci50[2]))`] である。
### Q7-1-3
上で同じ変数について求めた信頼度の異なる二つの信頼区間を比べると、50%信頼区間よりも95信頼%信頼区間の方が長い。
標本を抽出を何度もなんども繰り返し($N > 10,000$回繰り返すとしよう)、新しい標本を抽出するたびに信頼区間を計算するという作業を行うとする。このとき、得られた$N$個の50%信頼区間のうち、約50% (約$0.5N$個) の信頼区間は母数(パラメタ)を信頼区間内に捉えていることが期待される。同様に、得られた$N$個の95%信頼区間のうち、約95% (約$0.95N$個) の信頼区間は母数を信頼区間内に捉えていることが期待される。つまり、信頼度の高い信頼区間の方が、母数を捉える確率が高い。信頼区間では、区間内に母数があるかどうかが問題になるので、区間が長いほど、母数を区間内に含みやすくなる。したがって、50%信頼区間より95%信頼区間の方が長くなる。