실습과제 5

실라버스에서 안내된 바와 같이 R, (Windows 사용자의 경우) Rtools, Rstudio, Quarto 및 필수 패키지들을 R에서 설치한 이후 다음의 내용들에 답하시오. 제출은 RMarkdown (.Rmd) 혹은 Quarto (.qmd) 확장자를 사용하되, html, pdf, docx 중 제한은 없다.

이루리의 예제 데이터 폴더에서 vdem 데이터를 다운받아 read_csv() 함수를 이용해 R로 불러와 vdem 이라는 객체로 저장하고 {tidyverse} 패키지를 로드하라.

Exercise 1: 한계확률(Marginal probability)

A. v2elembcap_ord 변수의 관측치에 대한 교차표(frequency table)를 만들어라.

B. v2elembaut_ord 변수의 관측치에 대한 교차표(frequency table)를 만들어라.

C. v2elembcap_ord 변수 값의 한계확률을 보여주는 표를 만들어라.

D. v2elembaut_ord 변수 값의 한계확률을 보여주는 표를 만들어라.

E. v2elembcap_ord 변수 값이 3보다 작을 확률은 얼마인가?

F. v2elembaut_ord 변수 값이 2보다 클 확률은 얼마인가?

Exercise 2: 조건부확률(Conditional probability)

A. v2elembcap_ord의 각 값에 대한 v2elembaut_ord의 조건부 확률을 나타내는 표를 만들어라.

B. v2elembauto_ord 가 4일 때 v2elembcap_ord 가 가장 빈번하게 갖는 값은 무엇인가?

Exercise 3: 확률질량함수와 누적분포함수

주사위를 10번 던질 때, 6이 정확히 3번 나올 확률과, 3번 이하로 나올 확률을 각각 구하시오.

A. R의 dbinom(), pbinom() 함수를 활용하여 계산하라.

B. 이 확률분포의 기대값과 분산을 일반 공식을 통해서도 계산하고 결과를 비교하라.

Exercise 4: 포아송분포와 시뮬레이션

어떤 지역에서 한 달 평균 교통사고가 4건 발생한다고 하자.

A. 한 달에 정확히 6건이 발생할 확률을 계산하라(dpois()).

B. 1,000개월을 시뮬레이션하여(rpois()), 실제 6건이 발생한 비율을 구하고 A와 비교하라.

Exercise 5: 중심극한정리

모수의 분포가 평균 5, 분산 25인 지수분포(rexp())에서 표본을 추출하라.

A. 표본 크기 \(n = 5, 30, 200\) 일 때 표본평균 분포를 시뮬레이션하여(replicate()), 각 표본평균 분포의 히스토그램을 그리시오.

B. 표본 크기가 커짐에 따라 어떤 분포로 수렴하는지 설명하라.

Exercise 7: \(t\)-분포

A. 평균 70, 표준편차 10인 모집단에서 \(n=25\) 표본을 뽑았다고 가정하고, R로 1,000개의 표본을 생성하여 그 표집분포의 평균과 표준편차를 구하라.

Exercise 8: 확률과 데이터 생성 과정

Gailmard Ch.4 와 Ch.6 을 바탕으로, 확률분포를 데이터 생성 과정에 연결한다는 것이 의미하는 바를 서술하라. 왜 단순히 데이터를 나열하는 것 이상으로 DGP를 이해하는 것이 중요한지 논하라.

Exercise 9: 표본과 모집단

표본통계량을 바탕으로 모집단에 대해 추론할 때 발생할 수 있는 잠재적 함정(예: 편향 표본, 작은 표본 크기, 무작위성 위배)을 구체적 예시와 함께 설명하라.