실습과제 7
실라버스에서 안내된 바와 같이 R, (Windows 사용자의 경우) Rtools, Rstudio, Quarto 및 필수 패키지들을 R에서 설치한 이후 다음의 내용들에 답하시오. 제출은 RMarkdown (.Rmd) 혹은 Quarto (.qmd) 확장자를 사용하되, html, pdf, docx 중 제한은 없다.
vdem 데이터를 다운받아 read_csv() 함수를 이용해 R로 불러와 vdem 이라는 객체로 저장하고 {tidyverse} 패키지를 로드하라. 마찬가지로 {moderndive} 패키지를 설치하고 로드하라.
Exercise 1: 단변량의 수치적 요약과 시각적 요약(Univariate Numerical and Graphical Summaries)
A. 변수 v2x_polyarchy를 수치적으로 요약하시오. (예: 평균, 중앙값, 표준편차, 최솟값, 최댓값 등을 제시)
B. 변수 v2x_polyarchy에 대한 히스토그램(histogram)과 밀도곡선(density plot)을 작성하시오.
C. 변수 v2elembcap을 수치적으로 요약하고, 그래프로 시각화하시오.
Exercise 2: 양변량 분석 (Bivariate Analysis)
A. v2elembcap과 v2x_polyarchy의 관계를 나타내는 산점도(scatter plot)를 작성하시오.
B. 위의 그래프에 각 변수의 평균값(mean)을 나타내는 수평선과 수직선을 추가하시오. HINT: {ggplot2} 사용 시 geom_vline(), geom_hline() 옵션을 참고
Exercise 3: 신뢰구간 구성(Constructing a Confidence Interval)
A. 변수 v2x_polyarchy의 점추정치(point estimate)를 구하고 이를 mean으로 저장하시오. (힌트: 결측값(NA)은 제거할 것)
B. 표준편차(standard deviation, SD)를 구하고 sd로 저장하시오.
C. length() 함수를 이용하여 표본크기(sample size)를 구하고 n으로 저장하시오.
D. 표본크기를 이용하여 표준오차(standard error, SE)를 계산하고 se로 저장하시오.
E. 95% 신뢰구간(confidence interval)을 구성하고, 하한(lower bound)과 상한(upper bound)을 구하시오. 이 구간의 의미를 해석하시오.
Exercise 4: 분포 비교(Comparing Distributions)
A. Exercise 2에서 얻은 평균과 표준편차를 사용하여, 95% 신뢰구간을 포함하는 정규분포 곡선(normal distribution curve)을 작성하시오.
B. Exercise 1-B에서 만든 밀도곡선(density plot) 위에 정규분포 곡선(normal curve)을 겹쳐 그리시오. 그 결과를 바탕으로 v2x_polyarchy 값이 정규분포를 따른다고 볼 수 있는지 논하시오. 어떻게 알 수 있는가?
Exercise 5: 검정통계량 계산 (Calculate Test-Statistic)
A. 변수 v2elembcap과 v2x_polyarchy의 공분산(covariance)을 직접 수식으로 계산하시오. 계산 과정을 명시하고, cov() 함수를 이용하여 결과를 검증하시오. HINT: 결측값(NA)은 제거할 것
B. 변수 v2elembcap과 v2x_polyarchy의 상관계수(correlation coefficient)를 직접 수식으로 계산하시오. 계산 과정을 보인 뒤, cor() 함수를 이용하여 결과를 검증하시오.
C. 두 변수 간의 관계는 통계적으로 유의미(statistically significant)한가? 또한 그 관계는 양(+)의 관계인가, 음(-)의 관계인가?
Exercise 6: t-검정 (t-test)
A. 데이터셋을 두 집단으로 구분하시오.
내전(civil war)이 발생한 국가-연도
내전이 발생하지 않은 국가-연도
B. 두 집단의 v2elembcap 값을 비교하는 박스플롯을 작성하시오.
C. 두 집단의 v2elembcap에 대해 t-검정(t-test)을 수행하고, 그 결과를 해석하시오.
Exercise 7: 가설검정(Hypothesis Testing)
A. 본 실험을 위한 귀무가설(null hypothesis)과 대립가설(alternative hypothesis)을 명시하시오.
B. 데이터셋을 라틴아메리카 및 카리브해 지역으로 한정하고, 결측값(NA)을 제거한 후, 두 집단(내전 발생/비발생)의 v2x_polyarchy 값을 비교하는 박스플롯을 작성하시오. 두 집단의 민주주의 지수가 시각적으로 차이를 보이는지 답하시오. HINT: e_civil_war 변수를 범주형(factor)으로 변환할 것.
C. “두 집단 간 민주주의 지수에 차이가 없다”는 귀무가설이 참이라면, 내전 발생 여부는 무의미하므로, e_civil_war 값을 임의로 섞어(shuffle)도 무방하다. generate() 함수를 사용하여 귀무가설이 참이라는 가정하에 데이터를 1000회 반복(reps = 1000)하여 생성하시오.
D. 생성된 1000개의 데이터셋 각각에 대해 calculate(stat = "diff in means", order = c("0", "1")) 함수를 사용하여 요약 통계량(summary statistics)을 계산하시오.
F. visualize() 함수를 이용하여 위의 요약통계량을 시각화하고, shade_p_value() 함수를 사용하여 관찰된 검정통계량을 표시하시오. 그래프를 해석하시오.
G. get_p_value() 함수를 사용하여 p-값(p-value)을 구하시오. 이 값을 바탕으로 귀무가설을 기각할 수 있는지 설명하시오.