실습과제 9
실라버스에서 안내된 바와 같이 R, (Windows 사용자의 경우) Rtools, Rstudio, Quarto 및 필수 패키지들을 R에서 설치한 이후 다음의 내용들에 답하시오. 제출은 RMarkdown (.Rmd) 혹은 Quarto (.qmd) 확장자를 사용하되, html, pdf, docx 중 제한은 없다.
vdem 데이터를 다운받아 read_csv() 함수를 이용해 R로 불러와 vdem 이라는 객체로 저장하고 {tidyverse} 패키지를 로드하라. 마찬가지로 {moderndive} 패키지를 설치하고 로드하라.
Exercise 1: 회귀분석의 가정
A. \(E(u|x)\)는 무엇을 의미하는지 설명하라. 세 가지 구체적인 예를 들고 각각의 경우 이 가정이 합리적인지 간략히 설명하라.
B. \(E(u|x)=0\)이 \(Cov(x,u)=0\)로 이어지고, 이는 다시 \(E(x \cdot u)=0\)로 이어진다는 회귀분석의 가정이 의미하는 바를 간단하게 설명하라.
Exercise 2: 1인당 GDP(e_gdppc)와 선거 민주주의 지수(v2x_polyarchy) 간의 관계
A. 각 변수에서 NA(결측값)를 제거하고 summary() 함수를 사용하여 요약 통계량을 제시하라.
B. 각 변수의 분포를 시각화하라. 1인당 GDP 변수에 로그값을 취할 필요가 있는가? 있다면, 혹은 필요없다면, 왜 그러한가?
C. 두 변수 간 관계에 대한 산점도를 생성하고 그래프를 해석하라.
D. 두 변수 간의 상관 계수를 계산하라. 그 관계는 긍정적인가(+), 부정적인가(-)? 통계적으로 유의미한 관계가 있는가?
Exercise 3: 기본적인 회귀분석
A. lm()을 사용하여, 로그를 취한 1인당 GDP 값(설명변수)을 선거 민주주의 지수(종속변수)로 회귀분석하라. summary()를 사용하여 모델을 요약하고 결과를 제시하라. 이 모델에서 절편값과 선거 민주주의 지수의 계수값을 각각 보고하라.
B. 선거 민주주의 지수와 로그값을 취한 1인당 GDP 간의 관계를 보여주는 산점도를 그리고 그 위에 회귀선을 더하라. HINT {ggplot2}의 geom_smooth() 옵션을 사용할 것.
Exercise 4: 회귀분석 계산하기
위에서 적합한 로그값을 취한 1인당 GDP와 선거 민주주의 지수 간의 단순회귀분석 모델을 가지고 아래의 계산을 수행하라. R을 계산기처럼 사용하여 결과를 제출하라.
A. 모델의 총 제곱합(TSS), 잔차 제곱합(RSS), 모델 제곱합(MSS)을 직접 계산하고 보고하라.
B. 모델의 R\(^2\) 값을 직접 계산하고 보고하라.
C. 선거 민주주의 지수의 계수를 직접 계산하고 보고하라. Exercise 2-A의 결과와 비교하라.
D. 절편을 직접 계산하고 보고하라. 2-A의 결과와 비교하라.
E. 선거 민주주의 지수의 표준 오차를 직접 계산하고 보고하라.
F. 절편의 표준 오차를 직접 계산하고 보고하라.