실습과제 10

실라버스에서 안내된 바와 같이 R, (Windows 사용자의 경우) Rtools, Rstudio, Quarto 및 필수 패키지들을 R에서 설치한 이후 다음의 내용들에 답하시오. 제출은 RMarkdown (.Rmd) 혹은 Quarto (.qmd) 확장자를 사용하되, html, pdf, docx 중 제한은 없다.

이루리의 예제 데이터 폴더에서 vdem 데이터를 다운받아 read_csv() 함수를 이용해 R로 불러와 vdem 이라는 객체로 저장하고 {tidyverse} 패키지를 로드하라. 마찬가지로 {moderndive} 패키지를 설치하고 로드하라.

Exercise 1: 다중 회귀분석

A. 선거 민주주의 지수(Electoral Democracy Index, v2x_polyarchy)를 로그값을 취한 1인당 GDP(로그화된 e_gdppc)로 회귀분석하는 모델을 추정하고, 그 결과를 해석하라.

B. 선거 민주주의 지수를 로그 1인당 GDP와 내전(civil war) 변수로 회귀분석하는 다변량 모델을 추정하라.

C. 위 B의 다변량 모델 결과를 해석하라. A와 B의 결과를 비교하여 설명하라.

Exercise 2: 질적 변수(Qualitative Variables)

A. 선거 민주주의 지수(Electoral Democracy Index, v2x_polyarchy)를 로그 1인당 GDP(로그화된 e_gdppc)와 지역(e_regionpol_6C) 변수로 회귀분석하는 다중 회귀 모델을 추정하라. HINT: e_regionpol_6C는 R에서 factor로 처리해야 올바른 더미 변수(dummy variables)가 생성됨.

B. summary() 함수를 사용하여 모델의 결과를 출력하고, 다음 질문에 답하라.

모델의 기준 범주(reference category)는 어느 지역인가?
기준 범주와 비교할 때, 다른 지역들의 계수(coefficient)는 각각 어떻게 해석해야 하는가? 통계적으로 유의미한 차이를 보이는 지역이 있는가?
이 모델에서 로그 1인당 GDP 계수의 의미는 무엇인가? (즉, 무엇을 통제한 상태에서의 효과인가?)

Exercise 3: 상호작용항(Interaction Terms)

A. 내전이 있는 국가와 없는 국가를 구분하여, 각각의 그룹에 대해 선거 민주주의 지수를 로그 1인당 GDP로 회귀분석하는 모델을 별도로 추정하라.

B. 1인당 GDP의 효과가 내전 유무(e_civil_war)에 따라 달라질 수 있도록 허용하는 상호작용 모델을 추정하라. 결과를 해석하고 2-A에서 추정한 모델들과 비교하라.

C. 2-B의 결과를 바탕으로, e_civil_war를 0으로 고정한 경우와 1로 고정한 경우 각각에 대해, 로그 1인당 GDP 값이 0에서 1 사이일 때의 선거 민주주의 지수 예측값을 추정하라.

D. 두 시나리오(e_civil_war=0, e_civil_war=1)의 예측값을 95% 신뢰 구간과 함께 그래프로 그리고, 그래프를 해석하시오.

E. e_civil_war 값에 따른 GDP의 한계 효과(marginal effects)를 그림으로 나타내고 그 의미를 해석하라.

F. 예측값(predicted values)과 한계 효과(marginal effects)의 차이점은 무엇인가? 2-D와 2-E의 그래프는 어떻게 다른가?

Exercise 4. 회귀분석 결과 해석

A. 선거관리위원회(EMB) 역량(EMB capacity) 값을 로그 인구(logged values of population, e_pop) 값으로 회귀분석하는 모델을 추정하고, 회귀분석 표를 제시하라.

B. 결과를 해석하라. 추정된 계수는 통계적으로 유의미한가? 유의수준은 얼마인가?

C. 95% 신뢰 구간을 포함한 회귀선을 그래프로 그려, \(X\)가 \(Y\)에 미치는 한계 효과를 시각적으로 설명하라. HINT: {marginaleffects}, {ggeffects} 패키지 활용. 물론 직접 계산해도 좋음.

Exercise 5. 잔차(Residuals)

A. 동유럽 및 중앙아시아(e_regionpol_6C == 1) 그룹과 아시아 태평양 (e_regionpol_6C == 6) 그룹에 대해, 각각 선거관리위원회(EMB) 역량 값을 로그 인구 값으로 회귀분석하는 모델을 별도로 추정하라.

B. 위 A의 결과(두 모델)를 해석하라. HINT: 분석 전 데이터를 두 그룹으로 나눠야 함.

C. 두 모델 각각에 대해 X가 Y에 미치는 한계 효과를 시각적으로 설명하라.

D. 각 하위 표본(subsample)에 대해 잔차의 분포를 그래프로 나타내라. 분포의 모양은 어떠한가? HINT: residuals() 함수 사용.

E. 각 하위 표본에 대해 plot() 함수를 사용하여 잔차를 검토하고, 플롯을 해석하라.