실습과제 1

실라버스에서 안내된 바와 같이 R, (Windows 사용자의 경우) Rtools, Rstudio, Quarto 및 필수 패키지들을 R에서 설치한 이후 다음의 내용들에 답하시오. 제출은 RMarkdown (.Rmd) 혹은 Quarto (.qmd) 확장자를 사용하되, html, pdf, docx 중 제한은 없다.

이루리의 예제 데이터 폴더에서 vdem 데이터를 다운받아 read_csv() 함수를 이용해 R로 불러와 vdem 이라는 객체로 저장하고 {tidyverse} 패키지를 로드하라. 마찬가지로 {moderndive}, {lindia} 패키지를 설치하고 로드하라.

Exercise 1: 회귀분석의 진단

A. vdem 데이터를 사용하여, 선거 민주주의 지수(Electoral Democracy Index)를 로그 1인당 GDP(logged per capita GDP)로 회귀분석하는 단순 선형 모델(lm 객체)을 만들어라.

B. lindia::gg_diagnose() 함수를 사용하여 이 모델의 전반적인 진단 플롯을 생성하라.

C. {lindia} 패키지의 “Residuals vs Fitted” (잔차 대 적합값) 플롯을 생성하는 함수(예: gg_residual_fitted())를 호출하여 플롯을 생성하라.

D. C에서 생성된 “Residuals vs Fitted” 플롯을 해석하라. 이 플롯을 바탕으로 두 변수 간의 선형성 가정이 충족되었다고 볼 수 있는가?

Exercise 2: 잔차의 정규성 및 등분산성(Homoscedasticity)

A. 연습문제 1에서 생성한 lm 객체를 사용하여, 잔차의 정규성을 확인하기 위한 Q-Q 플롯을 {lindia}의 함수(예: gg_qq())로 생성하라.

B. A에서 생성된 Q-Q 플롯을 해석하라. 점들이 점선(정규분포 기준선) 위에 잘 위치해 있는가? 이는 잔차의 정규성 가정에 대해 무엇을 의미하는가?

C. 잔차의 등분산성을 확인하기 위한 Scale-Location 플롯(예: gg_scale_location())을 {lindia} 함수로 생성하라.

D. C에서 생성된 Scale-Location 플롯을 해석하라. 이는 등분산성 가정(혹은 이분산성 문제)에 대해 무엇을 시사하는가?

Exercise 3: 영향력 있는 관측치(Influential Points) 식별

A. 선거 민주주의 지수(Electoral Democracy Index)를 로그 1인당 GDP와 내전(civil war) 변수로 회귀분석하는 다중 회귀 모델(lm 객체)을 만드시오.

B. {lindia} 패키지의 “Residuals vs Leverage” 플롯(예: gg_residual_leverage())을 호출하여, 이상치(outliers), 지렛대(leverage), 그리고 영향력(influence, 쿡의 거리)을 동시에 시각화하라.

C. B에서 생성된 플롯을 해석하라.

  1. 높은 지렛대(High Leverage) 값을 갖지만 잔차는 크지 않은 관측치가 있는가? (즉, X 공간의 이상치)

  2. 큰 잔차(Large Residual)를 갖지만 지렛대는 높지 않은 관측치가 있는가? (즉, Y 공간의 이상치)

  3. 쿡의 거리(Cook’s Distance)가 큰 (보통 0.5 또는 1 이상) 관측치가 있는가? 이 관측치들은 모델에 어떤 영향을 미칠 수 있는가?