Processing math: 100%
+ - 0:00:00
Notes for current slide
Notes for next slide

STATS101

The Foundation of Linear Regression

Sanghoon Park

University of South Carolina

1 / 18

Introduction

Y: 측정된 몸무게 / X: 보고된 몸무게

  • 두 변수의 관계를 보여주는 선: Y=A+BX

  • 아무리 두 변수의 관계가 강력한 선형 관계를 보일지라도 각 관측치들이 모두 선 위에 완벽하게 놓이는 선은 존재할 수 없음.

  • 왜? 현실세계에는 우리가 관측하지 못한 요인들이 두 변수의 관계에 영향을 미칠 수 있기 때문

불확실성: 잔차(residual)

  • 실제 관측한 데이터들의 관계에는 불확실성이 개입될 수밖에 없음.

  • n=101개인 표본에서 i번째 관측치에 대한 회귀식: Yi=A+BXi+Ei=ˆYi+Ei

  • 이때, ˆYi=A+BXi는 각 관측치 i에 대한 예측값(fitted value)

2 / 18

Fox (2016, 84)는 단순순회귀모델의 개념을 시각화를 통해 보여줌.

  • Ei=YiˆYi=Yi(A+BXi)

  • 잔차( Ei )란 실제 개별 관측치( Yi 로부터 모델로 예측한 값( ˆYi)의 차이

 i번째 관측치에 대한 잔차( `\(E_i\)` )를 보여주는 Y에 대한 X의 회귀곡선

i번째 관측치에 대한 잔차( `Ei` )를 보여주는 Y에 대한 X의 회귀곡선

3 / 18

Residuals

데이터에 잘 들어맞는 회귀선이란 잔차의 크기가 작은 회귀선

  • 하지만 이때 '작다'는 것은 단 하나의 값에 대한 개별 잔차가 작다는 것을 의미하는 것이 아님.

  • 잔차의 절대값, 즉 개별 관측치와 모델의 예측값 간의 거리가 모든 관측치에 대해 평균적으로 작은 경우를 의미.

  • 이를 위해서 우리는 잔차의 총합(sum of residuals; ni=1Ei)의 값이 작을 때, 모델이 정확한 것으로 기대

만약 변수들의 평균( ˉX,ˉY )을 지나는 선이 존재한다고 할 때,

  • 평균을 지나는 선은 다음과 같이 나타낼 수 있음: ˉY=A+BˉX의 의미.

  • 회귀곡선과 마찬가지로 평균을 지나는 선과 개별 관측치와의 관계도 수식으로 나타낼 수 있음.

  • YiˉY=B(XiˉX)+Ei

4 / 18

Least-Squares Fit

모든 관측치와 변수들의 평균을 지나는 선 간의 잔차를 총합 역시 간단하게 구할 수 있음.

  • ni=1Ei=(YiˉY)B(XiˉX)=0B×0=0

즉, 이 결과는 특정 모델(회귀 or 평균)으로 예측한 값과 개별 관측치들 간 잔차의 합은 0( Ei=0 )이라는 것을 보여줌.

  • 왜냐하면 평균을 지나는 선 아래에 위치한 값, 위로 위치한 값들의 잔차는 결국 ±로 상쇄되어 0으로 수렴

  • 문제는 서로 다른 부호를 가진 잔차들이 상쇄되어 0이 되어버린다고 할 때, 서로 다른 모델 중에 어떤 것이 더 '작은 잔차'를 가지고 더 '정확한 모델'인지 비교하기 어려움.

5 / 18

Least-Squares Fit

그렇다면 '부호'를 없애주는 방법을 생각해볼 수 있음.

  1. 잔차의 절대값을 이용하는 방법(least-absolute-value (LAV) regression)

    • 잔차의 절대값의 합( |Ei|)의 합을 최소화시켜주는 AB를 찾는 것
  2. 잔차의 제곱값을 이용하는 방법(least-squares-criterion)

    • 잔차의 제곱값의 합( E2i)의 합을 최소화시켜주는 AB를 찾는 것
6 / 18

Least-Squares Fit

모든 관측치에 대한 잔차의 제곱합을 최소화해주는 AB의 값을 구하고자 함.

  • S(A,B)=ni=1E2i=(YiABXi)2

  • 주어진 데이터 {Xi,Yi},i=1,,n에 대해 특정한 잔차의 제곱합( E2i)에 대응하는 AB의 가능한 값을 나타내는 함수라고 할 수 있음.

  • 우리는 잔차의 제곱합이 최소가 되는 AB의 짝을 찾고자 하는 것 (Fox, 2016: 85).

가장 직접적으로 최소제곱합 접근법에 따른 계수값을 구하는 것은 위의 제곱합 함수(sum-of-squares function)에 편미분을 취하는 것

  • S(A,B)A=(1)(2)(YiABXi)

  • S(A,B)B=(Xi)(2)(YiABXi)

  • 간단하게 말하면 기울기 값을 구하는 것이라고 생각할 수 있음.

  • Fox (2016: 86)의 측정된 몸무게( Y)와 보고된 몸무게( X)에 관한 예제를 살펴보자.

7 / 18

Least-Squares Fit

n=101ˉY=5780101=57.228ˉX=5731101=56.743(XiˉX)(YiˉY)=4435.9(XiˉX)2=4539.3B=4435.94539.3=0.97722A=57.2280.97722×56.743=1.7776

8 / 18

Least-Squares Fit

이 식이 의미하는 것은 ^측정 몸무게=1.78+0.977×보고 몸무게

  • B=0.977: 보고된 몸무게 1kg 증가는 평균적으로 측정된 몸무게 약 0.977 kg 증가와 관련이 있다는 의미.

  • A=1.78: X, 즉 보고된 몸무게가 0일 때의 측정된 몸무게의 값을 말하는데, 현실적으로 몸무게가 0인 사람이 존재할 수 없으므로 유의미하게 해석하는 값은 아님.

  • 만약 보고된 몸무게가 실제 측정된 몸무게에 대해 편향되지 않은(unbiased) 예측값이었다면, 우리는 ˆY=X라는 식을 얻었을 것이고, 절편값은 0에 기울기 값은 1이었을 것.

9 / 18

Simple Correlation

잔차의 제곱합을 최소로하는 선을 그렸다고 할 때, 이제 우리의 관심사는 얼마나 그 선이 실제 관측치가 퍼져있는 것에 들어맞는지를 확인하는 것

  • 잔차의 표준편차(standard deviation of the residuals); 회귀의 표준오차(standard error of the regression)

  • 잔차의 분산은 n2의 자유도로 정의되므로 다음과 같이 나타낼 수 있음: S2E=E2in2.

  • 따라서 잔차의 표준편차는 이 분산의 제곱근 값이 됨: SE=E2in2.

잔차의 표준편차는 실제 관측치를 잔차의 제곱합으로 계산한 회귀곡선으로 예측을 했을 씨, 우리가 '평균적으로' 얻을 수 있는 오차를 의미함.

  • 이러한 잔차는 대략적으로 정규분포를 따름.

Fox (2016: 87)의 각주 11에서도 밝히고 있듯이, 보통 표준오차는 통계치들의 표집분포에서 추정된 표준편차(e.g., 개별 표본들의 평균이 가지는 분포의 표준편차)를 의미함. 하지만 잔차의 표준편차를 잔차의 표준오차와 서로 교환가능한 개념으로 쓰기도 함. 엄밀히 말하면 잔차의 표준오차라는 표현은 잘못된 개념임.

10 / 18

Simple Correlation

회귀의 표준오차(=잔차의 표준편차)와 달리 상관계수(correlation coefficient)는 상대적인 적합도(fit)를 보여줌.

  • XY에 대한 선형관계로 예측을 했을 때, X 없이 예측했을 때에 비해 얼마나 Y에 대한 예측이 개선되었는가를 의미

  • 상대적인 적합도라는 것은 기준점(baseline)이 필요하다는 것을 의미.

  • 따라서 우리는 X 없이 Y를 어떻게 예측할 수 있는지 생각해보아야 함.

Fox (2016: 88-89)은 X 없이 Y를 예측할 때, 가장 효율적인 방법, Y의 평균으로 예측하는 것을 증명하는 과정을 보여주고 있음.

  • 앞서 평균이 중요한 이유는 추가적인 정보가 없을 때, 특정 집단을 대표하는 값으로 사용할 수 있기 때문이라고 한 바 있음.

  • 따라서 만약 특정한 X가 없다면 우리는 다른 값을 무턱대고 찍기보다는 ˉYY를 예측하고자 할 것임.

  • 그렇다면 (YiˆYi)2(YiˉY)2라면 우리는 X를 가지고 예측했을 때 잔차 제곱합이 더 작으므로 평균보다는 적어도 X를 가지고 Y를 추정하는 것이 더 효율적이라고 할 수 있음.

11 / 18

Simple Correlation

E2i=(YiˉY)2=평균으로 예측 시 잔차 제곱합=Total sum of squares; TSSE2i=(YiˆY)2=설명변수로 예측 시 잔차 제곱합 =residual sum of squares; RSS

이때, TSSRSS의 차이를 회귀 제곱합(regression sum of squares; RegSS)라고 하면( RegSSTSSRSS)은 선형회귀로 인해 감소한 오차의 제곱(squared error)의 크기를 보여줌.

  • 따라서 TSS에 대한 RegSS의 비율은 평균으로 예측했을 때의 잔차에 비해 회귀분석으로 구한 잔차의 값이 줄어든 크기를 평균 예측 잔차와 비교한 것으로써, 오차의 제곱의 비율적 감소(the proportional reduction in squared error)를 보여줌.

  • 그리고 그 값을 우리는 상관계수의 제곱값으로 나타냄: r2RegSSTSS.

  • 회귀계수 B+r2+ 또는 -

12 / 18

Simple Correlation

상관계수의 함의

  • 만약 YX 사이에 완벽한 양의 선형 관계가 존재(잔차가 0, B>0), r=1.

  • 만약 YX 사이에 완벽한 음의 선형 관계가 존재(잔차가 0, B<0), r=1.

  • 만약 YX 사이에 선형 관계가 없다면 (RSS=TSS,RegSS=0), r=0.

  • 1r1 사이에서 r은 두 변수 간의 선형관계의 방향성을 알려줌.

  • r2X로 수행한 선형회귀분석이 설명하는 Y의 총 변동량의 비율이라고 할 수 있음: XY를 몇 % 설명할 수 있는가?

선형회귀모델은 종속변수의 총 변동량을 "설명된" 부분과 "설명되지 않은" 부분으로 나누어 살펴볼 수 있음.

  • King, Keohane, and Verba (1994) 식 표현대로라면 체계적(systematic) 요인과 비체계적 요인

  • 혹은 예측값(fitted values)과 잔차(residuals)

    • 이러한 접근법을 회귀분석에 대한 분산분석(analysis of variance)라고 함.
13 / 18

Simple Correlation

두 확률변수 XY의 상관계수는 수식으로 ρ=σXY/σXσY로 나타낼 수도 있음.

  • σX: X의 표준편차

  • σY: Y의 표준편차

개념적으로 말하자면 상관계수란 두 변수가 각각 분포해 있는 정도에 비해 두 분포가 공유하고 있는 분포 정도(공분산)의 비율을 구하는 것

  • 먼저 표본의 공분산(sample covariance)를 계산

SXY(XiˉX)(YiˉY)n1

  • 이때 우리는 상관계수 r을 다음과 같이 계산할 수 있음.

r=SXYSXSY=(XiˉX)(YiˉY)(XiˉX)2(YiˉY)2

14 / 18

Simple Correlation

상관계수의 값에 따른 산포도: (a)와 (b)는 r=0, (c)는 r= 0.2, (d)는 r = -0.5, (e)는 r = 0.8, (f)는 r = -1일 경우를 보여줌. (b)를 제외한 나머지 모든 패의 n = 50.

상관계수의 값에 따른 산포도: (a)와 (b)는 r=0, (c)는 r= 0.2, (d)는 r = -0.5, (e)는 r = 0.8, (f)는 r = -1일 경우를 보여줌. (b)를 제외한 나머지 모든 패의 n = 50.

15 / 18

Simple Regression

Basic Assumptions

단순선형회귀모델(SLR)이 편향되지 않은(unbiased) 결과를 추정하기 위한 조건

  • 다중선형회귀모델(MLR)에서 이 가정들은 확장될 것임.

전통적인 선형회귀분석의 가정들은 교차사례(cross-sectional) 자료에 적용가능

  • 시간에 따른 변화; 시계열(time-series)이 포함되면 주요 가정이 위배될 가능성이 존재 추가적인 고려 필요
16 / 18

Basic Assumptions

주요 가정

  • SLR1. 모집단에서 모수(parameters)의 관계가 선형(linear)

  • SLR2. 무작위로 추출된 표본(randomized sample)

  • SLR3. 설명변수( X)와 오차항(잔차; u)은 서로 독립

    • E(X|u)=0

    • 이 가정이 성립되지 않을 시, 우리는 모델 특정에 문제가 있다고 생각할 수 있음.

    • 예를 들어, 종속변수에 영향을 미치는 적절한 변수를 모델에 포함시키지 않았을 가능성(누락변수의 문제; Omitted Variable Bias Problem)

  • SLR4. 오차항의 동분산성(homoskedasticity)

    • 주어진 X에 대해 오차항의 조건분포가 일정해야 함.

    • 단, 오차항에 이분산성(heteroskedasticity)이 있더라도 반드시 편향된 결과라는 것은 아님.

    • 다만 추정치의 효율성(efficiency)이 낮다는 의미.

17 / 18

Thanks!

Please do not hesitate to ask questions.

Contacts for Instructor.

Contact Sanghoon Park
sp23@email.sc.edu
sanghoon-park.com/
#305 Gambrell
18 / 18

Introduction

Y: 측정된 몸무게 / X: 보고된 몸무게

  • 두 변수의 관계를 보여주는 선: Y=A+BX

  • 아무리 두 변수의 관계가 강력한 선형 관계를 보일지라도 각 관측치들이 모두 선 위에 완벽하게 놓이는 선은 존재할 수 없음.

  • 왜? 현실세계에는 우리가 관측하지 못한 요인들이 두 변수의 관계에 영향을 미칠 수 있기 때문

불확실성: 잔차(residual)

  • 실제 관측한 데이터들의 관계에는 불확실성이 개입될 수밖에 없음.

  • n=101개인 표본에서 i번째 관측치에 대한 회귀식: Yi=A+BXi+Ei=ˆYi+Ei

  • 이때, ˆYi=A+BXi는 각 관측치 i에 대한 예측값(fitted value)

2 / 18
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow