class: center, middle, inverse, title-slide .title[ # STATS101 ] .subtitle[ ## Working with Interactions in Your Regression ] .author[ ### Sanghoon Park ] .date[ ### University of South Carolina ] --- ## Understanding Concepts of Regression ### Simple Regression: Model with a single predictor <img src="fig/w8_fig1.png" width="60%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Multiple Regression: Model with multiple predictors <img src="fig/w8_fig2.png" width="60%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Multiple Regression: Model with multiple predictors <img src="fig/w8_fig3.png" width="70%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Multiple Regression: Model with multiple predictors <img src="fig/w8_fig4.png" width="70%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Multiple Regression: Model with multiple predictors <img src="fig/w8_fig5.png" width="69%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Multiple Regression: Model with multiple predictors <img src="fig/w8_fig6.png" width="70%" style="display: block; margin: auto;" /> --- ## Interactions 일반적으로 선형회귀모델은 다음과 같이 표현할 수 있다. $$ y = \alpha + \beta x + \gamma z + v. $$ 이때, `\(y\)`에 대한 `\(x\)`의 효과는 어떤 항으로 나타낼 수 있을까? + `\(\partial y /\partial x\)`? `\(\rightarrow \beta\)`. 그럼 아래와 같은 선형회귀모델에서 `\(y\)`에 대한 `\(x\)`의 효과는 어떻게 나타낼 수 있을까? $$ y = \alpha + \beta x + \gamma z + \tau xz + v. $$ --- ## Interactions $$ y = \alpha + \beta x + \gamma z + \tau xz + v. $$ 위의 식에서 `\(y\)`에 대한 `\(x\)`의 효과는 `\(\partial y/\partial x\)`로 추정할 수 있다. + 이때, `\(\partial y/\partial x = \beta + \tau z\)`. + 이 결과는 무엇을 의미하는가? + 여기서 `\(\beta\)`는 무엇을 의미하는가? 우리는 `\(\beta\)`를 어떻게 해석해야할까? --- ## Interactions $$ y = \alpha + \beta x + \gamma z + \tau xz + v. $$ ### Implication 위 모델에서 `\(y\)`에 대한 `\(x\)`의 효과에는 `\(z\)`가 얽혀 있다. + 즉, `\(x\)`의 효과는 일반적인 단순선형회귀모델 혹은 다중선형회귀모델과 같이 `\(x\)` 그 자체의 계수만으로는 해석하기 어렵다. + Brambor et al. (2006)의 표현을 빌리자면, 오로지 `\(z\)`가 0일 경우에만 `\(x\)`만 가지고 `\(x\)`와 `\(y\)` 간의 관계를 추정할 수 있다. + `\(\partial y/\partial x = \beta + \tau \times 0 = \beta + 0 = \beta\)`. --- ## Understanding Concepts of Regression ### Interactions: Model with a multiplicative term <img src="fig/w8_fig7.png" width="60%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Interactions: Model with a multiplicative term <img src="fig/w8_fig8.png" width="60%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Interactions: Model with a multiplicative term <img src="fig/w8_fig9.png" width="70%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Interactions: Model with a multiplicative term <img src="fig/w8_fig10.png" width="70%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Interactions: Model with a multiplicative term <img src="fig/w8_fig11.png" width="70%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Interactions: Model with a multiplicative term <img src="fig/w8_fig12.png" width="70%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Interactions: Model with a multiplicative term <img src="fig/w8_fig13.png" width="70%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Interactions: Model with a multiplicative term <img src="fig/w8_fig14.png" width="70%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Interactions: Model with a multiplicative term <img src="fig/w8_fig15.png" width="70%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Interactions: Model with a multiplicative term <img src="fig/w8_fig16.png" width="70%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Interactions: Model with a multiplicative term <img src="fig/w8_fig17.png" width="70%" style="display: block; margin: auto;" /> --- ## Understanding Concepts of Regression ### Interactions: Model with a multiplicative term <img src="fig/w8_fig18.png" width="70%" style="display: block; margin: auto;" /> --- ## Brambor et al. (2006) ### Research question 상호작용항을 어떻게 분석 및 해석해야 올바른 결과를 산출할 수 있을까? ### Arguments 상호작용항을 포함한 회귀모델 + 조건적인 가설(conditional hypotheses)을 가지게 됨. + 서로 상호작용하는 변수들은 각자에 대하여 ‘의존적인’ 관계에 놓이게 됨. + 다중선형회귀모델을 구성하는 Gaus-Markov 가정을 위배할 수 있음. + 변수들 간의 독립성이 위배될 수 있음 (상호작용항 = 두 변수의 곱) + 각 구성변수와 상호작용 간에는 높은 상관성이 존재할 수밖에 없음. --- ## Brambor et al. (2006) ### How to improve our multiplicative models? 1. 조건적 가설을 수립하고 그것을 경험적으로 분석하는 데에는 상호작용 모델이 요구. 2. 상호작용 모델을 사용할 때, 반드시 구성요소가 되는 변수들의 항(constitutive terms, 이하 구성항)을 모델에 모두 투입 3. 각 구성항에 대한 해석에 집착하지 말 것. 4. 실질적으로 유의미한 한계효과(marginal effects)와 표준오차를 계산 --- ## Brambor et al. (2006) ### Including constitutional terms 상호작용 모델이 다음과 같이 있다고 할 때, $$ Y = b_0 + b_1X + b_2Z + b_3XZ + \epsilon. $$ 구성항을 제외한 모델이 타당하려면 다음과 같은 조건을 충족시켜야 함. 1. `\(Z\)`가 평균적으로 `\(Y\)`에 미치는 효과가 존재하지 않다거나 2. `\(X\)`가 0일 때, `\(Z\)`가 `\(Y\)`에 미치는 효과가 없다 구성항을 제외할 경우( `\(b_2!=0\)`), 모수의 추정치를 왜곡하여 편향된 추정을 이끌 수 있음 (Brambor et al. 2006, 68). --- ## Brambor et al. (2006) ### Why should we show substantial ME and SE? 상호작용항의 효과가 일정하지 않기 때문(not constant) + 상호작용 모델 `\((Y = b_0 + b_1X + b_2Z + b_3XZ + \epsilon)\)` + `\(X\)`의 한 단위 증가와 관계된 `\(Y\)`의 변화분을 살펴보기 위해 편미분을 할 경우 $$ \frac{\partial Y}{\partial X} = b_1+ b_3 Z $$ + 위의 식은 상호작용 모델에서 `\(X\)`의 `\(Y\)`에 대한 효과가 `\(Z\)` 변수의 값에 따라서 조건적으로 변화한다는 것을 의미. + 즉, 해당 계수는 `\(Z\)` 값에 따라 변화함 `\(\rightarrow\)` 일정하지 않음. --- ## Brambor et al. (2006) ### Implications + 상호작용항뿐만 아니라 모든 구성항을 포함시켜 분석해야 한다. + " `\(Z\)`를 상수로 고정한다(=통제한다)"는 것은 `\(Z\)`가 0이라는 것과 같은 의미가 아니다. + 다중공선성(multicollinearity)의 가능성을 고려해야 함. + 상호작용항의 계수는 `\(\frac{\partial Y}{\partial X} = b_1+ b_3 Z\)` + 상호작용의 계수가 편미분을 하더라도 `\(Z\)`라는 새로운 변수에 의해 조건적으로 변화할 수 있음. + 상호작용항의 계수를 직접적으로 일반선형회귀모델의 계수처럼 해석하기는 어려움. --- ## Hainmueller et al. (2019) ### Research question + 상호작용항을 단지 회귀분석 결과표의 β만 보고 섣부르게 판단해서는 안 됨. + 그렇다면 어떻게 상호작용을 다루고, 시각화 해야하는가? ### Example model $$ Y = \mu + \eta X + \alpha D + \beta(D\cdot X) + Z\gamma + \epsilon $$ + 종속변수: `\(Y\)`; 예측변수: `\(D\)`; 상호작용: `\(D\cdot X\)`; 통제변수: `\(Z\)` + `\(D\)`의 `\(Y\)`에 대한 한계효과: `\(\text{ME}_\text{D} = \partial Y/\partial D = \alpha + \beta X\)`. --- ## Hainmueller et al. (2019) ### Arguments: Something missed in Brambor et al. (2006) 1. 선형 상호작용(linear interaction effect; LIE)에 대한 가정 + Brambor et al. (2006)에 따르면 한계효과가 선형성(LIE)을 가져야 함. Really? 2. 충분한 정보량의 결여 + 예측값의 변화를 보여줄 수는 있지만 과연 그것이 실제로는 존재하지 않는 데이터의 구간을 수리적 계산으로 그릴 뿐일 수 있음. + 주어진 매개변수의 값에 대해서 `\(X\)` 값이 충분한 수의 관측치를 가지고 있어야 하며, + 그 매개변수의 값에서 핵심적인 예측변수, `\(D\)`의 변화가 존재해야 한다는 것 --- ## Hainmueller et al. (2019) ### Solution 1. 데이터가 LIE 가정을 충족시키는지를 진단 원 데이터의 산포도를 그려볼 것을 추천 + 한계효과의 LIE 가정과 매개변수의 각 데이터 포인트별 핵심 예측변수의 실제 관측치 분포를 그래프로 그려볼 것 + 핵심 예측변수가 이항변수일 경우, 핵심 예측변수에 따라 그래프를 두 개의 패널로 나눈 뒤 매개변수와 종속변수 간의 관계를 보여주는 산포도 + 두 개의 선을 이 산포도에 더하는데, 하나는 상호작용 효과의 선형성을 가정하는 회귀선이고, 다른 하나는 일종의 가중치를 적용한 국소가중치 회귀선 + 데이터에 충분한 관측치들이 존재하는지를 보여줄 수 있는 박스플롯을 제시할 것 --- ## Hainmueller et al. (2019) ### Solution 2. 구간화를 통한 추정치(binning estimator)를 사용 매개변수를 크게 세 개의 구간으로 나누어서 더미변수의 형태를 취하게 하고 이를 통해 매개변수의 삼분위 범주값들을 보여주라는 제안 + 각 구간화 변수를 대표할 수 있는 값을 특정하여 그 특정한 지점에서 예측변수의 효과를 평가 + 그래프 등을 그려봄으로써 한계효과가 각 구간에서 일관된 선형 관계로 증가하는지 아니면 특정 구간에서 널뛰는지를 살펴볼 수 있음. --- class: center, middle background-image: url(https://raw.githubusercontent.com/pherephobia/usc_logo/main/UofSC_Primary_RGB_G.png) background-size: 300px background-position: 11% 15% # Thanks! ## Please do not hesitate to ask questions. Contacts for Instructor. | Contact | Sanghoon Park | | :-------------: | :----------------------------: | | <svg viewBox="0 0 512 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg"> <path d="M440 6.5L24 246.4c-34.4 19.9-31.1 70.8 5.7 85.9L144 379.6V464c0 46.4 59.2 65.5 86.6 28.6l43.8-59.1 111.9 46.2c5.9 2.4 12.1 3.6 18.3 3.6 8.2 0 16.3-2.1 23.6-6.2 12.8-7.2 21.6-20 23.9-34.5l59.4-387.2c6.1-40.1-36.9-68.8-71.5-48.9zM192 464v-64.6l36.6 15.1L192 464zm212.6-28.7l-153.8-63.5L391 169.5c10.7-15.5-9.5-33.5-23.7-21.2L155.8 332.6 48 288 464 48l-59.4 387.3z"></path></svg> | [sp23@email.sc.edu](sp23@email.sc.edu) | | <svg viewBox="0 0 576 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg"> <path d="M528 32H48C21.5 32 0 53.5 0 80v352c0 26.5 21.5 48 48 48h480c26.5 0 48-21.5 48-48V80c0-26.5-21.5-48-48-48zm0 400H303.2c.9-4.5.8 3.6.8-22.4 0-31.8-30.1-57.6-67.2-57.6-10.8 0-18.7 8-44.8 8-26.9 0-33.4-8-44.8-8-37.1 0-67.2 25.8-67.2 57.6 0 26-.2 17.9.8 22.4H48V144h480v288zm-168-80h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm0-64h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm0-64h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm-168 96c35.3 0 64-28.7 64-64s-28.7-64-64-64-64 28.7-64 64 28.7 64 64 64z"></path></svg> | [sanghoon-park.com/](https://www.sanghoon-park.com/) | | <svg viewBox="0 0 448 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg"> <path d="M128 148v-40c0-6.6 5.4-12 12-12h40c6.6 0 12 5.4 12 12v40c0 6.6-5.4 12-12 12h-40c-6.6 0-12-5.4-12-12zm140 12h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm-128 96h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm128 0h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm-76 84v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12h40c6.6 0 12-5.4 12-12zm76 12h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm180 124v36H0v-36c0-6.6 5.4-12 12-12h19.5V24c0-13.3 10.7-24 24-24h337c13.3 0 24 10.7 24 24v440H436c6.6 0 12 5.4 12 12zM79.5 463H192v-67c0-6.6 5.4-12 12-12h40c6.6 0 12 5.4 12 12v67h112.5V49L80 48l-.5 415z"></path></svg> | #305 Gambrell |