15  Outcome Regression and Propensity Scores

사실 인과추론에서 제일 많이 쓰이는 방법은 이 장에서 소개하는 결과 회귀분석과 성향점수(propensity scores)를 이용한 방법이다. 하지만 이 방법들은 상대적으로 단순한 조건 하에서는 원하는 결과를 얻을 수 있지만 시간에 따라 변화하는 처치와 관련된 인과 추론에 적합하게 설계된 방법들은 아니다.

15.1 Outcome regression

일반적으로 우리가 모델에 포함하여 알고자 하는 것은 처치 A와 교란변수 L에 대한 것들이다. 즉, 처치 A가 결과에 미치는 효과를 알고 싶고, 그 효과를 교란하는 L에 따른 영향을 배제하고 싶은 것이다. 일반적으로 우리는 LY 사이에 존재하는 (비인과적) 관계에는 크게 관심이 없다.

반면에, 만약 주어진 A의 수준에서 LY의 관계를 특정하고자 한다면 다음과 같은 구조 모델을 생각해볼 수 있다:

E[Ya,c=0|L]=β0+β1a+β2aL+β3L 여기에서 각 L의 수준에 있어서의 Y에 대한 A의 평균 인과효과는 β1β2로 확인할 수 있다:

(E[Ya,c=0|L=l])a==β1+β2(L=l)(E[Ya,c=0|L=l])(L=l)==β2a+β3 한편 L 하에서 처치가 주어지지 않은 경우의 반사실적 결과의 평균값은 β0β3를 통해 확인할 수 있다. 이때, β3LY와의 관계를 보여주는 계수값으로 단순하게 L의 함수에 따라서 반사실적 결과인 Ya=0,c=0의 평균이 어떻게 변화하는지를 보여주는 통계량이다.

E[Ya,c=0|L]=β0+β1(a=0)+β2(a=0)L+β3L=β0+β3L

그리고 이와 같은 접근법은 OLS로도 다음과 같이 추정할 수 있다:

E[Y|A,C=0,L]=α0+α1A+α2AL+α3L

이러한 결과 회귀모델은 L의 각 층위에서 처치의 인과효과를 추정하여 교란에 대해 조정한다. 즉, 여기서 회귀모델의 α로 나타나는 모수는 구조모델의 β 모수에 대응되는 것이라고 할 수 있다.

결과 회귀모델은 일반적으로 L에 의한 효과수정이 없다고 가정한다. 그렇게되면 추정한 β1^은 처치에 대한 한계 조건부/평균 인과효과를 나타내는 값이 된다.

15.2 Propensity scores

IP 가중치나 g-추정치를 사용할 때, 주어진 공변량 L이 있을 때, 각 개인에 대한 처치의 확률, Pr[A=1|L]를 추정한 바 있다. 이 조건부 확률을 π(L)이라고 하자.

  • 어떠한 개인이 처치를 받을 확률이 낮으면 0에 가깝고, 처치를 받을 확률이 높으면 1에 가깝다.

π(L)은 공변량 L에 대해 가용한 정보 하에서 처치를 받을 개인의 성향을 측정한 것이다. 이 점에서 π(L)을 성향점수라고 한다.

이상적인 무작위 시행에서 π(L)는 모든 개인에게 0.5가 된다. 처치를 받거나 받지 않는 것이 무작위하게 나누어지기 때문이다. 반면에, 관측연구에서는 이러한 처치의 배정이 연구자의 통제 밖에 존재하므로 π(L)의 참값은 알 수 없다. 따라서 우리는 관측된 데이터로부터 π(L)를 추정하는 수밖에 없다.

금연 여부와 체중 감량 정도 간의 관계를 탐색하는 예제를 예시로 들자면, 우리는 π(L)L에 조건적인 금연 여부 A의 확률로 로지스틱 회귀모델을 적합하여 추정하였다. 만약 π(L)의 분포가 A=1이거나 A=0일 때, 서로 동일하다면 L로 인한 교란은 없다고 볼 수 있다.

동일한 π(L)를 갖는 개인들은 일반적으로 L에 있어서는 다른 값을 가질 수 있다. 따라서 π(L)를 바탕으로 A=1인 처치군에 속할 개개인들을 구분한다고 하더라도, 그 개개인들의 L은 서로 다를 수 있다. 하지만 이 경우에 처치군과 통제군에서의 L의 분포는 동일하게 된다(주어진 π(L)에서 LA가 서로 독립).

  • 좀 더 간단하게는 T=x+y+z가 있다고 할 때, T가 어떠한 값을 갖는 x,y,z의 조합이 하나 이상일 수 있다. 즉, 개별 개인의 x,y,z 값은 상이할 수 있으나, 이 x,y,z의 분포는 A=1,A=0 각각에서 동일하게 나타날 수 있다.

  • 이를 “성향점수가 처치군과 통제군 간의 공변량의 균형을 맞춘다”라고 표현한다.

  • 물론, 성향점수가 균형을 맞출 수 있는 것은 측정된 공변량 L에 한해서이므로, 측정되지 않은 교란변수로 인한 영향력을 배제할 수는 없다.

다른 모든 인과추론 방법과 마찬가지로 π(L)를 사용하기 위해서는 교환가능성, 양의 함수, 그리고 일관성에 대한 조건들이 요구된다.

  • 교환가능성: 주어진 공변량 L의 수준 내에서 처치군과 대조군은 서로 교환가능한 집단이어야 한다. 여기서는 π(L)가 동일할 때, 교환가능성이 담보되어야 한다는 의미이다.

  • 양의 함수 조건: π(L)는 확률이므로 당연히 양의 확률 조건을 요구한다.

π(L)의 수준 내에서 교환가능성과 양의 함수의 조건이 성립하는 하에서, 성향점수는 층화(stratification), 표준화, 그리고 매칭을 이용하여 인과 효과를 추정하는 데 사용될 수 있다.

15.3 Propensity stratification and standardization

π(L)의 특정한 값 s에 대한 평균 인과효과는 E[Y|A=1,C=0,π(L)=s]E[Y|A=0,C=0,π(L)=s]으로 나타낼 수 있다.

π(L)는 일반적으로 0과 1사이의 범위 내에 존재하는 연속형 변수이다. 확률이니까 당연한 얘기다. 따라서 π(L)의 어떠한 특정한 값 하나를 정해서 그 값과 동일한 값을 지닌 개인들 간의 인과 효과를 비교 및 추정하는 것은 어렵다. 따라서 이러한 문제를 해결하는 접근법이 두 가지가 있다.

  1. π(L) 값이 동일하지는 않더라도 비슷한 값들의 구간–층위를 만드는 것이다. 일종의 구간화(binning) 전략이라고 할 수 있다.
  • 다만 이 경우에는 이렇게 구간화한 π(L) 값으로 결과 회귀모델을 적합했을 때, π(L)의 분포가 처치군과 통제군 사이에서 다르게 나타날 수 있다는 문제로 편향이 나타날 수 있다.
  1. E[Y|A,C=0,π(L)]에 대한 결과 회귀모델을 적합하는 방법이 있다.

15.4 Propensity matching

π(L)에 대한 매칭은 하나의 연속형 교란변수 L에 대한 매칭과 개념적으로는 유사하다. 차이점은 π(L) 자체가 여러 개의 교란변수들을 하나의 차원으로 축약한 것이라는 점이다.

매칭은 처치군과 통제군에 있어서 매칭된 모집단의 π(L) 분포가 동일한, 교환가능한 집단임을 보여주어야 한다. 주어진 π(L) 하에서 교환가능성과 양의 함수 가정이 성립할 때, 매칭된 모집단에서의 계수값 결과는 일관된 효과 추정량이며 인과 효과를 보여준다.

가장 일반적인 접근법은 추정된 π(L)의 값 s를 가지는 처치를 받은 개인과 s±0.05 정도의 값을 가지는 처치를 받지 않은 개인을 매칭시키는 것이다.

성향 매칭에서 이 “근접성”(closeness)를 정의하는 것은 편향-분산 상충관계와 관련이 있다. 만약 이 근접성의 기준이 너무 루즈하면, 상당히 다른 π(L) 값을 지닌 개인들 간의 매치가 이루어져서 π(L)의 분포가 매칭된 모집단에서의 처치군과 통제군 간에 크게 다르게 나타날 것이다. 반면에, 근접성의 기준이 너무 빡빡하면 매칭 과정에서 너무 많은 관측값을 잃게 되어서 분산이 큰 추정량을 얻게 될 것이다.

이론적으로 성향 매칭은 잘 특성이 파악된 타겟 모집단에 대한 인과 효과를 추정하는 데 사용될 수 있다. 그러나 현실적으로 성향 매칭은 연구하고자 하는 모집단의 “설명하기 어려운” 서브셋에 대한 효과 추정량을 산출할 수 있다. 즉, π(L)에 따라서 매칭을 하긴 했는데, 그게 실질적으로 어떠한 “집단”을 나타내는 것이냐에 대해서 설명하기 어려울 수 있다는 것이다.

15.5 Propensity models, structural models, predictive models

15.5.1 Propensity models

주어진 교란변수 L 하에서 처치 A의 확률에 대한 모델로 조건부 교환가능성을 달성하기 위하여 사용된다.

  • 성향 모델의 모수들은 우리가 주요하게 관심을 가지지는 않는 것들이다.

  • 왜냐하면 LA가 서로 관계가 있을 수 있기 때문에, 인과적 해석이 어렵기 때문이다.

15.5.2 Structural models

A와 반사실적 결과 Ya의 분포의 요소들 간의 관계를 나타낸다. 이때, 그 관계는 L의 수준에 따른 조건부일수도, 혹은 그 자체로 한계적인 관계일 수도 있다.

  • 구조 모델에서 처치에 대한 모수들은 직접적인 처치의 값 a의 차이에 따른 결과의 차이를 나타낸다.

  • 즉, 직접적인 인과적 해석이 가능한 모수값들이다.

  • 한계구조모델과 중첩구조모델 두 가지로 구분할 수 있다.

    • 한계구조모델은 처치에 대한 모수와 효과 수정을 야기하는 변수 V에 대해 처치와 V 간의 상호작용항을 포함한다.

      • 만약 V가 없으면, 이 모델은 말 그대로 한계구조모델이다.
    • 만약 모든 L이 가능한 효과 수정자로서 포함된다면, 한계구조모델은 중첩구조모델로, 처치와 모든 L 간의 상호작용항을 포함하는 모델 구조를 갖게 된다.

성향 모델이 처치를 반드시 잘 예측할 필요는 없다. 단지, 교환가능성을 담보하는 L을 포함하면 될 뿐이다.


  1. 효과라고 하지 않는 것은 이 계수값이 LY 간의 인과적 관계를 보여주는 것이 아니기 때문이다.↩︎