15 Outcome Regression and Propensity Scores
사실 인과추론에서 제일 많이 쓰이는 방법은 이 장에서 소개하는 결과 회귀분석과 성향점수(propensity scores)를 이용한 방법이다. 하지만 이 방법들은 상대적으로 단순한 조건 하에서는 원하는 결과를 얻을 수 있지만 시간에 따라 변화하는 처치와 관련된 인과 추론에 적합하게 설계된 방법들은 아니다.
15.1 Outcome regression
일반적으로 우리가 모델에 포함하여 알고자 하는 것은 처치
반면에, 만약 주어진
그리고 이와 같은 접근법은 OLS로도 다음과 같이 추정할 수 있다:
이러한 결과 회귀모델은
결과 회귀모델은 일반적으로
15.2 Propensity scores
IP 가중치나 g-추정치를 사용할 때, 주어진 공변량
- 어떠한 개인이 처치를 받을 확률이 낮으면 0에 가깝고, 처치를 받을 확률이 높으면 1에 가깝다.
이상적인 무작위 시행에서
금연 여부와 체중 감량 정도 간의 관계를 탐색하는 예제를 예시로 들자면, 우리는
동일한
좀 더 간단하게는
가 있다고 할 때, 가 어떠한 값을 갖는 의 조합이 하나 이상일 수 있다. 즉, 개별 개인의 값은 상이할 수 있으나, 이 의 분포는 각각에서 동일하게 나타날 수 있다.이를 “성향점수가 처치군과 통제군 간의 공변량의 균형을 맞춘다”라고 표현한다.
물론, 성향점수가 균형을 맞출 수 있는 것은 측정된 공변량
에 한해서이므로, 측정되지 않은 교란변수로 인한 영향력을 배제할 수는 없다.
다른 모든 인과추론 방법과 마찬가지로
교환가능성: 주어진 공변량
의 수준 내에서 처치군과 대조군은 서로 교환가능한 집단이어야 한다. 여기서는 가 동일할 때, 교환가능성이 담보되어야 한다는 의미이다.양의 함수 조건:
는 확률이므로 당연히 양의 확률 조건을 요구한다.
15.3 Propensity stratification and standardization
-
값이 동일하지는 않더라도 비슷한 값들의 구간–층위를 만드는 것이다. 일종의 구간화(binning) 전략이라고 할 수 있다.
- 다만 이 경우에는 이렇게 구간화한
값으로 결과 회귀모델을 적합했을 때, 의 분포가 처치군과 통제군 사이에서 다르게 나타날 수 있다는 문제로 편향이 나타날 수 있다.
-
에 대한 결과 회귀모델을 적합하는 방법이 있다.
15.4 Propensity matching
매칭은 처치군과 통제군에 있어서 매칭된 모집단의
가장 일반적인 접근법은 추정된
성향 매칭에서 이 “근접성”(closeness)를 정의하는 것은 편향-분산 상충관계와 관련이 있다. 만약 이 근접성의 기준이 너무 루즈하면, 상당히 다른
이론적으로 성향 매칭은 잘 특성이 파악된 타겟 모집단에 대한 인과 효과를 추정하는 데 사용될 수 있다. 그러나 현실적으로 성향 매칭은 연구하고자 하는 모집단의 “설명하기 어려운” 서브셋에 대한 효과 추정량을 산출할 수 있다. 즉,
15.5 Propensity models, structural models, predictive models
15.5.1 Propensity models
주어진 교란변수
성향 모델의 모수들은 우리가 주요하게 관심을 가지지는 않는 것들이다.
왜냐하면
과 가 서로 관계가 있을 수 있기 때문에, 인과적 해석이 어렵기 때문이다.
15.5.2 Structural models
구조 모델에서 처치에 대한 모수들은 직접적인 처치의 값
의 차이에 따른 결과의 차이를 나타낸다.즉, 직접적인 인과적 해석이 가능한 모수값들이다.
-
한계구조모델과 중첩구조모델 두 가지로 구분할 수 있다.
-
한계구조모델은 처치에 대한 모수와 효과 수정을 야기하는 변수
에 대해 처치와 간의 상호작용항을 포함한다.- 만약
가 없으면, 이 모델은 말 그대로 한계구조모델이다.
- 만약
만약 모든
이 가능한 효과 수정자로서 포함된다면, 한계구조모델은 중첩구조모델로, 처치와 모든 간의 상호작용항을 포함하는 모델 구조를 갖게 된다.
-
성향 모델이 처치를 반드시 잘 예측할 필요는 없다. 단지, 교환가능성을 담보하는
효과라고 하지 않는 것은 이 계수값이
과 간의 인과적 관계를 보여주는 것이 아니기 때문이다.↩︎