이제까지는 모집단 수준에서의 평균 인과효과에 관심을 가졌지만, 모집단의 서브셋에 해당하는 대상에 대한 인과적 질문을 던질 수도 있다. 전체 인구를 대상으로 인과효과를 추정할 것인지 혹은 서브셋에 대해 추정할 것인지는 추론의 목적에 따라 좌우된다. 그리고 인과효과는 연구에서 관심을 갖는 모집단, 혹은 대상이 누구인지와 그 집단의 특성에 따라 달라질 수 있다.
4.1 Heterogeneity of treatment effect
먼저 책에서 제시하는 20명의 모집단에서 심장이식이라는 처치 \((A)\) 가 사망 여부 \((Y)\) 라는 결과에 대한 평균인과효과를 살펴보자.
예제와 같이 완벽하게 서브셋 간의 효과가 서로 상쇄되는 경우는 드물지만 처치에 대한 개별 인과효과의 이질성(heterogeneity)은 처치에 대한 개개인의 민감성(susceptibilities)에 따른 변동성에 따라서 충분히 예상할 수 있는 일이다. 다만, 모든 개인들에 있어서 인과효과가 존재하지 않을 경우에는 정교한 인과효과 부재에 대한 영가설(sharp null hypothesis of no causal effect)이 참으로 평균 인과효과도 모집단의 어떤 서브셋에서도 나타나지 않는다.
\(A\) 의 \(Y\) 에 대한 평균 인과효과가 \(V\) 에 따라 달라질 때, 우리는 \(V\) 를 \(Y\) 에 대한 \(A\) 의 효과에 대한 수정요인(modifier)라고 한다.
앞서의 예제에서 인과적 위험성 비율(causal risk ratio)는 여성일 때 1보다 크고 남성일 때 1보다 작게 나타났다. 마찬가지로 인과적 위험성 차이(causal risk difference)는 여성일 경우에 0보다 크고, 남성일 때 0보다 작게 나타났다.
이는 남성과 여성 각각에 대한 서브셋에서 평균 인과효과가 서로 다른 방향으로 나타났기 때문에 질적 효과의 수정(qualitative effect modification)이 존재한다고 할 수 있다.
4.2 Stratification to identify effect modification
층화분석은 효과 수정을 식별하기 위한 자연스러운 방법이다.
\(V\) 가 \(A\) 의 \(Y\) 에 대한 인과효과를 수정하는가를 결정하기 위해서는 \(V\) 의 각 수준에서의 인과효과를 살펴보아야 한다.
그렇다면 반사실적 결과를 사용할 수 없는 경우는 효과 수정을 식별하기 위해 계층화를 사용하는 것에 어떠한 영향을 미칠까?
이상적인 한계 무작위 실험에 대해 생각해보자.
처치의 배정이 무작위이며 족너적이지 않다면 교환가능성은 모집단의 모든 서브셋에서 담보될 것이라 기대할 수 있다.
따라서 위의 예제에서 여성에 있어서의 인과적 위험성 차이는 여성에 있어서 관계적 위험성 차이와 같다:
\[
\Pr[Y^{a=1}=1|V=1] - \Pr[^{a=0}=1|V=1] = \Pr[Y=1|A=1, V = 1]-\Pr[Y=1|a=0,V=1]
\]
무작위 실험이 이루어졌다면, \(V\) 의 효과수정여부는 단순하게 층화분석을 통해서 확인할 수 있다.
각 \(V\) 의 값대로 서브셋을 만들어서 그 안에서의 관계에 대한 측정지표를 추정하는 것이다.
다음으로는 이상적인 조건부 무작위 실험을 생각해보자.
모집단의 40명이고 \(L = 1\) 일 경우에는 0.75의 확률로 심장이식 처치를 무작위로 배정받으며, \(L=0\) 일 경우에는 0.5의 확률로 무작위 배정받는다고 하자.
40명의 실험 대상자들 중 20명은 그리스인 \((V = 1)\) 이며, 20명은 로마인 \((V=0)\) 이다.
\(V = 0\) 인 \(L\), \(A\), \(Y\) 에 대한 예제 데이터는 아래의 표와 같이 나타낼 수 있다.
예제 데이터로부터 표준화 또는 역확률 가중치를 사용하여 위험성 지표들을 계산하는데, 이 챕터에서는 이 내용에 대해서는 구체적으로 다루지 않는다.
처치를 받은 모집단의 사망 위험성 \(\Pr[Y^{a=1} = 1]\) 은 0.55이며 처치를 받지 않은 이들의 경우 \(\Pr[Y^{a=0} = 1]\) 는 0.40이다.
따라서 \(Y\) 에 대한 \(A\) 의 평균 인과효과는 0.55-0.40으로 나타낼 수 있다.
만약 그리스인과 로마인들 각각에 대한 \(A\) 의 \(Y\) 에 대한 인과효과 결과의 차이가 존재한다면, \(V\) 에 따른 가산적 효과 수정이 존재한다고 할 수 있을 것이다(만약 위험성 비율로 살펴본다면 곱의 효과 수정(multiplicative effect modification)을 살펴볼 수 있을 것이다).
\(\Pr[Y^{a=1}=1|V = v]\) 와 \(\Pr[Y^{a=0}=1|V = v]\) 의 조건부 위험성을 각 \(v\) 값에서 구하기 위해서는 두 단계가 필요하다:
\(V = 1\) 일 때와 이 결과들이 다르기 때문에 우리는 \(V\) 가 사망 결과 \(Y\) 에 대한 심장이식 \(A\) 의 효과에 대해 국적 \(V\) 의 가산적, 곱의 효과 수정이 존재한다고 할 수 있다. 다만 이 효과수정은 질적이지는 않은 것이 \(V=0\), \(V=1\) 모두에서 그 효과가 부정적이거나 혹은 존재하지 않기 때문이다.
다만 국적은 단순히 효과 수정에 실제로 책임이 있는 인과적 요인을 나타내는 표식(marker)일 수 있다.
예를 들어 심장 수술의 질이 로마보다 그리스에서 더 좋다고 가정해보자. 그러면 국적에 따른 효과 수정을 발견할 수 있다. 렇다면 로마에서 심장 수술의 질을 개선하기 위한 개입은 여권에 정의된 국적에 의한 인과 효과의 수정을 제거할 수 있다. 이 구분을 강조하기 위해 국적을 대리 효과 수정인자(surrogate effect modifier)로, 의료의 질을 인과 효과 수정인자(causal effect modifier)로 지칭한다.
혼동을 피하기 위해서 혹자는 \(V\) 에 의한 효과 수정이라는 표현보다 \(V\) 의 수준에 따라 나타나는 효과의 이질성이라고 표현하기도 한다.
4.3 Why care about effect modification
연구자들이 효과 수정을 식별하고 \(V\) 에 대한 처치 전 데이터를 수집하고자 하는 이유:
\(V\) 가 처치 \(A\) 가 결과 \(Y\) 에 미치는 영향을 수정하는 경우, 평균 인과 효과는 \(V\) 의 서로 다른 모집단의 서브셋의 비중에 따라 다르게 나타날 것(노인 인구에서 예를 들어 \(V\) 가 가장 높다면?)
모집단에서의 평균 인과효과는 모집단에서의 개별 인과효과의 분포에 좌우된다.
첫 번째 모집단에서의 인과 효과가 두 번째 모집단에 외삽될 수 있는가(extrapolation)는 인과추론의 모집단 별 전이가능성(transportability)이라고 한다: 외적 타당성(external validity)의 개념으로 이해하면 좋을 것 같다.
효과 수정인자로 정의된 계층(strata)의 조건부 인과 효과는 전체 모집단의 인과 효과보다 더 잘 전이될 수 있지만, 한 모집단의 조건부 효과 측정값이 다른 모집단의 조건부 효과 측정값과 같다는 보장은 없다.
서로 다른 모집단 사이 간에 관측되지 않은, 측정되지 않은 인과효과 수정요인이 있을 수 있기 때문이다.
따라서 인과효과의 전이가능성은 검증불가능한 가정이라고 할 수 있다.
효과 수정의 존재 여부를 평가하는 것은 개입으로부터 가장 영향을 많이 받는 개인들의 집단을 식별하는 데 도움을 준다.
효과 수정을 식별하는 것은 결과로 이어지는 매커니즘을 이해하는 데 도움을 줄 수 있다.
효과 수정과 상호작용은 때로는 동의어처럼 사용되기도 한다.
4.4 Stratification as a form of adjustment
\(V\) 에 의한 효과 수정을 어떻게 식별할 수 있을까? 앞서 층화(stratification)를 살펴보았지만, 항상 이 방법으로 \(V\) 에 의한 효과 수정을 식별할 수 있는 것은 아니다.
층화는 필연적으로 여러 개의 각 측별 효과 측정지표를 생산한다(\(V\) 의 값에 정의되는 층별로 하나씩).
표준화 및 역확률 가중치와 달리 층화를 통한 조정(adjustment)은 조건부 교환 가능성에 필요한 모든 변수 \(L\)의 조합으로 정의된 모집단의 서브셋에서 효과 측정값을 계산해야 한다.
층화를 사용하면 이러한 효과 수정에 관심이 있는지 여부와 관계없이 조건부 교환 가능성을 달성하는 데 필요한 모든 변수 \(L\)에 의한 효과 수정을 평가해야 한다. 이와는 대조적으로, \(V\) 에 의한 층화 후 역확률 가중치 또는 표준화를 통해 \(L\)을 조정하면 교환 가능성과 효과 수정을 개별적으로 처리할 수 있다.
층화를 사용하는 데 있어서의 또 하나의 문제점은 특정 효과 측정지표의 불가분성(noncollapsibility)과 처치 이전 상태에 영향을 줄 수 있는 시간에 따라 변화하는 \(L\) 을 조정할 필요가 있을 때, 편향으로 이어지는 부적절한 조정이라고 할 수 있다.
때로 연구자는 \(L\) 에 따라 정의된 몇몇 계층에 대해서만 인과효과를 추정하는데, 이 경우 계층에 특화되지 않은 측정 지표가 몇몇 계층에 대해서 추정된다는 것을 의미한다. 이를 “축소”(restriction) 이라고 한다.
4.5 Matching as another form of adjustment
매칭은 \(L\) 가 처치군과 통제군에서 동일한 분포를 가지는 모집단의 서브셋을 구성하는 또 다른 조정 방법이다.
매칭된 모집단을 구성하기 위해서 모집단의 처치군을 매칭 인자 \(L\) 이 처치군에서 동일한 분포를 갖도록 하는 서브셋으로 대체한다. 통제군도 마찬가지로 동일한 작업을 수행한다.
처치군과 통제군은 매칭된 모집단에서 교환가능한 집단이므로, 평균적인 결과는 직접적으로 비교가 가능하다: 처치군에서의 효과(effect in the treated)와 통제군에서의 효과(effect in the untreated)
또한 매칭은 반드시 1:1일 필요는 없고 1:n 일 수도 있다.
실제 분석에서 \(L\) 은 여러 변수들의 벡터로 구성된다.
매칭은 단순히 처치군과 통제군에서의 분포 뿐 아니라 \(L\) 의 선택된 분포를 가진 매칭된 모집단을 만들기 위해 사용될 수 있다.
4.6 Effect modification and adjustment methods
표준화와 역확률 가중치는 한계 또는 조건부 효과를 추정하는 데 사용될 수 있으며, 계층화와 축소, 매칭의 경우에는 특정한 모집단의 서브셋에서의 조건부 효과를 추정하는 데 사용될 수 있다.
이 네 방법 모두 교환가능성과 양의 확률 조건을 필요로 하지만, 이 조건들이 모집단의 서브셋에서 충족될 필요가 잇는가는 우리가 알고자 하는 인과효과가 무엇인가에 따라 다를 수 있다.
효과 수정이 존재하지 않는다면 이 네 접근법이 산출하는 효과 측정지표는 동일하다.
하지만 효과 수정이 존재한다면, 이 네 접근법은 각각의 목적에 따라 서로 다른 효과 측정지표를 생산할 것이다.