3  Observational Studies

관측연구란 연구자가 적절한 데이터를 관측하여 기록하는 과학적 연구를 의미한다. 관측연구에서 흔히 제기될 수 있는 비판은 우리가 관측한 결과의 변화가 우연에 의한 것인지 혹은 어떠한 요인에 의해 체계적인 것인지 하는 것이다. 이러한 비판은 무작위 실험연구에는 적용되지 않기 때문에 무작위 실험연구가 인과추론 이론의 핵심 중 하나로 간주된다. 하지만 실제로는 인과효과의 추정에 있어서 무작위 실험연구는 여러 가지 제한을 가지기 때문에, 관측연구를 바탕으로 어떻게 인과추론을 도출해낼 것인가 역시 중요한 주제라고 할 수 있다.

3.1 Identifiable conditions

이상적인 실험연구는 처치군과 통제군이 처치를 제외한 모든 면에서 동일한 집단이라는 교환가능성(exchangeability)을 담보한다는 점에서 평균 인과효과를 식별하는 데 사용될 수 있다. 반면, 관측연구는 무작위 처치 배정이 이러한 교환가능성을 담보하지는 못한다.

  • 관측연구에서는 처치와 결과 간의 관계가 필연적으로 결과에 대한 처치의 인과효과로 귀결되지는 않는다. 그렇다면 어떻게 관측연구를 가지고 인과적 질문들에 답을 할 수 있을까?

  • 대개 처치가 측정된 공변량 \(L\) 에 조건적으로 무작위 배정된 것처럼(as if) 분석한다.

    • 이를 통해 관측연구가 마치 조건부 무작위 실험인 것처럼 간주할 수 있다고 기대한다.

    • 단, 이러한 기대가 성립하기 위해서는 다음의 조건들이 선행되어야 한다:

      1. 비교에 필요한 처치의 값은 잘 정의된 개입에 해당한다.
      2. 처치의 모든 값을 받을 조건부 확률은 측정된 공변량 \(L\) 에 의해서만 좌우되며, 연구자에 의해 결정되지 않는다.
      3. \(L\) 에 조건적인 처치의 모든 값을 받을 확률은 0보다 크다(양수이다).
  • 실험연구에 비해 관측연구로부터 인과추론을 도출하는 것은 쉽지 않지만, 만약 관측연구가 조건부 무작위 실험에 미루어볼 수 있는 조건들을 갖추고 있다면, 실험연구에서 논의된 인과추론의 방법들(역확률 가중치 또는 표준화)을 관측연구에도 적용할 수 있을 것이다.

    • 이러한 조건들을 식별가능성 가정(identifiability assumptions)이라고 하며, 이 가정들이 충족된다고 가정하고 관측연구에서 인과효과를 식별하고자 한다.

    • 만약, 이러한 가정이 충족되지 않는다면, 관측연구는 조건부 무작위 실험과 등치될 수 없다. 이때에는 도구변수(instrumental variable)와 같은 접근법을 사용할 수 있다.

    • 도구변수 접근법은 관측된 공변량 하에서 조건부 무작위 실험을 상정할 수 없는 관측연구에서 전통적으로 사용되어 왔다.

인과효과의 식별가능성. 무작위 실험에서와 달리 관측 데이터에서 효과 측정지표의 몇몇 값에 따라서 관측 데이터의 분포가 결정될 때, 평균 인과효과는 식별불가능하다. 관측연구에서 인과효과를 식별하기 위해서는 데이터 외적인 가정, 식별가능성 가정이 필요하다.

3.2 Exchangeability

처치 전, 처치군과 통제군은 서로 교환가능한, 동질적인 집단이라고 볼 수 있다는 것이 교환가능성의 개념이다. 그리고 무작위화는 처치군과 통제군 간에 동일하게 분포된 결과에 대한 독립적인 예측변수를 보장한다. 반면, 처치를 받을 확률이 \(L\) 에 따라 달라지는 조건부 무작위 실험에서는 처치군과 통제군 간의 독립적인 결과 예측 변수 \(L\) 에 대한 분포의 불균형이 나타날 것이라고 생각할 수 있다.

조건부 교환가능성, \(Y^a \perp\!\!\!\perp A|L\) 은 주어진 \(L\) 의 수준에서 결과에 대한 다른 모든 예측변수들이 처치군과 통제군 간에 균등하게 분배되어 있다고 할 수 있는 조건무 무작위 실험에서만 성립된다.

처치가 연구자에 의해 무작위로 배정될 수 없는 관측연구에서는 처치를 받을 확률이 다른 결과에 대한 예측변수들과 관계가 있을 수도 있다.

  • 관측연구에 있어서 중요한 질문은 \(L\) 이 처치군과 통제군 간에 불균등하게 분포된 유일한 예측변수인지의 여부이다. 즉, 처치를 제외한 나머지 예측변수들이 두 집단에서는 동일하게 분포되어 있느냐는 것인데, 관측연구에서는 이에 대해 확실하게 답을 할 수 없다.

  • 따라서 연구자들은 \(Y^a \perp\!\!\!\perp A|L\) 라는 조건부 교환가능성 가정 하에서 인과효과를 추정하고자 한다.

  • 문제는 바로 “가정”이기 때문에, 연구자의 확신과 무관하게 실제로는 무작위화가 이루어지지 않았고, 조건부 교환가능성은 보장되지 않는다는 것에 있다.

    • 조건부 교환가능성은 관측연구에서 어떠한 조건 \(L\) 의 수준에서 처치를 받을 확률 \(A\) 가 관측되지 않은 예측변수 \(U\) 에 영향을 받게 된다면 성립하지 않는다.

    • 당장 내가 가진 표본에서는 성립하는 듯 보이더라도, 이러한 경험적 결과로 인과효과를 정당화할 수는 없다.

3.3 Positivity

양의 확률(positivity) 조건이란 어떠한 처치 수준에 배정받을 확률이 0보다 커야 한다는 것을 의미한다.

  • \(L\) 에 조건적으로 처치를 받을 확률이 0보다 크다면, 양의 확률 조건은 성립한다.

  • 다만, 이 조건은 우리가 알고자 하는 모집단을 나타내는 값, \(l \in L\) 에 대해서만 요구된다.

관측연구에서는 양의 확률과 교환가능성 모두가 보장되지 않는다.

  • 양의 확률의 조건과 교환가능성 조건 간의 차이는 때로 양의 확률 조건은 경험적으로 검증될 수 있다는 것이다.

  • 앞서 논의한 표준화와 역확률 가중치 방법은 명시적으로 교환가능성 조건에 대한 것을 다루고 있지만 암묵적으로 양의 확률 조건을 가정하고 있다.

  • 표준화와 역확률 가중치는 오직 양의 확률 조건이 충족될 경우에만 의미가 있다.

  • 그림은 양의 확률 조건이 성립하지 않을 때, 표준화와 역확률 가중치가 잘 정의되지 않는 이유에 대해 설명하고 있다.

    • \(L = 1\) 인 처치받지 않은 개인 \((A=0)\) 이 없다고 한다면, \(L = 1\) 이며 치료받은 개인들과 교환가능한 것으로 간주할 수 있는 \(L = 1\) 이며 처치받지 않은 개인이 없다고 할 수 있다.

    • 이 경우, 데이터에는 모든 처치받은 개인들이 처치를 받지 않았다면 어떻게 되었을지 시뮬레이션을 할 수 있는 정보가 존재하지 않게 된다.

3.4 Consistency: First, define the counterfactual outcome

일관성(consistency)이란 처치를 받았을 때의 결과와 처치를 받지 않았을 때의 결과가 서로 같다는 것을 의미한다. 즉, 모든 개인에 있어서 \(A=a\) 일 때, \(Y^a = Y\) 라는 것이다.

이러한 일관성 조건의 단순함은 기만적(deceptive)이다. 일관성을 두 가지 요소로 나누어서 살펴볼 수 있:

  1. 반사실적 결과, \(Y^a\) 의 정확한 정의: (결과를 왜곡시키거나 영향을 미칠 수 있는) 유의미한 모호성을 남기지 않을 정도로 충분히 잘 정의된 반사실적 결과 \(Y^a\).
  2. 관측된 결과와 반사실적 결과 간의 연계: \(Y^{a} = Y\) 의 등치성이 보장되는 것으로 처치가 없을 경우의 결과와 처치가 이루어졌을 때의 결과가 각각 관측된 결과와 얼마나 일치하는지를 살펴보는 것

서로 다른 개입(interventions)는 다른 결과로 이어질 수 있다.

  • 개입(혹은 처치), \(a = 1\)\(a=0\) 의 의미를 보다 정확하게 정의할수록 인과적 질문 역시 정확해진다.

  • 그러나 처치의 정의에 있어서 완벽한(절대적인) 정확성이란 필요하지도, 가능하지도 않다.

  • 따라서 우리에게 필요한 것은 어디까지나 결과를 왜곡시킬 수 있을 정도의 애매함이 남지 않은, 충분하게 잘 정의된(sufficiently well-defined) 개입 \(a\) 이다.

  • 그렇다면 어떠한 처치가 충분하게 잘 정의되었는지는 어떻게 알 수 있을까?

    • 절대적인 기준은 없다. 가능한 지식에 바탕을 둔 전문가들의 합의에 따른다.

    • 따라서 새로운 지식이 축적될수록, 이러한 합의의 내용도 바뀔 수 있다.

평균 인과효과, \(\Pr[Y^{a=1}=1]\) 의 값은 동일한 모집단과 동일한 프로토콜에 따라 수행된 두 실험에서 상이하게 나타날 수 있다.

  • 그 차이는 만약 프로토콜이 \(a = 1\) 에 대해 결과에 대한 서로 다른 인과효과를 보여주는 상이한 처치들을 포함하고 각각의 실험에서 그러한 서로 다른 처치들이 사용될 경우에 나타날 수있다.

  • 상이한 처치는 인과효과의 전이가능성(transportability)에 영향을 미칠 수 있다.

처치를 보다 정확하게 특정할수록 보다 잘 정의된 인과적 질문을 던질 수 있고, 연구자와 의사결정자들 간의 소통의 오류룰 줄일 수 있다.

3.6 The target trial

앞서 평균 인과효과는 서로 다른 처치 값에 있어서 평균적인 반사실적 결과들의 차이로 정의해왔다. 이러한 개입은 잘 정의될 필요가 있기 때문에, 우리가 관심을 가지고 있는 인과효과를 정량화할 수 있도록 (가설적인) 무작위 실험에 대해 상상해볼 수 있다. 이러한 가설적 실험을 표적 임상실험(target experiment or target trial)이라고 한다.

표적 임상실험이 어려울 경우에는 관측 데이터를 바탕으로 인과적 분석을 수행할 수 있는데, 이는 곧 관측 데이터로부터 인과 관계를 추론하는 것은 대상 표적 임상실험을 모의실험하려는 시도로 볼 수 있다는 것을 의미한다.

  • 표적 임상실험의 유효한 모의실험을 위해서는 관측된 데이터셋에 개개인을 식별하고, 개개인들을 그들이 받은 개입에 따라 집단으로 불류할 수 있으며, 추적 관찰 중 결과를 확인하고, 그룹 간 조건부 교환 가능성을 달성할 수 있는 충분한 정보가 포함되어야 한다.

  • 조건부 교환 가능성이 없는 경우 표적 시험에 대한 모의실험은 실패하며, 일반적으로 개입이 부분적으로 특정되지 않은 경우 조건부 교환 가능성을 달성하는 것은 더 어렵다.

  • 그러나 개입이 충분히 잘 정의되었는지 여부가 불분명한 경우에도 명시적인 표적 임상실험의 모의실험은 연구자가 자신의 신념과 일치하지 않는 암묵적인 일관성 가정을 하는 것을 방지한다.

표적 임상실험에 대한 모방실험을 위한 시도로서 관찰 데이터로부터 인과 관계를 추론하는 개념화는 보편적으로 인정되지 않는다.

  1. 특정되지 않은 개입은 합당하지 않거나 실용적이지 않을 수 있다.
  2. 처치군과 통제군 간의 조건부 교환 가능성을 달성하기 위해 연구자는 두 그룹을 조건부로 교환할 수 있는 공변량 \(L\) 을 식별하고 측정해야 한다.

표적 임상시험이 특정되거나 모방실험으로 시행될 수 없다고 하더라도 여전히 관측 데이터는 비인과적 예측(prediction)에 유용하다.

  • 다만, 이 경우 관측데이터를 통해 확인할 수 있는 관계성과 관계의 강도 등은 인과효과와 대응되지는 않는다.