1  준비

이 장은 패널 데이터가 무엇인지, 그리고 기초적인 계량경제 기법들에 대해 살펴본다. 원서에서는 STATA 사용법과 패널 데이터 저장 방법에 관련된 내용도 다루고 있지만, 이 페이지에서 해당 내용은 생략하고 독자들이 기본적인 R에 대한 지식이 있을 것으로 가정한다.

1.1 패널 데이터

패널 데이터(panel data) 혹은 종단 자료(longitudinal data)란 여러 개체들(개인, 국가, 지역 등)을 복수의 시간에 걸쳐 관측하여 얻는 데이터를 말한다. 패널 데이터는 횡단면 데이터와는 다르다. 횡단면 데이터(cross-sectional data)는 단순히 복수의 개체들에 관한 데이터를 모아 놓은 것이다. 수집기간과 무관하게 여러 개체들을 단순히 모아놓은 데이터이다. 반면, 개체들이 복수의 시간에 걸쳐 관측되고 각 개체를 시간에 걸쳐 추적할 수 있을 때에만 패널 데이터라고 할 수 있다.

여러 기간에 걸쳐 데이터를 얻더라도 동일한 개체ㅈ들을 추적한 것이 아니거나, 동일한 개체들을 추적했더고 하더라도 데이터에서 각 개체들을 식별할 수 없으면 패널 데이터가 아니다. 원서에서는 이를 반복된 횡단면(repeated cross sections data)라고 말하고 있다. 정치학 분야에서는 보통 교차사례-시계열 데이터(cross-sectional time-series data)라고 말한다. 예를 들면, 전 세계 민주주의 국가의 30년에 걸친 경제성장률 데이터를 수집했다고 하자. 이때, 각 해의 민주주의 국가들은 엄밀히 말하면 이전 시점의 민주주의 국가들과 완전히 동일한 개체라고 볼 수는 없다. 구성원(시민)의 인구구성이 달라졌을 수도 있고, 선거를 통해 입법부 및 행정부가 교체되었을 경우에는 그 특성이 달라졋을 수도 있다. 이 경우, 설문조사와 같이 동일한 개인 또는 가구를 반복적으로 추적하여 살펴보는 패널 데이터와 교차사례-시계열 데이터는 동일하다고 보기는 어렵다.

패널 데이터는 시계열 데이터(time-series data)와도 다르다. 한 대상을 복수의 시간에 걸쳐 관측함으로써 얻는 데이터이다. 반면, 패널 데이터는 복수의 대상을 복수의 시간에 걸쳐 관측하는 것이다.

패널 데이터 내 각 변수는 두 차원의 변동을 가질 수 있다. 하나는 개체 간의 차이이다. 동일한 시기라 하더라도 변수의 값은 개체 간에 상이할 수 있다. 다른 하나는 시간에 걸친 변동이다. 각 개체의 변수값은 시간에 따라 변화할 수 있다. 따라서 패널 데이터를 분석할 때에는 개체 차원과 시간 차원을 구별하게 된다. 패널 데이터를 분석할 때에는 모형을 표현하는 단계에서도 변수에 개체와 시간을 나타내는 첨자를 명시적으로 써주는 것을 권한다. 어떠한 확률변수 \(x\)가 개체별로도 다를 수 있고 시간에 걸쳐서도 다를 수 있으면 \(i\)\(t\) 첨자를 붙여서 \(x_{it}\)라고 표현하고 개체별로는 다를 수 있지만 시간에 걸쳐서는 변화를 나타내지 않으면 \(x_i\)라고 나타낸다. 모든 개체들에서 \(x\)의 값이 동일하고 시간에 걸쳐서만 변화하면 \(x_t\)로 표현한다. 예를 들어 다음의 모형을 보자.

\[ \log(\text{임금}_{it}) = \alpha_t + \beta\text{학력}_{i} + \gamma\log(\text{국민소득}_t) + u_{it} \tag{1.1}\]

  • 임금: 개인별, 시간별로 다를 수 있는 변수이다.

  • 학력: 개인별로는 다를 수 있지만 시간에 걸쳐서는 동일하다.

  • 국민소득: 모든 개인들에게 동일하지만 시간에 따라서 변화한다.

  • 오차항: 개인들 간에도 다르고 시간에 따라서도 변화한다,

  • \(\alpha\): 절편은 시간에 따라 다르다.

  • \(\beta, \gamma\): 모든 개인과 시간에 걸쳐 동일하다.

패널 조사는 각 개체별로 복수의 기간 동안 관측이 이루어지는데, 모든 개체에 대하여 동일한 기간 동안 완전하게 관측이 이루어질 경우 균형패널 데이터(balanced panel data)를 얻을 수 있다. 만약 어떤 개체들이 도중에 표본으로부터 이탈하거나 신규로 표본에 진입하여 관측된 시점들이 상이하면 불균형패널 데이터(unbalanced panel data)를 얻게 된다.

  • 균형패널 데이터의 경우에는 확률변수 \(x\)에 대해서 \(x_{it},\:i = 1, \dots, n, t = 1,\dots, T\)라고 표현할 수 있다. 즉, 모든 \(i\)에서 관측치 개수가 \(T\)개라는 것이다.

  • 불균형 패널일 경우에는 만일 모든 개체들이 동일한 시점에서 관측되기 시작하였다면, \(x_{it},\:i = 1, \dots, n, t = 1,\dots, T_i\)라고 표현할 수 있다. 이때, \(T_i\)인 이유는 불균형 패널이기에 종료 시점이 서로 상이할 수 있기 때문이다.

Tip

불균형 패널 데이터가 있으면 몇 가지 전략을 취할 수 있다. 하나는 불균형을 야기하는 개체들을 제거하고 데이터를 균형화하는 것이다. 다른 하나는 전체 데이터를 이용하면서 불균형 패널이라는 것을 무시하고 분석하는 것이다. 마지막으로는 불균형 패널 데이터를 사용하면서 표본의 마모(attrition, 표본이탈)나 신규진입을 명시적으로 고려하는 모형을 수립하여 분석하는 것이다. 만약 표본이탈이나 신규진입이 내생적으로 이루어진다면, 마지막 방법을 사용해야만 올바른 추정을 할 수 있다 (한치록 2021: 5).

패널 데이터를 이용할 경우의 이점은 다음과 같다.

  1. 횡단면 데이터나 시계열 데이터에 비해 관측치의 수가 많다 (\(N \times T\)).
  2. 관측불가능한 요인들을 일정한 범위 내에서 통제할 수 있다는 장점이 있다.
  3. 횡단면 데이터를 사용하는 경우와는 달리 정책/제도 등과 같은 변수의 효과를 개체 단위로 파악할 수 있게 된다.

1.2 계량경제학 기초

확률론과 관련된 여러 개념들(반복되는 표본추출의 맥락), 선형모형, 최소제곱법(OLS), 표준오차, 검정, 추론 등에 대해서는 독자들이 알고 있다고 가정하고, 패널 데이터 분석에 꼭 필요한 기초만을 간단히 살펴본다.

1.2.1 일관성의 문제와 표준오차의 문제

선형모형에서 오차항의 평균(설명변수 조건부 평균)이 설명변수 값과 상관없이 동일하면 OLS 추정량은 비편향성(unbiasedness)를 갖는다. 또 만약 설명변수와 오차의 공분산이 0이면 OLS 추정량은 일관성(consistency)을 갖는다. 설명변수가 오차항과 상관되고 설명변수 내생성을 야기하는 요인을 통제할 수 없는 경우, 일관된 추정(consistent estimation)을 위해서는 도구변수(instrumental variables) 추정법을 사용할 수 있다.

도구변수 추정을 위해서는 설명변수와 상관성을 가지며(relevant) 오차항과는 상관하지 않는(exogenous) 도구변수가 필요하다.

  • 즉, 도구변수는 설명변수를 통해서만 종속변수에 영향을 미치는 변수여야 한다.

  • 설명변수를 통제한 상황에서 도구변수는 직접적으로 종속변수에 영향을 미쳐서는 안된다.

  • 이런 도구변수를 이용한다면 우리는 적절한 도구변수를 통해 아래와 같은 관계의 체인을 상정할 수 있게 됨으로써, 내생성의 문제를 일부 설명할 수 있게 된다.

flowchart LR
  A[도구변수] --> B(설명변수)
  B --> C[종속변수]

설명변수 내생성과 관련된 문제는 추정량의 일관성(consistency) 자체를 건드리는 중대한 문제이다. 다른 요소들이 아무리 완벽해도 만일 내생성이 존재하고 그 문제를 해결하지 못하면 적어도 인과관계의 분석에서는 치명적이다. ♔ 는 앞으로도 내생성과 관련된 문제를 의미한다.

설명변수가 외생적이어서 OLS 추정량이 비편향적이고 일관적이라고 하자.1 이때, 오차항에 이분산이나 자기상관이 없으면 통상적인 표준오차를 사용하는 \(t\)통계량이나 \(F\)통계량은 영가설 하에서 대략적으로라도 \(t\)분포나 \(F\)분포를 갖고, 이에 기초한 검정들은 적어도 근사적으로는 모두 타당하다. 반면, 오차항에 이분산이나 자기상관이 있으면, OLS를 사용한 추론을 하기 위해서는 견고한(robust) 분산추정량을 사용하여야 한다.

  • 오차항이 이분산을 가지지만 자기상관이 없으면, “이분산에 견고한 분산추정량”을 사용하면 된다.

  • 오차항이 이분산에 자기상관까지 가지면 좀 더 복잡한 방법을 고려해야 한다.

  • 만약 관측치들이 클러스터(cluster)들로 구분되어, 동일 클러스터 내에서는 임의의 상관이 존재하고 상이한 클러스터 간에는 서로 독립적일 때에는 클러스터 분산추정량을 사용할 수 있다.

    • 클러스터 분산추정값에 제곱근을 취한 것을 클러스터 표준오차라고 한다.
Tip

예를 들어, 가구원들로 구성된 데이터에서 상이한 가구들이 서로 독립적이라면 가구 ID 변수가 클러스터를 정할 변수가 된다. 패널 데이터 분석에서는 흔히 \(i\)가 다르면 서로 독립적일 것이라고 가정한다 (한치록 2021: 7).

오차항에 이분산과 자기상관이 없으면 보통의 OLS는 가장 좋은 선형 비편향 추정량(BLUE; Best Linear Unbiased Estimator)이다. 그러나 이분산이나 자기상관이 존재하면, OLS는 더 이상 BLUE가 아니다. 이 경우 일반화된 최소제곱 추정량(Generalized least squared; GLS)이 BLUE이며, OLS보다 더 효율적이다.

  • GLS는 방정식을 변형하여 오차항에 이분산과 자기상관이 없도록 만든 다음 OLS를 하는 것이다.

오차항의 분산 및 공분산과 관련된 문제는 앞으로 ♖ 로 나타낸다.

기호의 의미
기호 의미
설명변수와 오차가 상관되지 않으면 OLS는 일관적이다. 양자가 상관되면 OLS는 비일관적이며, 일관된 추정을 위해서는 도구변수가 필요하다.
오차에 이분산이나 자기상관이 있는 경우, OLS는 일관적이나 이를 이용하여 추론을 하려면 견고한 분산추정량을 사용해야 한다. 이때 OLS는 BLUE가 아니며 GLS나 FGLS를 이용하여 더 효율적인 추론을 할 수 있다.

1.2.2 실제 계량 분석의 절차

실제 분석의 절차: 책에 제시된 내용을 정치학적 맥락으로 수정

  • 데이터 생성 과정(DGP; Data generating process)에 대한 이론을 세운다.

  • 이론적 모형을 수립하고 그 모수에 대해 정치학적인 해석을 한 후, 적합한 관측자료—데이터를 구한다.

  • 일반적인 방법(예를 들어 OLS)을 이용하여 일관된 추정을 할 수 있는지 확인한다.

    • 설명변수의 외생성, 즉 설명변수들과 회귀식의 오차항이 서로 상관하지 않는지를 점검한다(♔).

      • 설명변수가 외생적이면(오차항과 상관이 없으면) OLS를 사용해도 문제가 없다.

      • 설명변수가 내생적이면 문제가 복잡하다.

        • 모형을 변형하여(통제변수 추가, 수준 대신 증가분으로 변환 등) 내생성을 야기하는 요인을 제거할 수 있는가?

        • 불가능하다면 도구변수를 찾아야 한다(♔).

      • 어떻게든 일관된 추정을 해내면, 추정량의 표준오차를 구하고 가설검정 등 모수에 대한 추론을 한다.

        • 오차항에 이분산이나 자기상관이 존재하는지 점검해본다.

        • 존재할 경우, 이분산과 자기상관을 명시적으로 고려한 분산 추정량을 이용하여 추론을 견고하게(robust) 만들어야 한다(♖).

          • 통상적인 OLS가 BLUE가 아닌 경우이므로, 더 효율적인 추정을 생각해볼 수 있다. 이분산 및 자기상관의 구조를 알고 있을 때에는 GLS를 사용할 수 있고, 구 구조를 결정하는 함수 형태는 알지만 그 안의 모수들 중 일부를 알지 못할 경우에는 FGLS 방법을 사용할 수 있다.
Tip

통상적인 패널 모형과 동태적(dynamic) 패널 모형 간 중요한 차이점 중 하나는 통상적인 패널 모형은 시간에 걸쳐 오차항에 시계열 상관이 존재한다고 보지만, 동태적 패널 모형은 시계열 상관이 없어야 한다고 본다는 점이다 (한치록 2021: 9).

1.2.3 FGLS의 비용

오차항에 존재하는 이분산 및 자기상관의 구조를 선험적으로 알 수 있는 경우는 거의 없다. 일반적으로는 이분산 및 자기상관 구조에 대한 그럴 듯한 가정을 세우고 알지 못하는 모수들을 추정하여 FGLS를 하는데, 이러한 가정이 틀렸을 수 있다. 틀린 가정에 입각하여 FGLS를 분석할 경우, 여전히 OLS보다는 효율적일 가능성이 높지만 그 추정 결과가 비효율적일 수 있다.

현실적인 어려움은 첫째 연구자가 어떠한 이분산 및 자기상관의 구조에 대한 가정을 선택하였을 때, 왜 그렇게 가정하였는지 근거를 대기 어려울 때가 있다는 것이다. 둘째 표본 크기가 작을 때, 추정량의 성질이 거의 알려져 있지 않다는 것이다. 앞서 언급했다시피 GLS와는 달리 FGLS는 함수 내 미지의 모수가 존재하는 것을 가정하고 있다. 따라서 오차항의 이분산 및 자기상관 구조에 포함된 미지의 모수가 존재하거나 그 개수가 많은 경우, FGLS를 사용하는 것이 그리 좋지 않을 수 있다. 반면에 분산·공분산 구조를 알기 위해서 추정해야 하는 모수가 한두개 뿐이고, 표본의 크기가 크다면 FGLS의 편향이 아주 작아서 무시할 수 있다.

1.2.4 패널 데이터에서 외생성과 내생성

팬패널 데이터는 시간 차원을 갖기 때문에, 시계열 모형처럼 내생성과 외생성의 개념이 복잡하다. 패널 데이터의 경우에는 시간이 개입되므로 현재의 변수가 과거의 오차항과 상관되느냐, 현재의 변수가 동시에 혹은 미래의 오차항과 상관되느냐 등의 문제가 추가로 나타난다. 이러한 경우들을 확실하게 분류하기 위해 다음과 같은 개념들을 도입한다.

  • 강외생성(strict exogeneity): 모든 시기의 오차항과 무관함

  • 약외생성(weak exogeneity): 현재 혹은 미래의 오차항과 무관함

  • (동시기) 내생성(contemporaneous endogeneity): 미래의 오차항과만 무관함

Note

동시기적 내생성이라는 말 자체는 해당 변수가 동시기의 오차항과 상관되어 있음을 뜻하지만, 패널 분석에서는 흔히 “동시기의 오차항과는 상관되어 있더라도 미래의 오차항과는 무관하다”는 것을 의미한다 (한치록 2021: 10).

1.2.5 따름모수의 문제

일반적으로 표본의 크기와 무관하게 전체 모수의 개수는 항상 고정되어 있다고 간주된다. 비편향성이나 일관성 등 OLS 추정량의 성질들은 모수의 개수가 고정된 상황에서 도출된 것이다. 모수가 고정되어 있는 상태에서 표본의 크기가 커진다면, 점점 더 많은 정보를 정해진 모수를 추정하는 데 사용할 수 있다는 점에서 일관된 추정량을 탐색하기 용이해진다는 것으로 이해할 수 있다.

하지만 만약 추정해야 할 모수의 개수가 표본 크기와 함께 증가한다면 어떻게 될까?

예제 1.2. 표본 크기와 함께 모수의 개수가 증가하는 경우

고등학교에서 방과후 수업을 제공하고 학생들은 몇 시간의 방과후 수업을 받을지 자발적으로 선택하거나 임의로 할당된다고 하자. 학교마다 방과후 수업의 요령이 달라서 방과후 수업시간의 양(시간)이 성적에 미치는 영향이 다르다. 다시 말하여 \(j\) 학교에 다니는 학생 \(i\) 의 성적향상도는 \(\text{성적향상도}_{ij} = \alpha_j + \beta_j\text{시간}_{ij} + u_{ij}\) 로 나타낼 수 있다. 이 모형의 핵심은 절편과 기울기의 모수가 학교 (\(j\))마다 다르다는 것이다.

한 고등학교에서 3명의 학생들을 임의로 추출하여 표본을 만들었을 때, 총 100개의 고등학교에서 총 300명의 학생이 임의추출된다. 고등학교마다 계수가 다르므로 모수인 \(\alpha, \beta\)가 백개 씩 나오게 되므로 관측치는 300명인데 모수의 개수는 200개가 된다. 따라서 분석의 정확성이 높을 것이라고 보기는 어렵다. 이 문제는 표본의 크기를 증가시켜 해결하기 어렵다. 왜냐하면 표본의 수가 증가할수록 모수의 개수도 비례적으로 증가하기 때문이다.

예제 1.2와 같이 표본 크기가 증가함에 따라 개수가 증가하는 모수들을 Neyman and Scott (1948)따름모수들(incidental parameters)라고 했다. 이러한 따름모수들이 존재한다면, OLS 추정량에 대한 성질들이 여전히 성립하는지를 전부 처음부터 살펴볼 필요가 있다.2

횡단면 분석이나 시계열 분석에서는 따름모수의 문제가 잘 등장하지 않는 반면에 패널 데이터에는 정보가 입체적으로 존재하여 따름모수의 문제가 존재하는 모형도 추정할 수 있게 된다.

Neyman, J., and Elizabeth L. Scott. 1948. “Consistent Estimates Based on Partially Consistent Observations.” Econometrica 16 (1): 1–32. https://doi.org/10.2307/1914288.
한치록. 2021. 패널데이터강의. Third. 박영사.

  1. 오차항과 상관하지 않는다는 것으로 종속변수를 설명하기 위한 설명변수를 충분히 모델에 포함시켰다는 것을 의미한다.↩︎

  2. 모수의 개수가 고정되어 있다는 가정 하에 OLS 추정량이 BLUE 혹은 일관된 추정량이라고 할 수 있었던 것이기 때문이다.↩︎