Chapter 2 Data and Measurement
모델을 적합하기에 앞서, 모델에 사용할 데이터와 측정지표를 탐색하고 이해할 필요가 있다.
2.1 Examining where data come from
Figure 2.1은 Human Development Index (HDI)를 워싱턴 DC와 50개 주를 비교한 지도이다. 이 지도가 우리가 생각하는 주들 간 공중보건 수준을 현실적으로 반영하고 있을까?
HDI는 세 가지 차원으로 측정된다:
기대수명(life expectancy)
성인 문해율(adult literacy rate)과 초중고등 교육 등록률(primary, secondary, and tertiary gross enrollment ratio)
구매력을 기준으로 한 일인당 국내총생산(GDP)에 자연로그를 취한 값: 생활 수준(standard of living)
즉, HDI는 위의 세 지표를 결합한 것이기 때문에 역으로 특정 지표의 값이 높지만 나머지 지표의 값이 낮은 주와 평균적으로 세 지표 모두를 중간 수준의 값으로 가지는 주 간의 차이를 구분하지 못할 수 있다는 것이다.
Figure 2.2는 HDI와 주들 간 평균 소득 수준을 비교한 플롯이다. Figure 2.2a는 두 변수 간 관계가 강하지만 비선형적이라는 것을 보여주며, Figure 2.2b는 평균 소득 순위와 HDI 순위 간 관계가 매우 선명한 선형 관계를 가지고 있다는 것을 보여주고 있다. 이 예시는 다른 방법으로 그래프를 그림으로써 데이터를 더 잘 이해할 수 있다는 것을 보여준다.
2.1.1 Details of measurement can be important
미국정치는 거대 양당에 의해 주도되고 있지만 이념적 스펙트럼에 있어서는 그 강도에 따라 세분화할 수 있다. 그러나 당파성과 이념적 척도는 동일하지 않다.
Figure 2.3a는 자기이념에 있어서 진보-중도-보수의 비율이 모든 소득 수준에서 비슷한 것으로 나타난다.
Figure 2.3b는 당파성에 있어서 소득 수준이 적어도 2008년 기준으로는 공화당 당파성과 강한 관계가 있음을 보여준다.
회귀모델은 데이터를 요약하고, 데이터로부터 추론을 도출하는 방법이다. 따라서 회귀모델은 분석하고자 하는 데이터의 질(quality of data)과 연구문제에 대한 데이터의 적실성에 좌우된다. 측정지표와 현실 간 간극은 과학적 연구에 있어서 일반적인 문제이다.
2.2 Validity and reliability
측정은 두 가지 이유에서 중요하다.
- 우리는 실제로 데이터가 무엇을 의미하는지 이해해야 한다.
- 이를 위해 데이터를 시각화하고, 데이터로부터 필요한 정보를 추출하는 노력이 필요하다.
- 정확성, 신뢰성, 그리고 타당도는 분산(variance), 상관관계(correlation), 그리고 오차 등을 이해하는 데 중요한 기초이다.
2.2.1 Validity
타당도란 “측정하고자 하는 것을 보여주는 정도”를 의미하며, 가능한 범주에서 평균적으로 정확한 답을 찾아낼 수 있도록 측정하는 과정이라고 할 수 있다. 즉, 어떤 측정지표가 측정하고자 하는 것을 제대로 측정하느냐의 문제라고 할 수 있다.
2.2.2 Reliability
신뢰도란 정확하고 안정적인 측정지표의 특성을 말한다. 우리가 무언가를 측정할 때, 그것을 여러번 측정하더라도 비슷하게 측정될 때, 신뢰도를 확보했다고 할 수 있다.
2.2.3 Sample selection
데이터 선정(selection)은 관측할 수 없는 모집단의 표본이 모집단을 잘 대표하지 못할 수도 있다는 문제를 의미한다. 물론 연구목적에 따라서 특정한 표본을 선정해야하는 경우도 있기 때문에 항상 특정한 기준으로 선택된 표본이 문제라고는 할 수 없다.
2.3 All graphs are comparisons
2.3.1 Simple scatterplots
Figure 2.4는 보건지출과 기대수명 간의 관계를 보여주는데, 미국이 다른 국가에 비하여 그다지 기대수명에 눈에 보이는 진전이 나타나지 않는데도 불구하고 높은 수준의 일인당 보건지출을 하고 있다는 것을 확인할 수 있다.
2.3.2 Displaying more information on a graph
이 산포도는 \(x\), \(y\), 그리고 그 두 축 위에 놓인 고나측치를 통해 측정 전 후의 처치와 통제 간의 결과를 비교하는 플롯이다. 연달아 있었던 선거의 두 해를 대상으로 지역구가 특정한 한 정당에 편향적으로 우호적인지를 보여주는 당파성 편향(partisan bias)을 추정한 결과를 보여준다.
분석단위: 미국의 주 의회 선거(state legislative election)
처치(treatment): 서로 다른 선거구 재획정 계획(redistricting plan)
통제: 선거구 제획정이 일어나지 않았던 두 선거의 관측치들(지역구들)
Figure 2.5에서 상호작용은 데이터를 해석하는데 매우 중요하다.
선거구 재획정이 없으면, 당파성 편향은 체계적으로 변화하지 않는다.
선거구 재획정의 가장 큰 효과는 당파성 편향을 0에 보다 가깝게 만든다는 것이다.
이처럼 시각화한 결과는 우리가 가진 데이터의 정보를 직관적으로 이해하도록 돕는다.
2.3.3 Multiple plots
데이터를 기대하지 않은 방식으로 바라보는 것도 때로는 새로운 것을 발견하는 단초가 될 수 있다. 자세한 내용은 GHV의 27-28 페이지의 예제를 참고. 간단히 말하면, 데이터를 가지고 여러 플롯으로 쪼개서 다각적으로 살펴보면 새로운 것을 발견할 수도 있다는 조언이다.
2.3.4 Grids of plots
산포도는 두 개의 연속형 변수, \(y\)와 \(x_1\) 간의 관계를 보여준다. 만약 \(x_2\)라는 추가적인 변수가 있고, 이것이 이산형(discrete)라고 하면 산포도에서 점의 색 등을 \(x_2\)의 카테고리별로 다르게 출력하는 등으로 보여줄 수 있다. \(x_2\)가 연속형일 경우도 색의 진하기로 표현할 수 있지만, 시각적으로 뚜렷하게 구분하기가 어려워 추천하지는 않는다. 또는 \(x_2\), \(x_3\) 등을 추가적인 기준점으로 산포도 자체를 세분화해 쪼개는 방법(grid)이 있다(small multiples). Figure 2.9에서도 확인할 수 있듯, 산포도를 통해 우리는 연속형 종속변수인 \(y\)를 연속형 예측변수인 \(x_1\)과 대응되도록 그래프를 그린 후, 이산형 예측변수인 \(x_2\), \(x_3\), \(x_4\)를 레이어를 덧씌우듯 (마커에 색을 추가하는 등) 시각화할 수 있다. 또한, 각각의 플롯에 \(x_2, \cdot x_4\)의 예측변수들의 서로 다른 고정된 값에서 \(x_1\)와 \(y\) 간의 함수적 관계에 따른 \(y\)의 기대값을 보여주는 예측선을 그리는 것 등도 가능하다.
2.3.5 Applying graphical principles to numerical displays and communication more generally
데이터를 분석할 때는 그 결과를 읽는 독자의 입장 또한 생각해야한다. 독자의 입장에서 괜히 부담되는 불필요한 정보를 과다하게 전달할 필요는 없다. 예컨대, 숫자의 소수점도 일정 부분에서 반올림하여 읽는 사람이 직관적으로 이해할 수 있도록 도울 필요가 있다. 불확실성을 보여주는 구간 [3.276, 6.410]은 [3.3, 6.4]라고 적더라도 그 실질적 의미는 훼손되지 않으며 보는 사람 입장에서는 더 간결하다. 그리고 통계적 결과들을 그래프로 보여주는 것은 가독성을 높여준다. 단, 설명할 수 없는 그래프를 굳이 보여줄 필요는 없다. 모든 그래프에는 제목(caption)을 달아야 한다.
2.3.6 Graphics for understanding statistical models
통계분석에서 그래프는 크게 세 부분에서 유용하다.
원 데이터(raw data)를 보여주는, 이른바 “탐색적 분석”에 용이하다.
예측 모델과 추론에 있어서 그래프는 모델의 적합도를 파악하는데 도움을 준다. 예측 모델을 통해서 재생산된 데이터를 시뮬레이션해서 원 데이터와 비교하는 그래프를 그려서 보여줄 수도 있다.
최종 결과물을 그래프로 보여줄 수 있다.
그래프를 그리는 목적은 연구자 본인과 연구를 읽는 대상 간의 소통을 용이하게 하기 위해서이다.
2.3.7 Graphs as comparisons
모든 시각화된 그래프는 일종의 비교를 위한 수단이라고 볼 수 있다.
2.3.8 Graphs of fitted models
적합된 모델과 데이터를 동일한 플롯에 함께 그리는 것이 유용할 수 있다. 예를 들어, 실제 데이터와 우리가 시뮬레이션을 이용해서 예측한 값들의 관계를 함께 보여주면 우리가 가설적으로 수립한 관계가 관측된 데이터들에서도 그 양상이 나타나는지를 파악하기가 용이하다.
2.4 Data and adjustment: trends in mortality rates
GHV는 사망률(mortality rates)의 예제를 통해 특정 연령집단에서의 집합적인 사망률의 증가가 45세부터 54세 연령 집단의 구성이 1990년부터 2013년 사이에 크게 변화하였기 때문인지를 분석한다. 만약 45세부터 54세 연령집단의 구성이 시간에 따라 변화하여 사망률의 차이가 나타났다면, 그 집단의 시간에 따른 사망률의 변화는 연령에 특정한 사망률의 변화는 반영하고 있지 않는다고 볼 수 있다. 즉, 연도-시간의 변화가 주요 요인이라면 45세부터 54세라는 이 중장년층이라는 연령 자체의 특정한 효과는 사망률의 변화에 큰 영향을 미치지 않앗을 것이라고 볼 수 있다는 것이다.
이를 확인하기 위해서 GHV는 이 연령 집단의 순수한 사망률의 변화도 보고, 평균 연령의 변화, 나아가 그 두 패턴을 비교해본다. Figure 2.10이 바로 그것이다. Figure 2.10은 해당 연령 집단의 사망률 변화를 이해하기 위해서는 연령에 대한 조정이 필요하다는 것을 보여준다(연령 그 자체가 사망률에 영향을 미칠 수 있음). 왜냐면 시간적 추이에 따라서 사망률이 계속 증가하는 것은 맞지만 동시에 평균 연령도 증가하고 있기 때문에 평균연령의 증가가 사망률의 증가로 이어졋을 가능성을 배제할 수 없기 때문이다.
Figure 2.11a은 연령에 대해 조정한 경향성이 그다지 사망률의 증가에 민감한 영향을 미치지 않는다는 것을 보여준다. 반면에 성별로 연령대별 조정한 사망률을 분리해서 살펴보면 Figure 2.11b와 같은 결과를 얻을 수 있는데, 1999년부터 2013년까지 여성의 사망률이 증가한 반면, 남성의 사망률은 1999년부터 2005년까지 증가하지만 2005년부터 2013년까지는 반전하는 것을 확인할 수 있는 것이다.
이처럼 데이터가 가지고 있는 정보는 그것을 어떻게 집약(aggregation)하고, 또는 해체(disaggregation)하느냐에 따라서 다른 결과를 보여줄 수 있다.
마지막으로 Figre 2.12는 셩별에 따른 미국의 지역별 연령 조정된 사망률의 추이를 보여주는데, 특기할 것은 남부 지역의 여성의 사망률이 눈에 띄는 증가세를 보인다는 점이다. 반면에 두 성별 모두 북동부에서는 사망률이 감소하는 모습을 보였고, 가장 낮은 추이를 보였다. 이같은 일련의 그래프들은 데이터 탐색(data exploration)이 얼마나 중요한지를 보여준다.