class: center, middle, inverse, title-slide .title[ # 6. 측정 ] .subtitle[ ## 정치학연구방법론 ] .author[ ### 박상훈 (
sh.park.poli@gmail.com
) ] .date[ ### 강원대학교 ] --- <style> .remark-slide-content { word-break: keep-all; overflow-wrap: break-word; text-align: left; } .remark-slide-content p, .remark-slide-content li, .remark-slide-content blockquote { word-break: keep-all; } </style> # 측정 ## 학습 개요 사회과학 연구에서 **개념을 데이터로 전환**하는 작업은 그 자체로 이론적 판단을 수반함 -- 본 주차의 핵심 주제: + 측정이란 무엇이며, 왜 중요한가 + 서베이 표본추출의 원리와 편향 + 기술통계: 중심경향, 산포도, 분위수 + 데이터 시각화: 막대그래프, 히스토그램, 박스플롯, 산점도 + 상관관계의 의미와 해석 --- # 측정 ## 측정이란 무엇인가 **측정(Measurement)** 이란 변수를 정의하고, 관측 단위에 대해 그 값을 수치화하는 과정 -- + 측정 지표(metric)는 특정 관측 단위에서 변수의 값을 확인하기 위한 규칙이나 척도의 집합 + 개념 정의와 조작화(operationalization)는 경험적 연구의 가장 중요한 토대(Gailmard 2014) -- 측정이 부실하면, 아무리 정교한 통계 모형을 사용하더라도 의미 있는 결과를 얻을 수 없음 --- # 측정 ## 측정의 도전: 사회과학 개념의 모호성 "민주주의"나 "내전" 같은 개념은 자명하지 않으며, 신중한 조작화가 필요함 -- **예시: 민주주의의 측정** + 경쟁적 선거와 보통선거권을 기준으로 분류하는 방법 (Cheibub et al. 2010) + 다차원 연속 지표를 사용하는 방법 (V-Dem, Polity IV) + 어떤 정의를 선택하느냐에 따라 분석 결과가 완전히 달라질 수 있음 -- 서로 다른 정의는 서로 다른 측정을 요구하며, 서로 다른 연구 결론으로 이어질 수 있음(Johnson et al. 2016) --- # 측정 ## 측정 수준(Levels of Measurement) <table class=" lightable-classic" style='font-size: 16px; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:left;"> 측정 수준 </th> <th style="text-align:left;"> 특성 </th> <th style="text-align:left;"> 예시 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 명목척도(Nominal/Categorical) </td> <td style="text-align:left;"> 범주 구분만 가능, 순서 없음 </td> <td style="text-align:left;"> 정당(민주당=0, 공화당=1) </td> </tr> <tr> <td style="text-align:left;"> 순서척도(Ordinal) </td> <td style="text-align:left;"> 순서 있음, 간격의 의미 없음 </td> <td style="text-align:left;"> 이데올로기(매우 진보~매우 보수, 1~7) </td> </tr> <tr> <td style="text-align:left;"> 등간척도(Interval) </td> <td style="text-align:left;"> 동일한 간격, 절대영(0) 없음 </td> <td style="text-align:left;"> 섭씨 온도, 이데올로기 점수 </td> </tr> <tr> <td style="text-align:left;"> 비율척도(Ratio) </td> <td style="text-align:left;"> 동일한 간격, 절대영(0) 존재 </td> <td style="text-align:left;"> GDP, 인구수, 투표율 </td> </tr> </tbody> </table> -- + 명목척도에 부여된 숫자는 **임의적 레이블**이며 수학적 연산이 무의미함 + 순서척도(예: 리커트 7점 척도)에서 7은 1보다 "더 많음"을 의미하지만, "7배"를 의미하지는 않음(Gailmard 2014) --- # 서베이 표본추출 --- # 서베이 표본추출 ## 왜 표본조사를 하는가 모집단(population) 전체를 조사하는 것은 비용과 시간 측면에서 거의 불가능함 -- + 대신 모집단에서 **표본(sample)**을 추출하여 모집단의 특성을 **추론(inference)**함 + 핵심 질문: 수백 명의 응답으로 수천만 유권자의 선호를 어떻게 파악할 수 있는가? -- 표본이 모집단을 잘 대표하려면, 표본추출 방법이 핵심적으로 중요함 --- # 서베이 표본추출 ## 확률 표본추출(Probability Sampling) **확률 표본추출**: 모집단의 모든 단위가 알려진, 0이 아닌 확률로 선택될 수 있는 방법 -- **단순무작위 표본추출(Simple Random Sampling)** + 모집단의 모든 단위가 동일한 확률로 선택됨 + 무작위 추출은 편향 없는(unbiased) 표본을 생성함 + 한계: 정확한 모집단 명부(sampling frame)가 필요함 -- **할당 표본추출(Quota Sampling)** + 특정 인구학적 집단의 할당량을 채울 때까지 표본을 추출 + 문제: 관찰 불가능한 특성에 의한 편향 가능성 --- # 서베이 표본추출 ## 1936년 Literary Digest 여론조사의 교훈 1936년 미국 대선에서 Literary Digest는 약 240만 명을 대상으로 조사하였으나, 결과가 크게 빗나감 -- + 표본이 전화 소유자와 자동차 등록자에 편향되어 있었음(부유층 과대대표) + 반면 George Gallup은 약 5만 명의 **할당표본**으로 더 정확한 예측을 하였음 -- 교훈: **표본의 크기보다 표본의 대표성이 더 중요**함 --- # 서베이 표본추출 ## 비확률 표본추출과 인터넷 조사 **비확률 표본추출(Non-Probability Sampling)** + 인터넷 조사, 옵트인(opt-in) 패널 등 + 저렴하지만 대표성이 떨어짐: 젊고, 도시 거주, 고소득 집단이 과대대표되는 경향 + 디지털 격차(digital divide): 부유층 vs. 빈곤층, 젊은 층 vs. 노년층 -- 통계적 가중치(weighting)를 통해 편향을 보정하려는 시도가 있으나, 근본적 한계가 존재함 --- # 서베이 표본추출 ## 서베이의 편향 문제 <table class=" lightable-classic" style='font-size: 15px; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:left;"> 편향 유형 </th> <th style="text-align:left;"> 설명 </th> <th style="text-align:left;"> 예시 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 단위 무응답(Unit Non-response) </td> <td style="text-align:left;"> 조사 자체에 참여하지 않는 경우 (예: 발신자 표시로 전화 회피) </td> <td style="text-align:left;"> 특정 정치성향 집단의 조사 거부 </td> </tr> <tr> <td style="text-align:left;"> 항목 무응답(Item Non-response) </td> <td style="text-align:left;"> 특정 질문에 답하지 않는 경우 (예: 소득 질문 거부) </td> <td style="text-align:left;"> 소득, 건강 관련 민감 항목 </td> </tr> <tr> <td style="text-align:left;"> 사회적 바람직성 편향(Social Desirability Bias) </td> <td style="text-align:left;"> 진짜 선호를 숨기고 사회적으로 바람직한 답을 하는 경우 </td> <td style="text-align:left;"> 인종 편견, 약물 사용, 투표 여부 </td> </tr> </tbody> </table> --- # 서베이 표본추출 ## 리스트 실험(List Experiment) 사회적 바람직성 편향을 극복하기 위한 기법 -- + **통제 집단**: 비민감 항목 3개가 담긴 리스트를 받고, 동의하는 항목의 **개수만** 답함 + **처치 집단**: 동일한 3개 + 민감 항목 1개가 담긴 리스트를 받고, 동의하는 항목의 개수만 답함 -- 두 집단의 **평균 응답 수 차이** = 민감 항목에 대한 진정한 동의 비율의 추정치 -- **예시**: 흑인 가족이 옆집으로 이사오는 것에 대한 불쾌감을 측정한 연구에서, 리스트 실험을 통해 약 6.8%의 인종적 불쾌감이 추정되었음 --- # 기술통계 --- # 기술통계 ## 중심경향 측도(Measures of Central Tendency) **평균(Mean)**: 모든 관측값의 합을 관측 수로 나눈 값 `$$\bar{x} = \frac{1}{N}\sum_{i=1}^{N} x_i$$` -- + 평균은 평균제곱오차(mean squared error)를 최소화하는 유일한 값 + 극단값(outlier)에 민감함 -- **중앙값(Median)**: 관측값을 크기순으로 정렬했을 때 가운데에 위치하는 값 + 극단값에 강건(robust)함 + 관측 수가 클 때, 평균과 중앙값은 대체로 유사해짐 --- # 기술통계 ## 산포도 측도(Measures of Dispersion) **분산(Variance)**: 관측값들이 평균으로부터 얼마나 흩어져 있는지를 나타냄 `$$s^2 = \frac{1}{N-1}\sum_{i=1}^{N}(x_i - \bar{x})^2$$` -- **표준편차(Standard Deviation)**: 분산의 제곱근. 원래 변수와 동일한 단위를 가짐 `$$s = \sqrt{\frac{1}{N-1}\sum_{i=1}^{N}(x_i - \bar{x})^2}$$` -- + 분산과 표준편차가 클수록 데이터가 평균 주위에 넓게 퍼져 있음을 의미함 --- # 기술통계 ## 분위수(Quantiles)와 사분위범위(IQR) **분위수**: 데이터를 동일한 비율로 나누는 값 + **사분위수(Quartiles)**: 데이터를 4등분. Q1(25%), Q2(50%=중앙값), Q3(75%) -- **사분위범위(Interquartile Range, IQR)**: `$$\text{IQR} = Q3 - Q1$$` + 중간 50%의 데이터가 분포하는 범위 + **이상치(Outlier)** 판별 기준: `\(Q1 - 1.5 \times \text{IQR}\)` 미만 또는 `\(Q3 + 1.5 \times \text{IQR}\)` 초과 --- # 기술통계 ## Z-점수(Z-score): 표준화 관측값이 평균으로부터 몇 표준편차만큼 떨어져 있는지를 나타내는 표준화된 점수 `$$Z = \frac{x_i - \bar{x}}{s}$$` -- + Z-점수가 2이면, 해당 관측값은 평균보다 2 표준편차 위에 위치함 + 서로 다른 단위의 변수를 비교할 때 유용함 -- **예시**: Pam의 SAT 점수 1800점 (평균 1500, 표준편차 300) `\(\rightarrow\)` `\(Z = \frac{1800-1500}{300} = 1.0\)` Jim의 ACT 점수 24점 (평균 21, 표준편차 5) `\(\rightarrow\)` `\(Z = \frac{24-21}{5} = 0.6\)` `\(\rightarrow\)` Pam이 상대적으로 더 높은 성적을 거둠 --- # 데이터 시각화 --- # 데이터 시각화 ## 막대그래프(Bar Plot) 범주형(categorical/factor) 변수의 분포를 시각화하는 도구 <img src="07-slides_files/figure-html/unnamed-chunk-3-1.png" style="display: block; margin: auto;" /> 각 막대의 높이는 해당 범주에 속하는 관측의 **비율 또는 빈도**를 나타냄 --- # 데이터 시각화 ## 히스토그램(Histogram) 연속형(numeric) 변수의 분포를 시각화하는 도구 <img src="07-slides_files/figure-html/unnamed-chunk-4-1.png" style="display: block; margin: auto;" /> + 변수를 일정한 구간(bin)으로 나누고, 각 구간의 **밀도(density)**를 막대로 표현 + 밀도 = (해당 구간의 관측 비율) / (구간 폭). 전체 면적의 합 = 1 --- # 데이터 시각화 ## 박스플롯(Box Plot) 데이터의 분포를 **순서통계량**으로 요약하는 시각화 도구 <img src="07-slides_files/figure-html/unnamed-chunk-5-1.png" style="display: block; margin: auto;" /> 상자: Q1~Q3(IQR), 중앙선: 중앙값, 수염: `\(\pm 1.5 \times\)` IQR, 점: 이상치 --- # 데이터 시각화 ## 산점도(Scatter Plot) 두 변수 간의 관계를 시각화하는 도구 <img src="07-slides_files/figure-html/unnamed-chunk-6-1.png" style="display: block; margin: auto;" /> 관례: X축에 독립변수, Y축에 종속변수. 각 점은 하나의 관측 단위 --- # 상관관계 --- # 상관관계 ## 공분산(Covariance) 두 변수가 함께 변하는 경향을 측정하는 통계량 `$$\text{Cov}(x, y) = \frac{1}{N-1}\sum_{i=1}^{N}(x_i - \bar{x})(y_i - \bar{y})$$` -- + 양수: 두 변수가 같은 방향으로 움직이는 경향 + 음수: 두 변수가 반대 방향으로 움직이는 경향 + 단위에 의존하므로 직접적인 크기 비교가 어려움 `\(\rightarrow\)` 상관계수로 표준화 --- # 상관관계 ## 피어슨 상관계수(Pearson's r) 공분산을 두 변수의 표준편차의 곱으로 나누어 **척도 독립적(scale-independent)**으로 만든 것 `$$r_{xy} = \frac{\text{Cov}(x, y)}{s_x \cdot s_y} = \frac{1}{N-1}\sum_{i=1}^{N}\left(\frac{x_i - \bar{x}}{s_x}\right)\left(\frac{y_i - \bar{y}}{s_y}\right)$$` -- + 범위: `\(-1 \le r \le +1\)` + `\(r = +1\)`: 완전한 양의 선형 관계 + `\(r = -1\)`: 완전한 음의 선형 관계 + `\(r = 0\)`: 선형 관계 없음 --- # 상관관계 ## 상관계수의 해석 기준 <table class=" lightable-classic" style='font-size: 18px; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:center;"> |r|의 범위 </th> <th style="text-align:center;"> 해석 </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> 0.0 ~ 0.3 </td> <td style="text-align:center;"> 약한 상관 </td> </tr> <tr> <td style="text-align:center;"> 0.3 ~ 0.5 </td> <td style="text-align:center;"> 중간 상관 </td> </tr> <tr> <td style="text-align:center;"> 0.5 이상 </td> <td style="text-align:center;"> 강한 상관 </td> </tr> </tbody> </table> -- **주의사항**: + 상관관계는 **선형(linear)** 관계만 포착함. 비선형 관계는 감지하지 못할 수 있음 + **상관관계 ≠ 인과관계**: 두 변수가 함께 변한다고 해서 하나가 다른 하나를 야기하는 것은 아님 --- # 상관관계 ## 상관계수 시각화 <img src="07-slides_files/figure-html/unnamed-chunk-8-1.png" style="display: block; margin: auto;" /> 상관계수의 크기와 부호에 따른 산점도 패턴 --- # 군집화(Clustering) --- # 군집화 ## k-평균 알고리즘(k-means Algorithm) 데이터 내에서 유사한 관측치들의 집단(cluster)을 발견하는 **비지도학습(unsupervised learning)** 기법 -- **알고리즘 절차**: 1. `\(k\)` 개 군집의 초기 중심점(centroid)을 선택 2. 각 관측치를 가장 가까운 중심점의 군집에 할당 (유클리드 거리 기준) 3. 각 군집의 중심점을 군집 내 평균으로 갱신 4. 군집 할당이 변하지 않을 때까지 2~3단계를 반복 -- **응용**: 미국 의회 의원들의 이데올로기적 군집 발견 (예: DW-NOMINATE 점수를 이용한 정당 분극화 분석) --- # 측정의 타당성과 신뢰성 --- # 측정의 타당성과 신뢰성 ## 측정 타당성(Measurement Validity) **측정 타당성**: 측정 도구가 측정하고자 하는 개념을 **정확하게** 측정하고 있는 정도 -- <table class=" lightable-classic" style='font-size: 24px; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:left;"> 타당성 유형 </th> <th style="text-align:left;"> 설명 </th> <th style="text-align:left;"> 예시 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 기준 타당성(Criterion Validity) </td> <td style="text-align:left;"> 다른 확립된 지표와 비교하여 수렴하는 정도 </td> <td style="text-align:left;"> 새로운 민주주의 지수가 Polity IV와 높은 상관을 보이는지 </td> </tr> <tr> <td style="text-align:left;"> 내용 타당성(Content Validity) </td> <td style="text-align:left;"> 개념의 모든 측면을 빠짐없이 포괄하는 정도 </td> <td style="text-align:left;"> '민주주의' 측정이 선거, 자유, 참여를 모두 포함하는지 </td> </tr> <tr> <td style="text-align:left;"> 구성 타당성(Construct Validity) </td> <td style="text-align:left;"> 이론적으로 기대되는 방식으로 다른 변수와 관련되는 정도 </td> <td style="text-align:left;"> 민주주의 점수가 높을수록 인권 보호가 강한지 </td> </tr> <tr> <td style="text-align:left;"> 액면 타당성(Face Validity) </td> <td style="text-align:left;"> 전문가의 주관적 판단에 의해 평가되는 정도 </td> <td style="text-align:left;"> 연구자가 보기에 지표가 합리적으로 보이는지 </td> </tr> </tbody> </table> --- # 측정의 타당성과 신뢰성 ## 측정 신뢰성(Reliability) **측정 신뢰성**: 동일한 대상을 반복 측정했을 때 **일관된 결과**를 얻는 정도 -- + **과녁 비유**: 타당성은 과녁의 중심을 맞추는 것이고, 신뢰성은 화살이 모여 있는 것 + 신뢰성은 높지만 타당성이 낮을 수 있음 (항상 같은 곳을 맞히지만 중심이 아닌 경우) -- <img src="07-slides_files/figure-html/unnamed-chunk-10-1.png" style="display: block; margin: auto;" /> --- # 측정의 타당성과 신뢰성 ## 타당성이 위협받는 경우: 개념 확장(Concept Stretching) 측정 도구를 원래 설계 목적과 다른 맥락에 적용할 때 타당성이 훼손될 수 있음 -- **예시: "민주주의"의 측정** + Polity IV 점수는 원래 정치체제의 제도적 특성을 포착하기 위해 설계되었음 + 그러나 이를 경제 발전, 내전, 무역 등 다양한 연구에서 "민주주의"의 대리 변수로 무분별하게 사용하면, 각 연구에서 "민주주의"가 의미하는 바가 달라짐 + 이는 Sartori(1970)가 경고한 **개념 확장(concept stretching)** 의 측정 차원 문제 -- 서로 다른 데이터셋이 동일한 개념을 측정하는 것처럼 보이지만, 실제로는 **다른 것을 측정**하고 있을 수 있음 (Wilson 2014) --- # 데이터의 유형 --- # 데이터의 유형 ## 횡단면, 시계열, 패널 데이터 <table class=" lightable-classic" style='font-size: 15px; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:left;"> 데이터 유형 </th> <th style="text-align:left;"> 구조 </th> <th style="text-align:left;"> 예시 </th> <th style="text-align:left;"> 장점 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 횡단면(Cross-Sectional) </td> <td style="text-align:left;"> 여러 단위, 한 시점 </td> <td style="text-align:left;"> 2024년 OECD 38개국의 GDP </td> <td style="text-align:left;"> 단위 간 비교 가능 </td> </tr> <tr> <td style="text-align:left;"> 시계열(Time-Series) </td> <td style="text-align:left;"> 한 단위, 여러 시점 </td> <td style="text-align:left;"> 한국의 1960~2024년 연간 GDP </td> <td style="text-align:left;"> 시간에 따른 변화 추적 </td> </tr> <tr> <td style="text-align:left;"> 패널(Panel/TSCS) </td> <td style="text-align:left;"> 여러 단위, 여러 시점 </td> <td style="text-align:left;"> OECD 38개국 × 1960~2024년 GDP </td> <td style="text-align:left;"> 단위 간 + 시간에 따른 변화 모두 분석 가능 </td> </tr> </tbody> </table> -- 패널 데이터는 횡단면과 시계열의 장점을 결합하여, **단위 고유 효과**와 **시간 추세**를 동시에 통제할 수 있음 --- # 데이터의 유형 ## 변수의 유형: 독립변수, 종속변수, 통제변수 <table class=" lightable-classic" style='font-size: 16px; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:left;"> 변수 유형 </th> <th style="text-align:left;"> 역할 </th> <th style="text-align:left;"> 예시 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 독립변수(Independent Variable) </td> <td style="text-align:left;"> 원인으로 추정되는 변수 (X) </td> <td style="text-align:left;"> 경제성장률, 교육 수준, 정치체제 </td> </tr> <tr> <td style="text-align:left;"> 종속변수(Dependent Variable) </td> <td style="text-align:left;"> 결과로 추정되는 변수 (Y) </td> <td style="text-align:left;"> 투표율, 내전 발생, 정책 만족도 </td> </tr> <tr> <td style="text-align:left;"> 통제변수(Control Variable) </td> <td style="text-align:left;"> X→Y 관계를 왜곡할 수 있는 제3의 변수 </td> <td style="text-align:left;"> 인구, 민족다양성, 지리적 조건 </td> </tr> </tbody> </table> -- + 통제변수는 **교란변수(confounder)** 의 영향을 제거하기 위해 모형에 포함함 + 어떤 변수를 통제할지는 **이론적 판단**에 근거해야 하며, 무분별한 투입은 오히려 편향을 야기할 수 있음 --- # 데이터의 유형 ## 이산형 vs. 연속형 데이터의 선택 정치학에서 동일한 개념을 **이산형(discrete)**으로 측정할지 **연속형(continuous)**으로 측정할지는 중요한 방법론적 선택임 -- **예시: 정치체제의 측정** + **이산형**: 민주주의/권위주의 (0 또는 1) `\(\rightarrow\)` 명확한 분류가 가능하지만, 체제 내 변이를 놓침 + **연속형**: Polity IV (-10~+10), V-Dem 지수 (0~1) `\(\rightarrow\)` 미세한 차이를 포착하지만, 경계가 모호함 -- 어떤 측정 방식을 선택하느냐에 따라 **분석 결과가 달라질 수 있으며**, 이는 이론적 정당화가 필요함 (Wilson 2014) --- # 측정의 실제: 정치학 사례 --- # 측정의 실제 ## 사례 1: 민주주의의 다양한 측정 <table class=" lightable-classic" style='font-size: 14px; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:left;"> 데이터셋 </th> <th style="text-align:left;"> 측정 수준 </th> <th style="text-align:left;"> 핵심기준 </th> <th style="text-align:left;"> 시간 범위 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Polity IV/V </td> <td style="text-align:left;"> 연속 (-10~+10) </td> <td style="text-align:left;"> 행정부 충원, 정치적 경쟁, 제약 </td> <td style="text-align:left;"> 1800~현재 </td> </tr> <tr> <td style="text-align:left;"> Freedom House </td> <td style="text-align:left;"> 연속 (1~7, 역코딩) </td> <td style="text-align:left;"> 정치적 권리, 시민적 자유 </td> <td style="text-align:left;"> 1972~현재 </td> </tr> <tr> <td style="text-align:left;"> V-Dem (Electoral) </td> <td style="text-align:left;"> 연속 (0~1) </td> <td style="text-align:left;"> 선거의 질, 자유, 공정성 </td> <td style="text-align:left;"> 1789~현재 </td> </tr> <tr> <td style="text-align:left;"> Cheibub et al. (DD) </td> <td style="text-align:left;"> 이산 (0/1) </td> <td style="text-align:left;"> 선거적 경쟁, 정권 교체 여부 </td> <td style="text-align:left;"> 1946~2008 </td> </tr> <tr> <td style="text-align:left;"> LIED </td> <td style="text-align:left;"> 이산 (0~6) </td> <td style="text-align:left;"> 선거, 다당제, 보통선거권 </td> <td style="text-align:left;"> 1789~2015 </td> </tr> </tbody> </table> -- 동일한 국가-연도에 대해 이 데이터셋들이 **서로 다른 분류**를 할 수 있으며, 이는 연구 결과에 직접적 영향을 미침 --- # 측정의 실제 ## 사례 2: 내전(Civil War)의 측정 "내전"이라는 개념도 데이터셋에 따라 다르게 정의됨 -- + **UCDP/PRIO**: 정부와 반군 간 연간 25명 이상 전투 사망자 `\(\rightarrow\)` 낮은 기준 + **Correlates of War (COW)**: 연간 1,000명 이상 전투 사망자 `\(\rightarrow\)` 높은 기준 -- 동일한 분쟁이 한 데이터셋에서는 "내전"으로, 다른 데이터셋에서는 "내전이 아닌 것"으로 분류될 수 있음 `\(\rightarrow\)` "권위주의 체제가 내전에 취약한가?"라는 질문의 답이 **측정 도구 선택에 따라 달라짐** --- class: inverse, center, middle # 📖 연구 사례 분석 ## Wilson (2014) ### "A Discreet Critique of Discrete Regime Type Data" ### *Comparative Political Studies* 47(5): 689–714. --- # 사례 분석: Wilson (2014) ## 논문 소개 **연구질문**: 이산형 체제유형 데이터(discrete regime type data)의 한계는 무엇이며, 이를 혼용하면 어떤 문제가 발생하는가? -- **검토 대상 데이터셋 3종**: + Cheibub, Gandhi, and Vreeland (2010): 민주주의/민간독재/군사독재/군주제 + Hadenius and Teorell (2007): 민주주의/일당/다당/군사/군주/기타 + Geddes (2003), Wright (2008): 정당/군사/개인/혼합 -- 세 데이터셋은 **비슷해 보이지만 근본적으로 다른 것을 측정**하고 있으며, 이를 상호 대체적으로 사용하면 **측정 타당성(measurement validity)**이 위협받음 --- # 사례 분석: Wilson (2014) ## 핵심 논증: 두 가지 타당성 위협 **1. 기준 타당성(Criterion Validity) 위협** + 동일한 국가-연도에 대해 세 데이터셋이 **서로 다른 분류**를 부여함 + 니카라과(1946~1996): Cheibub et al.은 군사→민간→군사 교체로, Geddes는 전 기간 개인주의 체제로, Hadenius & Teorell은 제한적 다당제로 분류 -- **2. 내용 타당성(Content Validity) 위협** + 콜롬비아(1958~1974) 국민전선(National Front): 양당 교대 집권이라는 독특한 구조가 "민주주의"로 분류되었으나, 실제로는 제3정당 배제와 경쟁 제한이 존재함 + 브라질(1964~1989): 군사 독재 기간 내 5개 제도법(Institutional Acts)에 의한 극적인 제도 변화가 이산형 데이터에 **전혀 반영되지 않음** --- # 사례 분석: Wilson (2014) ## 니카라과 사례: 동일 국가, 상이한 분류 <table class=" lightable-classic" style='font-size: 15px; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:center;"> 시기 </th> <th style="text-align:center;"> Cheibub et al. </th> <th style="text-align:center;"> Geddes </th> <th style="text-align:center;"> Hadenius & Teorell </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> 1946~1956 </td> <td style="text-align:center;"> 군사 </td> <td style="text-align:center;"> 개인주의 </td> <td style="text-align:center;"> —(시작 전) </td> </tr> <tr> <td style="text-align:center;"> 1956~1967 </td> <td style="text-align:center;"> 민간 </td> <td style="text-align:center;"> 개인주의 </td> <td style="text-align:center;"> —(시작 전) </td> </tr> <tr> <td style="text-align:center;"> 1967~1979 </td> <td style="text-align:center;"> 군사 </td> <td style="text-align:center;"> 개인주의 </td> <td style="text-align:center;"> 제한적 다당제 </td> </tr> <tr> <td style="text-align:center;"> 1979~1984 </td> <td style="text-align:center;"> 민간 </td> <td style="text-align:center;"> 일당 </td> <td style="text-align:center;"> 반군 체제(군사) </td> </tr> <tr> <td style="text-align:center;"> 1984~1990 </td> <td style="text-align:center;"> 민주주의 </td> <td style="text-align:center;"> —(종료) </td> <td style="text-align:center;"> 일당 </td> </tr> </tbody> </table> -- 소모사 가문의 44년 독재를 Cheibub et al.은 **지도자의 직업 배경**(군인/민간인)으로, Geddes는 **권력 집중의 성격**(개인주의)으로, Hadenius & Teorell은 **정당 구조**(다당제 여부)로 분류함 `\(\rightarrow\)` 동일한 현실을 **서로 다른 이론적 렌즈**로 포착한 결과 --- # 사례 분석: Wilson (2014) ## 실증적 함의: 내전 발생 모형의 결과 차이 Wilson은 Fjelde(2010)의 내전 발생(civil conflict onset) 모형을 세 데이터셋으로 각각 추정함 -- <table class=" lightable-classic" style='font-size: 14px; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;border-bottom: 0;'> <thead> <tr> <th style="text-align:center;"> 독립변수 </th> <th style="text-align:center;"> Hadenius & Teorell </th> <th style="text-align:center;"> Wright/Geddes </th> <th style="text-align:center;"> Cheibub et al. </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> 군사 체제 </td> <td style="text-align:center;"> 비유의 (0.443) </td> <td style="text-align:center;"> 비유의 (0.776) </td> <td style="text-align:center;"> 비유의 (0.014) </td> </tr> <tr> <td style="text-align:center;"> 군주제 </td> <td style="text-align:center;"> 비유의 (0.287) </td> <td style="text-align:center;"> —(생략) </td> <td style="text-align:center;"> 비유의 (-0.290) </td> </tr> <tr> <td style="text-align:center;"> 다당제/개인주의/혼합 </td> <td style="text-align:center;"> 유의** (1.008) </td> <td style="text-align:center;"> 유의* (0.671/0.649) </td> <td style="text-align:center;"> — </td> </tr> <tr> <td style="text-align:center;"> 민주주의 </td> <td style="text-align:center;"> 유의* (0.559) </td> <td style="text-align:center;"> 비유의 (-0.027) </td> <td style="text-align:center;"> 비유의 (-0.015) </td> </tr> </tbody> <tfoot> <tr><td style="padding: 0; " colspan="100%"><span style="font-style: italic;">Note: </span></td></tr> <tr><td style="padding: 0; " colspan="100%"> <sup></sup> 기준 범주: 일당/정당 체제. 계수는 로짓 로그오즈비. *p<0.10, **p<0.05</td></tr> </tfoot> </table> -- **동일한 이론, 동일한 종속변수, 동일한 통제변수**를 사용했음에도, 데이터셋 선택에 따라 **결론이 완전히 달라짐** --- # 사례 분석: Wilson (2014) ## 브라질 사례: 이산형 데이터가 놓치는 변화 브라질 군사 독재(1964~1989) 기간 중 5개의 제도법(Institutional Acts)이 발표되었음 -- + 제1제도법(1964): 행정부 권한 확대 + 제2제도법(1965): 정당 폐지, 주지사 직선제 폐지 + 제5제도법(1968): 의회 해산, 헌법 정지, 검열 도입 `\(\rightarrow\)` 억압의 정점 + 1974년 Geisel 장군의 점진적 민주화(decompression) 시작 -- 그러나 세 데이터셋 모두 이 기간을 일관되게 **"군사 독재"**로만 분류함 `\(\rightarrow\)` Polity IV는 1974년 변화를 반영하지만, 이산형 체제유형 데이터는 이러한 **제도적 변이를 포착하지 못함** --- # 사례 분석: Wilson (2014) ## Wilson의 해결책: 실용적 제언 1. 데이터셋이 **어떤 연구질문을 위해 만들어졌는지** 반드시 파악할 것 2. 편의상 데이터셋을 선택하는 **개념 확장(concept stretching)** 을 피할 것 3. 체제유형 변수 자체보다, 그것을 구성하는 **개별 제도적 요소**(의회, 정당, 선거 등)를 직접 분석하는 것을 고려할 것 4. **의회(legislature) 변수를 추가**하면 체제유형 간 구분이 더 선명해짐 -- 핵심 메시지: 측정 문제는 단순한 코딩 오류가 아니라, **연구자의 개념 형성(concept formation)** 과 **적절한 데이터 선택**의 문제임 --- class: inverse, center, middle # 🧩 연구 사례 퀴즈 --- # 퀴즈 1: Wilson (2014)의 핵심 논점 **Q1. Wilson(2014)이 Cheibub et al., Hadenius & Teorell, Geddes의 세 데이터셋을 비교하면서 발견한 핵심 문제는 무엇인가? 이를 "기준 타당성"과 "내용 타당성"의 관점에서 설명하시오.** -- **A1.** + **기준 타당성 문제**: 세 데이터셋이 동일한 국가-연도에 대해 서로 다른 체제유형을 부여함(니카라과 사례). 데이터셋 간 **수렴(convergence)**이 부족하여, 이들을 상호 대체적으로 사용하면 분석 결과가 달라짐. + **내용 타당성 문제**: 콜롬비아의 국민전선 시기처럼 분류 규칙이 현실의 복잡성을 포착하지 못하는 경우(이상치 문제)와, 브라질처럼 중요한 제도적 변화가 데이터에 반영되지 않는 경우(변이 누락 문제)가 존재함. --- # 퀴즈 2: 측정 수준과 데이터 선택 **Q2. 한 연구자가 "권위주의 체제가 내전에 취약한가?"를 연구한다고 하자. 이 연구자가 (a) Cheibub et al.의 이산형 데이터와 (b) Polity IV의 연속형 데이터를 각각 사용할 때, 어떤 장단점이 있는가?** -- **A2.** **(a) Cheibub et al. (이산형)**: 체제유형을 명확히 분류하여 군사/민간/군주제 간 비교가 용이하지만, 동일 범주 내의 이질성(예: 브라질 군사 독재 초기 vs. 후기)을 포착하지 못함. 또한 분류 경계가 모호한 사례에서 **이상치(outlier)** 문제가 발생할 수 있음. **(b) Polity IV (연속형)**: 체제 내 미세한 변화(예: 1974년 브라질의 점진적 개방)를 포착할 수 있지만, "권위주의"의 경계를 어디에 설정할지(예: -6 이하? -3 이하?) 연구자의 **자의적 판단**이 개입됨. 또한 점수의 1점 차이가 실질적으로 무엇을 의미하는지 불분명할 수 있음. --- # 퀴즈 3: 측정과 연구설계의 연결 **Q3. Wilson(2014)은 Fjelde(2010)의 내전 모형에 "의회(legislature)" 변수를 추가했을 때, 군사 체제 변수가 통계적으로 유의해졌다고 보고하였다. 이 결과가 "측정"의 관점에서 시사하는 바는 무엇인가?** -- **A3.** 이 결과는 체제유형이라는 **거시적 분류**만으로는 이론이 주목하는 **구체적 제도적 메커니즘**(예: 의회를 통한 포섭/회유)을 포착하기 어렵다는 것을 시사함. 의회 변수 추가 후 군사 체제가 유의해진 것은, 기존의 체제유형 변수가 의회의 유무를 적절히 반영하지 못해 생긴 **측정의 내용 타당성 부족**을 보여줌. 따라서 이론이 특정 제도(의회, 정당, 선거)에 대한 가설을 제시한다면, 그 제도를 **직접 측정하는 변수**를 사용하는 것이 거시적 체제유형 분류보다 더 적절함. --- # 측정 요약 --- # 요약 ## 핵심 수식 정리 **평균**: `\(\bar{x} = \frac{1}{N}\sum_{i=1}^{N} x_i\)` **분산**: `\(s^2 = \frac{1}{N-1}\sum_{i=1}^{N}(x_i - \bar{x})^2\)` **표준편차**: `\(s = \sqrt{s^2}\)` **Z-점수**: `\(Z = \frac{x_i - \bar{x}}{s}\)` **공분산**: `\(\text{Cov}(x,y) = \frac{1}{N-1}\sum_{i=1}^{N}(x_i-\bar{x})(y_i-\bar{y})\)` **상관계수**: `\(r_{xy} = \frac{\text{Cov}(x,y)}{s_x \cdot s_y}\)` --- # 요약 ## 핵심 교훈 **1. 측정은 이론적 판단의 과정** + 동일한 개념이라도 조작화 방식에 따라 분석 결과가 달라질 수 있음 -- **2. 표본의 대표성이 표본 크기보다 중요** + 편향된 대규모 표본보다 대표성 있는 소규모 표본이 더 정확함 -- **3. 기술통계는 데이터 분석의 출발점** + 평균, 중앙값, 표준편차, 상관계수를 통해 데이터의 기본 특성을 파악해야 함 -- **4. 상관관계는 인과관계가 아님** + 두 변수의 공변 패턴은 인과적 해석과 별개임 --- class: center, middle background-image: url("knu_wide.png") background-size: 300px background-position: 11% 15% # 감사합니다! ## 궁금한 것이 있으면 언제든 연락하세요. 강사 연락처 | 연락처 | 박상훈 | | :-----------------------------------------------: | :--------------------------------------------------: | | <svg viewBox="0 0 512 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg"> <path d="M440 6.5L24 246.4c-34.4 19.9-31.1 70.8 5.7 85.9L144 379.6V464c0 46.4 59.2 65.5 86.6 28.6l43.8-59.1 111.9 46.2c5.9 2.4 12.1 3.6 18.3 3.6 8.2 0 16.3-2.1 23.6-6.2 12.8-7.2 21.6-20 23.9-34.5l59.4-387.2c6.1-40.1-36.9-68.8-71.5-48.9zM192 464v-64.6l36.6 15.1L192 464zm212.6-28.7l-153.8-63.5L391 169.5c10.7-15.5-9.5-33.5-23.7-21.2L155.8 332.6 48 288 464 48l-59.4 387.3z"></path></svg> | [sh.park.poli@gmail.com](sh.park.poli@gmail.com) | | <svg viewBox="0 0 576 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg"> <path d="M528 32H48C21.5 32 0 53.5 0 80v352c0 26.5 21.5 48 48 48h480c26.5 0 48-21.5 48-48V80c0-26.5-21.5-48-48-48zm0 400H303.2c.9-4.5.8 3.6.8-22.4 0-31.8-30.1-57.6-67.2-57.6-10.8 0-18.7 8-44.8 8-26.9 0-33.4-8-44.8-8-37.1 0-67.2 25.8-67.2 57.6 0 26-.2 17.9.8 22.4H48V144h480v288zm-168-80h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm0-64h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm0-64h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm-168 96c35.3 0 64-28.7 64-64s-28.7-64-64-64-64 28.7-64 64 28.7 64 64 64z"></path></svg> | [sanghoon-park.com/](https://www.sanghoon-park.com/) | | <svg viewBox="0 0 448 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg"> <path d="M128 148v-40c0-6.6 5.4-12 12-12h40c6.6 0 12 5.4 12 12v40c0 6.6-5.4 12-12 12h-40c-6.6 0-12-5.4-12-12zm140 12h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm-128 96h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm128 0h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm-76 84v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12h40c6.6 0 12-5.4 12-12zm76 12h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm180 124v36H0v-36c0-6.6 5.4-12 12-12h19.5V24c0-13.3 10.7-24 24-24h337c13.3 0 24 10.7 24 24v440H436c6.6 0 12 5.4 12 12zM79.5 463H192v-67c0-6.6 5.4-12 12-12h40c6.6 0 12 5.4 12 12v67h112.5V49L80 48l-.5 415z"></path></svg> | 영상바이오관 405 |