11. 불확실성

class: center, middle, inverse, title-slide

.title[
# 11. 불확실성
]
.subtitle[
## 정치와데이터분석
]
.author[
### 박상훈 (<a href="mailto:sh.park.poli@gmail.com" class="email">sh.park.poli@gmail.com</a>)
]
.date[
### 강원대학교
]

---

---
# 불확실성
## 지난 시간 복습

지난 주차에서 배운 것:

+ 확률변수, 확률분포(PMF/PDF/CDF), 기대값, 분산

+ CLT: 표본 평균의 분포는 정규분포에 근사

+ `$\hat{\beta}$`도 확률변수이며, 표집분포를 가짐

오늘의 질문: 이 도구들을 이용하여 **"이 추정치를 얼마나 신뢰할 수 있는가?"**에 답하는 방법

---
# 불확실성
## 모수와 통계량

**모수(Parameter, `$\theta$`)**: 모집단의 특성을 나타내는 **고정된 미지의 값**

+ 예: 전체 유권자 중 A후보 지지율 `$p$`, 모집단 평균 `$\mu$`

**통계량(Statistic, `$\hat{\theta}$`)**: 표본 데이터로부터 계산된 **추정치**

+ 예: 1,000명 조사 후 계산한 표본 지지율 `$\hat{p}$`, 표본 평균 `$\bar{X}$`

**추정 오차**: `$\hat{\theta} - \theta$`. 문제는 `$\theta$`를 모르므로 이 오차를 직접 계산할 수 없음

`$\rightarrow$` 대신 "**가상적 반복**"을 통해 추정량의 성질을 평가함

---
# 불확실성
## 표기법 정리: 모수 vs. 통계량

<table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'>
 <thead>
  <tr>
   <th style="text-align:left;">   </th>
   <th style="text-align:left;"> 모수(Parameter) </th>
   <th style="text-align:left;"> 통계량(Statistic) </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;"> 기호 </td>
   <td style="text-align:left;"> θ, μ, p, β </td>
   <td style="text-align:left;"> θ̂, X̄, p̂, β̂ </td>
  </tr>
  <tr>
   <td style="text-align:left;"> 의미 </td>
   <td style="text-align:left;"> 모집단의 진정한 값 </td>
   <td style="text-align:left;"> 표본에서 계산한 추정치 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> 성격 </td>
   <td style="text-align:left;"> 고정 (미지) </td>
   <td style="text-align:left;"> 표본마다 변함 (확률변수) </td>
  </tr>
  <tr>
   <td style="text-align:left;"> 예시 </td>
   <td style="text-align:left;"> 전체 유권자의 A후보 지지율 </td>
   <td style="text-align:left;"> 1,000명 조사 후 계산한 지지율 </td>
  </tr>
</tbody>
</table>

표본통계량을 알파벳, 모수는 그리스 알파벳으로 표기하기도 함.

핵심: 우리가 **관찰하는 것**은 통계량이고, **알고 싶은 것**은 모수

---
# 불확실성
## 추정의 비유

+ **모수 `$\theta$`** = 항아리 안의 구슬 비율 (전체를 볼 수 없음)

+ **통계량 `$\hat{\theta}$`** = 항아리에서 한 줌 꺼내서 센 비율 (표본마다 다름)

+ **추정 오차** = `$\hat{\theta} - \theta$` (한 줌의 비율 `$-$` 전체 비율)

문제: `$\theta$`를 모르므로 오차를 직접 측정할 수 없음

`$\rightarrow$` 대신 "이 한 줌 꺼내기를 **무한히 반복**하면 평균적으로 어떤 결과가 나오는가?"를 이론적으로 분석

---
# 불확실성
## 불편성(Unbiasedness): "평균적으로 맞히는가?"

**불편 추정량**: 통칭 **BLUE**, **B**est **L**inear **U**nbiased **E**stimator. 반복 표본추출 시 추정치의 평균이 참값과 일치

`$$E(\hat{\theta}) = \theta$$`

**표본 평균은 불편 추정량**

`$$E(\bar{X}_n) = E\left(\frac{1}{n}\sum_{i=1}^n X_i\right) \stackrel{\text{선형성}}{=} \frac{1}{n}\sum_{i=1}^n E(X_i) = \frac{1}{n} \cdot n \cdot \mu = \mu$$`

동일한 여론조사를 무한히 반복하면, 표본 지지율들의 **평균**은 정확히 모집단 지지율과 일치함. 개별 조사는 틀릴 수 있지만, **평균적으로는 정확**함

---
# 불확실성
## 일치성(Consistency): "많이 모으면 정확해지는가?"

**일치 추정량**: `$n \to \infty$`이면 `$\hat{\theta} \to \theta$`에 수렴

+ 대수의 법칙(LLN)이 이를 보장함

---
# 불확실성
## 표집분포(Sampling Distribution)

**같은 조사를 무한히 반복**했을 때, 통계량( `$\bar{X}$`, `$\hat{\beta}$`)이 따르는 **가상적 분포**

원래 분포(왼쪽)는 **균등**하지만, 표본평균의 분포(오른쪽)는 **종 모양** (CLT의 힘!)

---
# 불확실성
## 표집분포를 이해하는 사고실험

여론조사 회사 3곳이 **같은 날** 같은 모집단에서 각 1,000명을 조사한다고 상상

+ A 조사: `$\hat{p} = 0.43$`, B 조사: `$\hat{p} = 0.45$`, C 조사: `$\hat{p} = 0.44$`

+ 세 결과가 다른 이유: 각 회사가 뽑은 1,000명이 **다른 사람들**이므로 (표집변동)

이런 조사를 **무한히 반복**하면, `$\hat{p}$`들의 분포가 만들어짐 `$\rightarrow$` 이것이 **표집분포**

그리고 이 분포의 **표준편차**가 바로 **표준오차(SE)**

---
# 불확실성
## 표준오차(Standard Error): 표집분포의 폭

**SE = 표집분포의 표준편차**. 추정치가 참값 주위로 **얼마나 흩어지는지**를 나타냄

**유도**: `$V(\bar{X}) = V\left(\frac{1}{n}\sum X_i\right) = \frac{1}{n^2}\sum V(X_i) = \frac{V(X)}{n}$`

`$$\therefore SE(\bar{X}) = \sqrt{\frac{V(X)}{n}} = \frac{\sigma}{\sqrt{n}}$$`

핵심: `$SE \propto 1/\sqrt{n}$`. 표본을 **4배** 늘리면 SE는 **절반**으로 줄어듦

---
# 불확실성
## SE 유도: 왜 `$\sigma / \sqrt{n}$`인가?

**1단계**: `$V(\bar{X}) = V\left(\frac{1}{n}\sum X_i\right)$`

**2단계**: `$\frac{1}{n}$`은 상수 `$\rightarrow$` 밖으로 빼면 제곱: `$= \frac{1}{n^2}V\left(\sum X_i\right)$`

**3단계**: `$X_i$`들이 독립 `$\rightarrow$` 분산의 합 = 합의 분산: `$= \frac{1}{n^2}\sum V(X_i) = \frac{1}{n^2} \cdot n \cdot V(X)$`

**4단계**: `$= \frac{V(X)}{n}$`. 제곱근: `$SE = \sqrt{\frac{V(X)}{n}} = \frac{\sigma}{\sqrt{n}}$`

`$\rightarrow$` 확률 II에서 배운 **분산의 연산 규칙**이 SE 공식의 수학적 근거!

---
# 불확실성
## 비율의 SE: 여론조사 응용

`$X_i \sim \text{Bernoulli}(p)$`이면 `$V(X_i) = p(1-p)$`이므로:

`$$SE(\hat{p}) = \sqrt{\frac{p(1-p)}{n}} \approx \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$$`

+ `$p$`를 모르므로 `$\hat{p}$`로 대체 (plug-in estimator)

+ `$p = 0.5$`일 때 SE가 **최대**: 지지율이 50:50에 가까울수록 조사가 **불확실**

---
# 불확실성
## 비율의 SE: 여론조사 응용

---
# 불확실성
## SE 공식 모음

---
# 불확실성
## SE와 표본 크기의 관계

`$n$`이 커질수록 표집분포가 **좁아짐** `$\rightarrow$` 추정의 정밀도 향상

---
# 불확실성
## 신뢰구간의 개념

점추정치 **하나**만으로는 불확실성을 전달할 수 없음

+ 점추정: **작살**로 물고기 잡기 `$\rightarrow$` 정확히 맞힐 가능성 낮음

+ 신뢰구간: **그물**로 물고기 잡기 `$\rightarrow$` 포획 가능성 높음

`$$(1-\alpha) \times 100\% \text{ CI} = \left[\hat{\theta} - z_{\alpha/2} \times SE, \quad \hat{\theta} + z_{\alpha/2} \times SE\right]$$`

---
# 불확실성
## 주요 신뢰수준과 임계값

신뢰수준이 높아질수록 구간이 **넓어짐** `$\rightarrow$` 정밀도와 신뢰도의 상충

---
# 불확실성
## 신뢰구간의 너비: 정밀도와 신뢰도의 상충

더 넓은 그물로 물고기를 잡으면 포획 가능성은 높아지지만, "어디에 물고기가 있는지"를 정확히 알 수 없게 됨

**CI를 좁히는 방법**:

+ `$n$`을 늘리면 `$SE$`가 줄어들어 CI가 좁아짐 (가장 효과적)

+ 그러나 신뢰수준을 낮추면(예: 99% → 90%) `$z_{\alpha/2}$`가 줄어 CI가 좁아지지만, 참값을 놓칠 위험 증가

95% CI를 기본으로 사용하고, 표본 크기를 충분히 확보하여 정밀도를 높이는 것이 바람직

---
# 불확실성
## CI 예시 1: ABC/WP 여론조사

2016년 ABC/WP 여론조사 (`$n = 2{,}200$`, `$\hat{p} = 0.43$`):

`$$SE = \sqrt{\frac{0.43 \times 0.57}{2200}} \approx 0.011$$`

`$$90\% \text{ CI} = [0.43 \pm 1.64 \times 0.011] = [0.412, 0.448]$$`

`$$95\% \text{ CI} = [0.43 \pm 1.96 \times 0.011] = [0.409, 0.451]$$`

`$$99\% \text{ CI} = [0.43 \pm 2.58 \times 0.011] = [0.402, 0.458]$$`

---
# 불확실성
## CI 예시 2: STAR 프로젝트 (처치효과)

소규모 학급 vs. 일반 학급의 4학년 읽기 점수 비교:

`$$\widehat{ATE} = 723.39 - 719.89 = 3.50, \quad SE = \sqrt{1.91^2 + 1.84^2} = 2.65$$`

`$$95\% \text{ CI} = [3.50 \pm 1.96 \times 2.65] = [-1.69, 8.69]$$`

95% CI가 **0을 포함** `$\rightarrow$` 효과가 통계적으로 유의하다고 말하기 어려움

`$\rightarrow$` 이 논리가 곧 **가설검정**의 핵심!

---
# 불확실성
## 신뢰구간의 올바른 해석

> **올바른**: "동일한 방법으로 반복 추출하면, 이렇게 구성한 구간의 **95%가 참값을 포함**할 것" [O]

> **잘못된**: "참값이 이 구간에 있을 **확률**이 95%이다" [X]

+ 참값 `$\theta$`는 **고정된 상수**이고, 신뢰구간이 **확률적(random)**

+ 특정 구간이 참값을 포함하는지 여부는 **0 또는 1**이지, 95%가 아님

---
# 불확실성
## 100개의 95% 신뢰구간

---
# 불확실성
## 오차범위와 표본 크기 결정

**오차범위(MoE)** = 95% CI의 반폭: `$MoE \approx 1.96 \times SE$`

**표본 크기 결정** (보수적으로 `$p = 0.5$` 가정):

`$$n \approx \frac{1.96^2 \times 0.25}{MoE^2} \approx \frac{1}{MoE^2}$$`

---
# 불확실성
## 가설검정의 논리: 재판 비유

가설검정은 **형사재판**과 같은 구조를 따름

+ **영가설( `$H_0$` )**: 피고인은 **무죄** (현상유지). "효과가 없다"

+ **대안가설( `$H_A$` )**: 피고인은 **유죄** (연구가설). "효과가 있다"

+ **입증 책임**: 검찰(연구자)에게 있음

**판결 과정**: " `$H_0$`(무죄)가 참이라면, 이런 증거(데이터)가 나타날 가능성이 극히 낮다"

`$\rightarrow$` 유죄(기각). 가능성이 충분하면 `$\rightarrow$` "무죄(기각 실패)". **단, "무죄 확정"이 아닌 "유죄 입증 실패"**

---
# 불확실성
## 가설검정의 5단계

1. `$H_0$`와 `$H_A$` 설정

2. 검정통계량과 유의수준( `$\alpha$` ) 선택

3. `$H_0$`가 참일 때의 참조분포(reference distribution) 도출

4. **p-값** 계산

5. 판정: `$p \le \alpha$`이면 `$H_0$` 기각, `$p > \alpha$`이면 `$H_0$` 유지

---
# 불확실성
## 검정통계량: "몇 표준오차 떨어져 있는가"

`$$Z = \frac{\text{점추정치} - \text{영가설의 값}}{SE}$$`

**예시**: 대학생 206명 조사 결과, 평균 9.7개 대학에 원서 (`$s = 7$`). 상담사 추천은 8개

`$$SE = \frac{7}{\sqrt{206}} = 0.49, \quad Z = \frac{9.7 - 8}{0.49} = 3.4$$`

관측된 표본 평균은 영가설의 값으로부터 **3.4 표준오차**나 떨어져 있음

이것이 "이례적"인지를 **p-값**으로 판단함

---
# 불확실성
## 가설검정 예시: 대학 원서 수 (단계별 풀이)

**1단계 가설 설정**:
+ `$H_0: \mu = 8$` (상담사 추천대로 8개)
+ `$H_A: \mu > 8$` (8개보다 더 많이 지원)

**2단계 데이터**: `$\bar{x} = 9.7$`, `$s = 7$`, `$n = 206$`

**3단계 검정통계량**: `$Z = \frac{9.7 - 8}{7/\sqrt{206}} = \frac{1.7}{0.49} = 3.4$`

**4단계 p-값**: `$P(Z > 3.4) = 0.0003$`

**5단계 판정**: `$0.0003 < 0.05$` `$\rightarrow$` `$H_0$` **기각**

"대학생들이 평균적으로 8개 이상의 원서를 낸다"는 것에 대한 **믿을만한 근거가 있음**

---
# 불확실성
## p-값이란 무엇인가

> **p-값**: `$H_0$`가 참이라고 가정했을 때, 관측된 결과 **이상으로 극단적인** 결과가 나타날 확률

`$p = 0.0003 < 0.05$` `$\rightarrow$` `$H_0$` **기각**. 평균 원서 수가 8개보다 많다는 증거가 충분함

---
# 불확실성
## p-값의 올바른 해석

> **올바른**: " `$H_0$`가 참이라면, 이 정도 극단적인 결과가 관찰될 확률이 `$p$`"

> **잘못된**: " `$H_0$`가 참일 확률이 `$p$`" ✗

> **잘못된**: " `$H_A$`가 참일 확률이 `$1-p$`" ✗

> **잘못된**: "효과의 크기가 `$p$`에 반비례" ✗

p-값은 **데이터의 극단성** 측도이지, 가설의 참/거짓 확률이 **아님**

---
# 불확실성
## p-값에 대한 흔한 오해

**오해 1**: "p = 0.03이면 `$H_0$`가 참일 확률이 3%"

`$\rightarrow$` 틀림. `$H_0$`는 참이거나 거짓(0 또는 1). p-값은 "**$H_0$가 참이라면** 이 데이터가 나타날 확률"

**오해 2**: "p < 0.05이면 효과가 크다"

`$\rightarrow$` 틀림. p-값은 효과의 **크기**가 아니라 **증거의 강도**를 나타냄. `$n$`이 매우 크면 작은 효과도 유의해짐

**오해 3**: "p > 0.05이면 효과가 없다"

`$\rightarrow$` 틀림. 효과가 **없다는 증거가 아니라**, 있다는 증거가 **부족**한 것. "부재의 증거 ≠ 증거의 부재"

---
# 불확실성
## p-값 시각화: 양측 검정

---
# 불확실성
## 양측 vs. 단측 검정

단측은 한쪽 꼬리만, 양측은 양쪽 꼬리 면적 합. 양측 p-값 = 단측 × 2

---
# 불확실성
## 신뢰구간과 가설검정의 동치 관계

> `$95\%$` CI가 `$\theta_0$`를 **포함하지 않으면** `$\rightarrow$` `$\alpha = 0.05$`에서 `$H_0$` **기각**

> `$95\%$` CI가 `$\theta_0$`를 **포함하면** `$\rightarrow$` `$\alpha = 0.05$`에서 `$H_0$` **유지**

---
# 불확실성
## 제1종 오류와 제2종 오류

+ `$\alpha = 0.05$`: `$H_0$`가 참일 때 잘못 기각할 확률을 **5% 이하**로 통제

+ "열 명의 범인을 놓치더라도 한 명의 무고한 사람을 처벌하지 않는 것이 낫다"

---
# 불확실성
## 오류 간의 상충(Trade-off)

`$\alpha$`를 **낮추면**(더 엄격하게): 제1종 오류 ↓, 그러나 제2종 오류 ↑

`$\alpha$`를 **높이면**(더 관대하게): 제2종 오류 ↓, 그러나 제1종 오류 ↑

+ 약효를 검증하는 임상시험: 위험한 약을 승인하는 것(제1종)이 더 위험 `$\rightarrow$` `$\alpha = 0.01$` 사용

+ 암 조기검진: 암을 놓치는 것(제2종)이 더 위험 `$\rightarrow$` `$\alpha = 0.10$` 사용 가능

**표본 크기를 늘리는 것**이 두 오류를 **동시에** 줄일 수 있는 유일한 방법

---
# 불확실성
## "기각 실패"는 "영가설이 참"이 아님

재판에서 "무죄 판결" ≠ "무죄 확정". **유죄를 입증하지 못한 것**일 뿐

마찬가지로 가설검정에서:

+ `$H_0$`를 **기각하지 못했다** ≠ `$H_0$`가 **참이다**

+ 단지 `$H_A$`를 지지할 **충분한 증거가 없었을** 뿐

따라서 "영가설을 **수용(accept)**한다"라고 표현하지 않고, "**기각하지 못한다(fail to reject)**"라고 표현해야 함

---
# 불확실성
## 검정력(Power)과 표본 크기

**검정력** = `$1 - \beta$` = 실제 효과가 있을 때 이를 **탐지할 확률**

---
# 불확실성
## 회귀 모형의 가정

`$$Y_i = \beta_0 + \beta_1 X_i + \epsilon_i$$`

1. **외생성**: `$E(\epsilon_i | X_i) = 0$` `$\leftarrow$` 위배 시 **생략변수 편향(OVB)**

2. **등분산성**: `$V(\epsilon_i | X_i) = \sigma^2$` `$\leftarrow$` 위배 시 **SE 편향**

---
# 불확실성
## 회귀 계수의 표준오차

등분산성 가정 하에서:

`$$SE(\hat{\beta}_1) = \sqrt{\frac{\frac{1}{n}\sum\hat{\epsilon}_i^2}{\sum(X_i - \bar{X})^2}}$$`

+ **분자**: 잔차의 분산이 클수록 `$\rightarrow$` SE 증가 (데이터가 회귀선에서 멀리 흩어짐)

+ **분모**: `$X$`의 변동이 클수록 `$\rightarrow$` SE 감소 (`$X$`가 넓게 분포하면 기울기 추정이 정밀)

---
# 불확실성
## 회귀 계수의 신뢰구간과 t-검정

`$$95\% \text{ CI}(\beta_1) = \hat{\beta}_1 \pm t_{\alpha/2, df} \times SE(\hat{\beta}_1)$$`

`$$H_0: \beta_1 = 0, \quad t = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)}$$`

+ `$|t| > 1.96$` (대략) `$\rightarrow$` 5% 수준에서 `$H_0$` 기각

+ 95% CI가 0을 포함하지 않으면 `$\rightarrow$` 동일한 결론

---
# 불확실성
## R 출력 읽기

```
Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   14.738    2.286     6.45    2.4e-09 ***
reserved       9.252    3.948     2.34    0.020   *  
```

+ **9.252**: `$\hat{\beta}$`. 여성 할당 마을이 비할당 마을보다 식수 시설 9.252개 더 많음

+ **3.948**: `$SE(\hat{\beta})$`. 이 추정치가 반복 실험마다 약 3.948 정도 변동할 수 있음

+ **2.34**: `$t = 9.252 / 3.948$`. 0(영가설)에서 2.34 표준오차 떨어져 있음

+ **0.020**: `$p < 0.05$` `$\rightarrow$` `$H_0$` 기각. 여성 할당의 효과가 통계적으로 유의함

---
# 불확실성
## 별표 체계

---
# 불확실성
## R 출력 해석 연습: 여성 할당 실험

```
             Estimate Std. Error t value Pr(>|t|)
reserved       9.252    3.948     2.34    0.020   *
```

이 한 줄을 **완전히 해석**하면:

+ `$H_0: \beta = 0$` (여성 할당의 효과가 없다)

+ `$\hat{\beta} = 9.252$`: 할당 마을이 비할당 마을보다 식수 시설 **9.252개** 더 많음

+ `$95\%$` CI: `$9.252 \pm 1.96 \times 3.948 = [1.51, 16.99]$` `$\rightarrow$` 0을 **포함하지 않음**

+ `$t = 2.34$`, `$p = 0.020 < 0.05$` `$\rightarrow$` `$H_0$` **기각**

+ 결론: 여성 할당이 식수 시설에 **통계적으로 유의한 효과**가 있음

---
# 불확실성
## R에서 강건 SE 사용하기

```
# 통상 OLS
fit <- lm(Y ~ X, data = df)
summary(fit)

# 강건 표준오차
library(estimatr)
fit_robust <- lm_robust(Y ~ X, data = df, se_type = "HC2")
summary(fit_robust)
```

`estimatr` 패키지의 `lm_robust()` 함수를 사용하면, 이분산성에 강건한 SE를 자동으로 계산함

---
# 불확실성
## Z-검정 vs. t-검정

`$df$`가 작을수록 꼬리가 두꺼움. `$df > 30$`이면 정규분포와 거의 동일

---
# 불확실성
## 강건 표준오차(Robust SE)

등분산성 가정 위배 시 `$\rightarrow$` 통상 SE가 **편향**됨

**해결**: Huber-White **강건 표준오차(HC Estimator)** 사용

+ 점추정치는 **변하지 않고**, 표준오차만 **보정**됨

+ 강건 SE는 대개 통상 SE보다 **크므로** 더 **보수적인** 추론을 제공함

---
# 불확실성
## 생략변수 편향(Omitted Variable Bias)

`$U$`가 `$X$`와 `$Y$` 모두에 영향을 미치면 `$\hat{\beta}_1$`이 편향됨

**예시**: 교육( `$X$` ) → 소득( `$Y$` ), 능력( `$U$` ) → 교육 & 소득

+ 능력을 통제하지 않으면, `$\hat{\beta}_{\text{교육}}$`은 교육의 순수 효과 + 능력의 혼재 효과를 반영

+ `$\rightarrow$` 교육의 효과를 **과대추정** 가능

**해결책**: 무작위 실험 (가능할 때), 도구변수, 또는 적절한 통제변수 포함

---
# 불확실성
## 생략변수 편향의 시각화: DAG

`$U$`를 통제하지 않으면, `$\hat{\beta}_X$`는 `$X$`의 순수 효과 + `$U$`의 혼재 효과를 반영

---
# 불확실성
## 예측값의 신뢰구간

데이터가 풍부한 영역에서 예측이 더 정밀하고, 데이터가 부족한 영역에서 불확실성이 커짐

---
# 불확실성
## 통계적 유의성 ≠ 실질적 유의성

`$SE \propto 1/\sqrt{n}$`이므로, 표본이 **매우 크면** 극히 작은 효과도 통계적으로 유의해짐

p-값만으로 결과의 의미를 판단해서는 안 되며, **효과의 크기, 신뢰구간, 맥락**을 함께 보고해야 함

---
# 불확실성
## 불확실성 보고의 모범 사례

연구 논문에서 불확실성을 보고할 때:

1. 모든 추정치에 **SE 또는 CI**를 반드시 함께 보고

2. p-값뿐만 아니라 **효과의 크기(effect size)**를 논의

3. 통계적 유의성과 **실질적 유의성을 구분**하여 해석

4. 강건성 검증(robustness check)을 통해 결과의 안정성 확인

5. **강건 표준오차**를 기본값으로 사용하는 것을 고려

---
# 불확실성
## 표준화 계수로 효과 크기 비교하기

서로 다른 단위의 변수들의 효과를 비교하려면 **표준화**가 필요함

+ 비표준화 계수: `$X$`가 **1단위** 증가할 때 `$Y$`의 변화 (단위에 의존)

+ 표준화 계수: `$X$`가 **1 표준편차** 증가할 때 `$Y$`의 변화 (단위 독립적)

**예시**: GDP(달러)의 `$\hat{\beta}_1 = 0.0001$` vs. 교육(년수)의 `$\hat{\beta}_2 = 2.5$`

+ 비표준화 계수만으로는 비교 불가 (단위가 다름)

+ 표준화하면: GDP 효과 = 0.35, 교육 효과 = 0.28 `$\rightarrow$` GDP 효과가 더 큼

---
# 불확실성
## 본 학기 전체 연결: 불확실성이 핵심

<table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'>
 <thead>
  <tr>
   <th style="text-align:left;"> 주제 </th>
   <th style="text-align:left;"> 불확실성과의 관계 </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;"> 인과관계 (5주차) </td>
   <td style="text-align:left;"> 교란변수 → 인과효과 추정의 불확실성 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> 측정 (6주차) </td>
   <td style="text-align:left;"> 측정 오차 → 변수 값의 불확실성 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> 예측 (7-8주차) </td>
   <td style="text-align:left;"> RMSE → 예측의 불확실성 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> 확률 (9-10주차) </td>
   <td style="text-align:left;"> 확률분포 → 불확실성의 수학적 모형 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> 불확실성 (11주차) </td>
   <td style="text-align:left;"> SE, CI, p-값 → 불확실성의 정량화 </td>
  </tr>
</tbody>
</table>

좋은 연구설계는 불확실성을 **최소화**하고, 좋은 분석은 남아있는 불확실성을 **정직하게 보고**함

---
# 불확실성
## 다음 단계: 무엇을 더 배울 수 있는가

본 강좌에서 다룬 기초 위에 확장 가능한 주제들:

+ **다중 회귀**: 여러 독립변수를 동시에 포함. 교호작용항, 비선형 모형

+ **인과추론 심화**: 도구변수, 회귀단절설계, 합성통제법

+ **최대우도추정(MLE)**: 로짓/프로빗 모형 (이산 종속변수)

+ **베이지안 통계**: 사전분포 → 사후분포 갱신 (신뢰구간의 더 직관적인 해석)

---
class: center, middle

# 🧩 확인 퀴즈

---
# 불확실성
## 퀴즈 1: 신뢰구간의 해석

**Q.** "95% 신뢰구간이 [2.1, 5.3]이므로, 참값이 이 구간에 있을 확률이 95%이다." 이 해석이 올바른지 판단하고, 올바른 해석을 제시하시오.

**A.** **잘못된 해석**. 참값은 고정된 상수이므로 "확률"이 아님. 올바른 해석은 "동일한 방법으로 반복 추출하면, 이렇게 구성한 구간의 **95%가 참값을 포함**할 것"임. 특정 구간이 참값을 포함하는지 여부는 0 또는 1.

---
# 불확실성
## 퀴즈 2: 가설검정의 판정

**Q.** 처치효과 `$\hat{\beta} = 3.50$`, `$SE = 2.65$`일 때, (a) t-통계량을 계산하고 (b) 5% 수준에서 `$H_0: \beta = 0$`을 기각할 수 있는지 판단하시오.

**A.** (a) `$t = 3.50/2.65 = 1.32$`. (b) `$|t| = 1.32 < 1.96$`이므로 `$H_0$`를 **기각할 수 없음**. 처치효과가 통계적으로 유의하다는 증거가 부족함. (STAR 프로젝트 결과와 일치)

---
# 불확실성
## 퀴즈 3: 통계적 vs. 실질적 유의성

**Q.** 연구 A (`$\hat{\beta}=0.002$`, `$p=0.001$`)와 연구 B (`$\hat{\beta}=5.0$`, `$p=0.08$`) 중 어떤 결과가 더 "의미 있는가"?

**A.** 연구 A는 **통계적으로 유의**하지만 효과 크기가 0.002로 **실질적으로 무의미**할 수 있음 (대규모 표본). 연구 B는 유의하지 않지만 효과 크기가 5.0으로 **실질적으로 중요**할 수 있음 (소규모 표본, 검정력 부족). p-값만이 아니라 **효과 크기와 맥락**을 함께 고려해야 함.

---
# 불확실성
## 전체 요약: 핵심 수식

**불편성**: `$E(\hat{\theta}) = \theta$`

**SE(평균)**: `$\sigma/\sqrt{n}$` / **SE(비율)**: `$\sqrt{p(1-p)/n}$`

**CI**: `$\hat{\theta} \pm z_{\alpha/2} \times SE$`

**검정통계량**: `$Z = (\hat{\theta} - \theta_0)/SE$`

**회귀 t-검정**: `$t = \hat{\beta}/SE(\hat{\beta})$`

**MoE**: `$\approx 1.96 \times SE$` / **표본 크기**: `$n \approx 1/MoE^2$`

---
# 불확실성
## 핵심 교훈

**1.** 추정치에는 항상 **불확실성**이 수반되며, SE와 CI로 정량화해야 함

**2.** 신뢰구간은 "참값이 구간에 있을 확률"이 아니라, 반복 시 참값을 포함하는 **구간의 비율**

**3.** p-값은 `$H_0$`가 참일 때 데이터의 **극단성**을 측정하며, `$H_0$`가 참일 확률이 아님

**4.** 이분산성이 존재하면 **강건 SE**를 사용하여 추론의 타당성을 보장

**5.** **통계적 유의성 ≠ 실질적 유의성**. 효과 크기와 맥락을 함께 보고해야 함

---
class: center, middle
background-image: url("knu_wide.png")
background-size: 300px
background-position: 11% 15%

# 감사합니다!

## 궁금한 것이 있으면 언제든 연락하세요.

강사 연락처

|                   연락처                         |     박상훈                                    |
| :-----------------------------------------------: | :--------------------------------------------------: |
| <svg viewBox="0 0 512 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg">  <path d="M440 6.5L24 246.4c-34.4 19.9-31.1 70.8 5.7 85.9L144 379.6V464c0 46.4 59.2 65.5 86.6 28.6l43.8-59.1 111.9 46.2c5.9 2.4 12.1 3.6 18.3 3.6 8.2 0 16.3-2.1 23.6-6.2 12.8-7.2 21.6-20 23.9-34.5l59.4-387.2c6.1-40.1-36.9-68.8-71.5-48.9zM192 464v-64.6l36.6 15.1L192 464zm212.6-28.7l-153.8-63.5L391 169.5c10.7-15.5-9.5-33.5-23.7-21.2L155.8 332.6 48 288 464 48l-59.4 387.3z"></path></svg>             | [sh.park.poli@gmail.com](sh.park.poli@gmail.com)               |
| <svg viewBox="0 0 576 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg">  <path d="M528 32H48C21.5 32 0 53.5 0 80v352c0 26.5 21.5 48 48 48h480c26.5 0 48-21.5 48-48V80c0-26.5-21.5-48-48-48zm0 400H303.2c.9-4.5.8 3.6.8-22.4 0-31.8-30.1-57.6-67.2-57.6-10.8 0-18.7 8-44.8 8-26.9 0-33.4-8-44.8-8-37.1 0-67.2 25.8-67.2 57.6 0 26-.2 17.9.8 22.4H48V144h480v288zm-168-80h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm0-64h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm0-64h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm-168 96c35.3 0 64-28.7 64-64s-28.7-64-64-64-64 28.7-64 64 28.7 64 64 64z"></path></svg>                 | [sanghoon-park.com/](https://www.sanghoon-park.com/) |
| <svg viewBox="0 0 448 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg">  <path d="M128 148v-40c0-6.6 5.4-12 12-12h40c6.6 0 12 5.4 12 12v40c0 6.6-5.4 12-12 12h-40c-6.6 0-12-5.4-12-12zm140 12h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm-128 96h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm128 0h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm-76 84v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12h40c6.6 0 12-5.4 12-12zm76 12h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm180 124v36H0v-36c0-6.6 5.4-12 12-12h19.5V24c0-13.3 10.7-24 24-24h337c13.3 0 24 10.7 24 24v440H436c6.6 0 12 5.4 12 12zM79.5 463H192v-67c0-6.6 5.4-12 12-12h40c6.6 0 12 5.4 12 12v67h112.5V49L80 48l-.5 415z"></path></svg>                | 영상바이오관 405                                        |