10. 확률 II

class: center, middle, inverse, title-slide

.title[
# 10. 확률 II
]
.subtitle[
## 정치와데이터분석
]
.author[
### 박상훈 (<a href="mailto:sh.park.poli@gmail.com" class="email">sh.park.poli@gmail.com</a>)
]
.date[
### 강원대학교
]

---

---
# 확률 II
## 지난 시간 복습: 우리가 할 줄 아는 것

지금까지 배운 것: 회귀분석으로 `$Y = \hat{\alpha} + \hat{\beta}X$`를 추정하는 방법

```
fit <- lm(Y ~ X, data = df)
```

`$\hat{\beta}$`의 **점추정치**는 구할 수 있음. 그런데 이게 **진짜 효과**인가, 아니면 **우연의 산물**인가?

`$\rightarrow$` 이 질문에 답하려면 **불확실성을 정량화**해야 하고, 그 도구가 바로 **확률**

---
# 확률 II
## 이 숫자들은 무엇인가?

아래는 우리가 곧 해석해야 하는 R 출력표:

```
Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   14.738    2.286     6.45    2.4e-09 ***
reserved       9.252    3.948     2.34    0.020   *  
```

+ **Estimate** = `$\hat{\beta}$`. 이건 우리가 이미 알고 있음

+ **Std. Error** = ??? `$\leftarrow$` 이걸 이해하려면 **분산과 표준오차**가 필요

+ **t value** = ??? `$\leftarrow$` 이걸 이해하려면 **표집분포와 CLT**가 필요

+ **Pr(>|t|)** = ??? `$\leftarrow$` 이걸 이해하려면 **확률분포의 면적**이 필요

---
# 확률 II
## 확률에서 가설검정까지

각 단계가 다음 단계의 **전제 조건**이 됨. 하나라도 빠지면 회귀 분석의 결과를 해석할 수 없음

---
# 확률 II
## 확률변수(Random Variable)란

**확률변수**: 확률 실험의 결과를 **숫자**로 바꿔주는 규칙(함수)

왜 숫자로 바꿔야 하는가? 수학적 연산(더하기, 빼기, 평균)을 하려면 숫자가 필요하기 때문

---
# 확률 II
## 표기법(notation) 해설: 대문자 X vs. 소문자 x

통계학에서 **대문자와 소문자**를 구분하는 것이 매우 중요함

+ **대문자 `$X$`**: 확률변수 그 자체. 아직 **어떤 값이 나올지 모르는** 상태

+ "주사위를 던지면 `$X$`는 1~6 중 하나가 될 것이다"

+ **소문자 `$x$`**: 확률변수가 취하는 **특정 값** (관찰된 결과)

+ "주사위를 던졌더니 `$x = 4$`가 나왔다"

---
# 확률 II
## 표기법(notation) 해설: 대문자 X vs. 소문자 x

`$P(X = x)$`: "확률변수 `$X$`가 값 `$x$`를 취할 확률". 예: `$P(X = 4) = 1/6$`

`$\hat{\beta}$`: 확률변수 (표본마다 달라짐). `$\hat{\beta} = 9.252$`: 특정 표본에서 관찰된 값

우리가 추정한 `$\hat{\beta} = 9.252$`는 **하나의 표본**에서 나온 결과

+ 만약 다른 마을들을 무작위로 뽑아 같은 실험을 반복한다면, **매번 다른 `$\hat{\beta}$`**를 얻게 됨

+ `$\hat{\beta}$`는 표본에 따라 변하는 값 `$\rightarrow$` `$\hat{\beta}$`는 **확률변수**

이 사실이 왜 중요한가? `$\hat{\beta}$`가 확률변수라면, **확률분포**를 가지며, 그 분포의 **퍼짐(분산)**을 계산할 수 있음 `$\rightarrow$` 이것이 **표준오차(Std. Error)**의 정체

---
# 확률 II
## 이산 확률변수 vs. 연속 확률변수

+ **이산**: "투표한 사람 수"는 0, 1, 2, 3... 등 **정수값**만 가능

+ **연속**: "소득"은 `$30{,}000.17, 30{,}000.18, \ldots$` 등 **무한히 많은** 값을 취할 수 있음

+ 회귀 계수 `$\hat{\beta}$`는 **연속** 확률변수에 해당함

---
# 확률 II
## 확률분포란

확률변수가 **어떤 값을 취할 가능성**을 체계적으로 나타낸 것

+ "주사위를 던지면 각 눈이 나올 확률은 `$1/6$`씩" `$\rightarrow$` 이것이 확률분포

+ "키가 170cm인 사람이 175cm인 사람보다 많다" `$\rightarrow$` 키의 확률분포가 170 근처에서 더 높음

확률분포를 수학적으로 표현하는 함수가 세 가지 있음: **PMF, PDF, CDF**

---
# 확률 II
## 확률질량함수(PMF): 이산 확률변수용

**PMF (Probability Mass Function)**: 이산 확률변수가 특정 값 `$x$`를 취할 확률

`$$f(x) = P(X = x)$$`

+ 표기법 해설: `$P(X = x)$` 는 "확률변수 `$X$`가 값 `$x$`를 취할 확률"을 의미

+ 대문자 `$X$`: 확률변수 그 자체 (아직 어떤 값이 나올지 모르는 상태)
  
  + 소문자 `$x$`: 확률변수가 취하는 **특정 값** (예: 0, 1, 2, 3)

**PMF의 성질**: `$f(x) \ge 0$` 이고, 모든 가능한 `$x$` 에 대해 `$\sum_x f(x) = 1$`

---
# 확률 II
## PMF 예시: 동전 3회 던지기

동전 3회 던지기에서 앞면 수 `$X$`의 PMF:

"앞면이 정확히 1번 나올 확률은 37.5%": `$f(1) = P(X = 1) = 0.375$`

---
# 확률 II
## PMF 읽는 법: 수식을 "번역"하기

`$f(x) = P(X = x)$`라는 표기가 처음에는 어려울 수 있음. 한 줄씩 풀어보면:

+ `$f(2) = P(X = 2) = 0.375$`

+ 이것을 한국어로 번역하면: **"앞면이 정확히 2번 나올 확률은 0.375(= 37.5%)"**

+ 모든 PMF 값을 더하면 **반드시 1**이 됨:

`$$f(0) + f(1) + f(2) + f(3) = 0.125 + 0.375 + 0.375 + 0.125 = 1.000$$`

+ 이것은 "가능한 모든 결과 중 **반드시 하나는** 일어난다"는 의미

---
# 확률 II
## 확률밀도함수(PDF): 연속 확률변수용

**PDF (Probability Density Function)**: 연속 확률변수에서 특정 **점**의 확률은 0이므로 **밀도**를 사용함

+ PDF `$f(x)$`는 확률 **그 자체**가 아니라, 그 지점에서의 **밀도**(높이)

+ 확률은 **구간에 대한 적분**(면적)으로 구함:

`$$P(a \le X \le b) = \int_a^b f(x) dx \quad \text{(= 곡선 아래 면적)}$$`

---
# 확률 II
## 확률밀도함수(PDF): 연속 확률변수용

**PDF (Probability Density Function)**: 연속 확률변수에서 특정 **점**의 확률은 0이므로 **밀도**를 사용함

+ 비유: 지도에서 "서울역 한 점"의 면적은 0이지만, "서울역 주변 1km²"의 면적은 양수

+ `$f(x) \ge 0$`이고, `$\int_{-\infty}^{\infty} f(x)dx = 1$` (전체 면적 = 1)

+ `$f(x)$`는 1보다 클 수 있음! (밀도이지 확률이 아니므로)

---
# 확률 II
## PDF가 확률이 아닌 "밀도"인 이유

**비유**: 인구밀도를 생각해 보자

+ "서울의 인구밀도는 `$16{,}000$`명/km²" `$\leftarrow$` 이 숫자는 1보다 훨씬 큼!

+ 그러나 인구밀도 자체가 "사람 수"는 아님. **면적을 곱해야** 실제 인구가 됨

마찬가지로 PDF `$f(x)$`는 **밀도**이며, **구간의 폭을 곱해야(= 적분해야)** 확률이 됨

`$$\underbrace{P(a \le X \le b)}_{\text{확률}} = \underbrace{\int_a^b f(x)dx}_{\text{밀도 × 구간 폭의 합}}$$`

---
# 확률 II
## PMF vs. PDF vs. CDF: 요약 비교

<table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'>
 <thead>
  <tr>
   <th style="text-align:left;">   </th>
   <th style="text-align:left;"> PMF </th>
   <th style="text-align:left;"> PDF </th>
   <th style="text-align:left;"> CDF </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;"> 적용 대상 </td>
   <td style="text-align:left;"> 이산 확률변수 </td>
   <td style="text-align:left;"> 연속 확률변수 </td>
   <td style="text-align:left;"> 이산 + 연속 모두 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> 의미 </td>
   <td style="text-align:left;"> P(X = x) </td>
   <td style="text-align:left;"> 밀도 (확률 아님!) </td>
   <td style="text-align:left;"> P(X ≤ x) </td>
  </tr>
  <tr>
   <td style="text-align:left;"> 값의 범위 </td>
   <td style="text-align:left;"> 0~1 </td>
   <td style="text-align:left;"> 0~∞ 가능 </td>
   <td style="text-align:left;"> 0~1 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> 확률 구하는 법 </td>
   <td style="text-align:left;"> f(x)를 직접 읽음 </td>
   <td style="text-align:left;"> 구간을 적분 </td>
   <td style="text-align:left;"> F(b) - F(a) </td>
  </tr>
  <tr>
   <td style="text-align:left;"> R 함수 (정규) </td>
   <td style="text-align:left;"> dbinom() </td>
   <td style="text-align:left;"> dnorm() </td>
   <td style="text-align:left;"> pnorm() </td>
  </tr>
</tbody>
</table>

---
# 확률 II
## 누적분포함수(CDF)

**CDF (Cumulative Distribution Function)**: 확률변수가 `$x$` **이하**일 확률

`$$F(x) = P(X \le x)$$`

+ 이산: `$F(x) = \sum_{k \le x} f(k)$` `$\leftarrow$` PMF를 **차례로 더한 것**

+ 연속: `$F(x) = \int_{-\infty}^{x} f(t) dt$` `$\leftarrow$` PDF의 **왼쪽 면적**

**CDF의 성질**:

+ 항상 **올라가기만** 함 (단조 비감소)

+ 왼쪽 끝에서 0, 오른쪽 끝에서 1: `$F(-\infty) = 0$`, `$F(\infty) = 1$`

---
# 확률 II
## CDF의 시각화

이산 CDF는 **계단 함수** (값이 뛸 때만 증가), 연속 CDF는 **매끄러운 곡선**

---
# 확률 II
## PMF `$\rightarrow$` CDF 단계별 계산

동전 3회 던지기의 CDF를 PMF로부터 **하나씩 쌓아 올리면**:

`$F(0) = f(0) = 0.125$`

`$F(1) = f(0) + f(1) = 0.125 + 0.375 = 0.500$`

`$F(2) = f(0) + f(1) + f(2) = 0.500 + 0.375 = 0.875$`

`$F(3) = 0.875 + 0.125 = 1.000$`

**CDF의 활용**: `$P(1 \le X \le 2) = F(2) - F(0) = 0.875 - 0.125 = 0.750$`

---
# 확률 II
## 회귀와의 연결: p-값은 PDF의 면적

R 출력에서 `Pr(>|t|) = 0.020`은 **t-분포(연속 확률분포)**에서 `$|t| > 2.34$`인 영역의 **면적**

`$\rightarrow$` PDF와 적분의 개념 없이는 p-값을 이해할 수 없음!

---
# 확률 II
## 베르누이 분포(Bernoulli Distribution)

가장 단순한 이산 분포. **한 번의 시행**에서 성공(1) 또는 실패(0)

**PMF**: `$f(x) = \begin{cases} p & \text{if } x = 1 \text{ (성공)} \\ 1-p & \text{if } x = 0 \text{ (실패)} \end{cases}$`

+ `$p$`는 **성공 확률**이라는 **모수(parameter)**. 분포의 형태를 결정함

+ **기대값**: `$E(X) = p$` `$\leftarrow$` "장기적으로 평균 얼마나 성공하는가"

+ **분산**: `$V(X) = p(1-p)$` `$\leftarrow$` "결과가 얼마나 불확실한가"

---
# 확률 II
## 베르누이 분포의 예시

**회귀와의 연결**: 무작위 실험에서 처치 변수 `$T_i$`는 **베르누이 확률변수**

+ `$T_i = 1$` (처치) 또는 `$T_i = 0$` (통제)

+ 이것이 `$Y = \alpha + \beta T + \epsilon$`에서 `$T$`의 정체

---
# 확률 II
## 이항분포: 베르누이의 "반복 합산"

`$n$`번의 **독립적이고 동일한** 베르누이 시행에서 성공 횟수 `$X$`의 분포

`$$X = Y_1 + Y_2 + \cdots + Y_n, \quad \text{각 } Y_i \sim \text{Bernoulli}(p)$$`

**핵심 용어 해설**:

+ **독립적(independent)**: 한 시행의 결과가 다른 시행에 영향을 주지 않음

+ **동일한(identically distributed)**: 매번 같은 성공 확률 `$p$`로 시행

+ **i.i.d.**: "independently and identically distributed"의 약자. 통계학에서 가장 자주 등장하는 가정

---
# 확률 II
## 이항분포의 PMF

`$$f(x) = P(X = x) = \binom{n}{x} p^x (1-p)^{n-x}$$`

이 수식을 **한 조각씩** 해석하면:

+ `$\binom{n}{x}$`: `$n$`번 중 `$x$`번 성공하는 **경우의 수** (순서 무관)

+ `$p^x$`: `$x$`번 연속으로 성공할 확률 (독립이므로 곱셈)

+ `$(1-p)^{n-x}$`: 나머지 `$n-x$`번 실패할 확률

+ 이 세 요소를 곱하면 "**정확히 `$x$`번 성공**할 확률"

---
# 확률 II
## 이항분포의 기대값과 분산

**기대값**: `$E(X) = np$` `$\leftarrow$` "평균적으로 몇 번 성공하는가"

**유도**: `$E(X) = E(Y_1 + Y_2 + \cdots + Y_n) = E(Y_1) + E(Y_2) + \cdots + E(Y_n) = np$`

기대값의 **선형성** 덕분에 `$n$`개를 따로따로 더할 수 있음 (독립 여부 무관!)

**분산**: `$V(X) = np(1-p)$` `$\leftarrow$` "성공 횟수가 얼마나 흩어지는가"

**유도**: `$V(X) = V(Y_1) + V(Y_2) + \cdots + V(Y_n) = np(1-p)$`

독립이므로 분산도 따로따로 더할 수 있음 (**독립일 때만** 성립!)

---
# 확률 II
## 이항분포 예시 1: 비만율

미국 비만율 `$p = 0.262$`일 때, 10명 중 정확히 8명이 비만일 확률은?

`$$P(X=8) = \binom{10}{8}(0.262)^8(0.738)^2 \approx 0.0005$$`

+ `$E(X) = 10 \times 0.262 = 2.62$`명 `$\leftarrow$` 10명 중 평균 2~3명이 비만

+ 8명은 기대값(2.62)에서 **매우 먼** 값 `$\rightarrow$` 확률이 극히 낮음 (0.05%)

---
# 확률 II
## 이항분포 예시 2: 나의 한 표가 결정적일 확률

유권자 50:50으로 나뉜 선거에서, 투표가 동률이 되어 내 한 표로 결과가 바뀔 확률은?

유권자 수가 늘어날수록 동률 확률은 급격히 감소 `$\rightarrow$` 합리적 투표자 모형의 역설(Paradox of Voting)

---
# 확률 II
## 이항분포의 시각화: p에 따른 형태 변화

`$p=0.5$`일 때 **대칭**, `$p$`가 극단으로 갈수록 **비대칭**. `$n$`이 커지면 어떤 `$p$`든 **종 모양에 근접** (이것이 CLT!)

---
# 확률 II
## 이항분포의 CDF 활용

10명 중 **3명 이하**가 비만일 확률은? (`$p = 0.262$`)

`$P(X \le 3) = F(3) = 0.7237$`. R에서는 `pbinom(3, 10, 0.262)` 한 줄로 계산 가능

---
# 확률 II
## 이항분포의 정규 근사 (CLT의 미리보기)

`$n$`이 충분히 크면, 이항분포는 **정규분포와 거의 동일한 형태**가 됨

`$n = 100$`이면 이항분포와 `$N(np, np(1-p))$`이 거의 일치 `$\rightarrow$` 이것이 **CLT가 작동**하는 것!

---
# 확률 II
## 균등분포(Uniform Distribution)

구간 `$[a, b]$` 내의 모든 값이 **동일한 확률**을 가지는 분포

+ **PDF**: `$f(x) = \frac{1}{b-a}$`, `$a \le x \le b$` `$\leftarrow$` 직사각형 모양

+ **CDF**: `$F(x) = \frac{x-a}{b-a}$` `$\leftarrow$` 직선

+ **기대값**: `$E(X) = \frac{a+b}{2}$` (구간의 중점)

+ **분산**: `$V(X) = \frac{(b-a)^2}{12}$`

---
# 확률 II
## 균등분포(Uniform Distribution)

구간 `$[a, b]$` 내의 모든 값이 **동일한 확률**을 가지는 분포

---
# 확률 II
## 정규분포가 왜 가장 중요한가

**CLT(중심극한정리)** 때문:

+ **어떤 분포**에서 표본을 추출하든, 표본 평균의 분포는 정규분포에 수렴

+ 따라서 회귀 계수 `$\hat{\beta}$`의 분포도 정규분포에 근사 `$\rightarrow$` p-값 계산이 가능해짐

정규분포는 평균 `$\mu$`와 표준편차 `$\sigma$` 두 개의 모수로 완전히 정의됨: `$X \sim N(\mu, \sigma^2)$`

**PDF**: `$f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}$`

(이 수식을 외울 필요는 없지만, `$\mu$`와 `$\sigma$`가 분포의 형태를 결정한다는 것은 알아야 함)

---
# 확률 II
## 정규분포: μ와 σ의 효과

+ `$\mu$`가 바뀌면 분포가 **좌우로 이동** (위치)

+ `$\sigma$`가 커지면 분포가 **납작해짐** (퍼짐)

---
# 확률 II
## 68-95-99.7 규칙

+ `$\mu \pm 1\sigma$`: 약 **68%**, `$\mu \pm 2\sigma$`: 약 **95%**, `$\mu \pm 3\sigma$`: 약 **99.7%**

+ **회귀분석과의 연결**: "95% 신뢰구간 = `$\hat{\beta} \pm 2 \times SE$`"가 여기서 나옴!

---
# 확률 II
## 표준정규분포와 Z-점수

**표준정규분포**: `$Z \sim N(0, 1)$`. 평균 0, 분산 1인 정규분포

임의의 정규분포를 **표준화(standardization)**:

`$$Z = \frac{X - \mu}{\sigma}$$`

+ " `$X$`에서 평균을 빼고, 표준편차로 나눈다" `$\rightarrow$` "**평균에서 몇 표준편차 떨어져 있는가**"를 측정

+ **회귀와의 연결**: `t value = Estimate / Std.Error = 9.252 / 3.948 = 2.34`

+ 이것은 `$\hat{\beta}$`가 0(귀무값)으로부터 **2.34 표준오차** 떨어져 있다는 뜻!

---
# 확률 II
## Z-점수 예시: 시험 점수 비교

Pam의 SAT: 1800점 (평균 1500, SD 300) `$\rightarrow Z = \frac{1800-1500}{300} = 1.0$`

Jim의 ACT: 24점 (평균 21, SD 5) `$\rightarrow Z = \frac{24-21}{5} = 0.6$`

+ Pam은 평균보다 **1.0 표준편차** 위, Jim은 **0.6 표준편차** 위

+ `$\rightarrow$` **Pam이 상대적으로 더 높은 성적**

+ Z-점수를 통해 **단위가 다른** 변수를 비교할 수 있음

---
# 확률 II
## 정규분포를 이용한 확률 계산

체온이 `$N(98.2, 0.73^2)$`을 따를 때, 체온 99.0°F 이상일 확률은?

`$$Z = \frac{99.0 - 98.2}{0.73} = 1.096 \quad \Rightarrow \quad P(X > 99.0) = P(Z > 1.096) \approx 0.137$$`

---
# 확률 II
## 표준정규분포표

`$Z$`-점수로 변환하면 **하나의 표** (R에서는 `pnorm()`)로 모든 정규분포의 확률을 계산 가능

---
# 확률 II
## 주요 분포 요약

<table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'>
 <thead>
  <tr>
   <th style="text-align:center;"> 분포 </th>
   <th style="text-align:center;"> 기대값 </th>
   <th style="text-align:center;"> 분산 </th>
   <th style="text-align:center;"> 회귀에서의 역할 </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:center;"> 베르누이 Bern(p) </td>
   <td style="text-align:center;"> p </td>
   <td style="text-align:center;"> p(1-p) </td>
   <td style="text-align:center;"> 처치 변수 Tᵢ </td>
  </tr>
  <tr>
   <td style="text-align:center;"> 이항 Binom(n,p) </td>
   <td style="text-align:center;"> np </td>
   <td style="text-align:center;"> np(1-p) </td>
   <td style="text-align:center;"> 지지자 수 Sⱼ </td>
  </tr>
  <tr>
   <td style="text-align:center;"> 균등 Unif(a,b) </td>
   <td style="text-align:center;"> (a+b)/2 </td>
   <td style="text-align:center;"> (b-a)²/12 </td>
   <td style="text-align:center;"> (시뮬레이션 입력) </td>
  </tr>
  <tr>
   <td style="text-align:center;"> 정규 N(μ,σ²) </td>
   <td style="text-align:center;"> μ </td>
   <td style="text-align:center;"> σ² </td>
   <td style="text-align:center;"> β̂의 표집분포 </td>
  </tr>
</tbody>
</table>

---
# 확률 II
## 기대값(Expected Value)

확률분포의 **이론적 평균**. 모든 가능한 값을 확률로 가중평균한 것

이산: `$E(X) = \sum_x x \cdot P(X=x)$` `$\leftarrow$` "각 값 × 그 확률"을 모두 더한 것

연속: `$E(X) = \int_{-\infty}^{\infty} x \cdot f(x) dx$`

---
# 확률 II
## 표기법 해설: `$E(\cdot)$`의 의미

`$E(\cdot)$`는 "기대값 연산자(expectation operator)"로, **괄호 안의 것**의 이론적 평균을 구하라는 의미

+ `$E(X)$` = 확률변수 `$X$`의 기대값

+ `$E(X^2)$` = `$X$`를 **제곱한 것**의 기대값 (X의 기대값을 제곱한 것과 **다름**!)

+ `$E(\hat{\beta})$` = 추정량 `$\hat{\beta}$`의 기대값 (반복 실험 시 `$\hat{\beta}$`의 평균)

**"가중평균"이란?**: 보통 평균은 각 값에 `$1/n$`을 곱하여 더함. 기대값은 `$1/n$` 대신 **확률**을 가중치로 사용한 평균

---
# 확률 II
## 기대값 vs. 표본 평균: 핵심 구분

LLN이 보장하는 것: `$n$`이 커지면 `$\bar{X} \to E(X)$` (표본 평균이 기대값에 수렴)

---
# 확률 II
## 기대값 예시: 주사위

`$E(X) = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} = 3.5$`

3.5는 주사위에서 **실제로 나올 수 없는** 값이지만, **장기적 평균**을 나타냄

---
# 확률 II
## 기대값의 선형성(Linearity)

`$E(aX + b) = aE(X) + b$`

`$E(X + Y) = E(X) + E(Y)$` `$\leftarrow$` **항상** 성립! (독립이 아니어도!)

**예시**: 동전 100회 던지기에서 앞면 수의 기대값

`$$E(X) = E(Y_1 + Y_2 + \cdots + Y_{100}) = 100 \times 0.5 = 50$$`

**회귀분석과의 연결**: `$E(\hat{\beta}) = \beta$`이면 `$\hat{\beta}$`는 **불편추정량(unbiased estimator)**

"평균적으로 정확하게 진짜 효과를 맞힌다"

---
# 확률 II
## 분산(Variance)

확률분포의 **퍼짐(spread)** 정도. "기대값 주위로 얼마나 흩어져 있는가"

`$$V(X) = E\left[(X - E(X))^2\right]$$`

+ `$(X - E(X))$`: 평균에서의 편차 `$\leftarrow$` 양수일 수도, 음수일 수도 있음

+ `$(X - E(X))^2$`: 편차의 제곱 `$\leftarrow$` 항상 양수 (부호를 없앰)

+ `$E[\cdot]$`: 편차 제곱의 **평균** `$\leftarrow$` 이것이 분산

**왜 제곱하는가?** 편차를 그냥 더하면 양수와 음수가 상쇄되어 항상 0이 됨. 제곱해야 "퍼짐"을 측정할 수 있음

---
# 확률 II
## 표기법 해설: `$V(\cdot)$`, `$\sigma^2$`, `$\sigma$`

같은 것을 가리키는 여러 표기법:

+ `$V(X)$` = `$\sigma^2$` = `$\text{Var}(X)$`: 모두 **분산**을 나타냄

+ `$\sigma$` = `$\sqrt{V(X)}$`: **표준편차** `$\leftarrow$` 분산의 제곱근. 원래 단위로 돌아감

**왜 표준편차가 더 직관적인가?**

+ 키의 분산: `$V = 100 \text{cm}^2$` `$\leftarrow$` `$\text{cm}^2$`가 무엇을 의미하는지 감이 안 옴

+ 키의 표준편차: `$\sigma = 10 \text{cm}$` `$\leftarrow$` "평균에서 대략 10cm 정도 흩어져 있다"

**계산 공식(computational formula)**: `$V(X) = E(X^2) - [E(X)]^2$`

---
# 확률 II
## 분산의 연산 규칙

`$V(a) = 0$` `$\leftarrow$` 상수의 분산은 0 (변하지 않으므로)

`$V(X + b) = V(X)$` `$\leftarrow$` 상수를 더해도 퍼짐은 변하지 않음

`$V(aX) = a^2 V(X)$` `$\leftarrow$` 상수 곱셈은 **제곱**으로 영향

**독립**인 경우: `$V(X + Y) = V(X) + V(Y)$`

**일반적인** 경우: `$V(X + Y) = V(X) + V(Y) + 2\text{Cov}(X, Y)$`

**회귀와의 연결**: Std. Error = `$\sqrt{V(\hat{\beta})}$`. 분산의 연산 규칙이 SE 공식의 근거!

---
# 확률 II
## 분산 예시: 베르누이의 분산과 p의 관계

여론조사에서 **지지율 50:50**일 때 표집변동성(SE)이 최대인 이유!

---
# 확률 II
## 공분산(Covariance)

두 확률변수가 **함께 변하는** 정도를 측정하는 측도

`$$\text{Cov}(X, Y) = E[(X - E(X))(Y - E(Y))]$$`

+ `$> 0$`: 같은 방향으로 변동 (X 크면 Y도 큰 경향)

+ `$< 0$`: 반대 방향 (X 크면 Y 작은 경향)

+ `$= 0$`: 선형 관계 없음

**독립이면 공분산은 0**이지만, 공분산이 0이라고 반드시 독립은 아님!

---
# 확률 II
## 대수의 법칙(LLN)이란

> 표본 크기 `$n$`이 증가하면, 표본 평균 `$\bar{X}_n$`은 기대값 `$E(X)$`에 **수렴**

`$$\bar{X}_n = \frac{1}{n}\sum_{i=1}^{n} X_i \longrightarrow E(X) \quad \text{as } n \to \infty$$`

**직관**: 데이터를 더 많이 모을수록, 계산한 평균이 진짜 평균에 가까워짐

**여론조사에서의 의미**: 1,000명만 무작위로 잘 뽑으면, 5,000만 유권자의 선호를 추정 가능

**회귀분석에서의 의미**: `$n$`이 커지면 `$\hat{\beta} \to \beta$` (일치성, consistency)

---
# 확률 II
## LLN의 시뮬레이션

처음에는 변동이 크지만, `$n$`이 커질수록 **안정적으로 수렴**

---
# 확률 II
## LLN의 함정: 도박꾼의 오류

**도박꾼의 오류**: "앞면이 5번 연속 나왔으니, 다음에는 뒷면이 나올 확률이 높다"

이는 **잘못된 추론**! 각 동전 던지기는 **독립**이므로:

`$$P(T_6 | H_1 H_2 H_3 H_4 H_5) = P(T_6) = 0.5$$`

LLN은 **장기적으로** 평균이 수렴한다는 것이지, 단기적으로 "**교정(correction)**"이 일어난다는 것이 아님

---
# 확률 II
## 중심극한정리(CLT)

> 표본 크기 `$n$`이 충분히 크면, **원래 분포가 무엇이든**, 표본 평균의 분포는 **정규분포**에 근사

`$$\bar{X}_n \stackrel{\text{approx}}{\sim} N\left(E(X), \frac{V(X)}{n}\right)$$`

표준화하면: `$Z = \frac{\bar{X}_n - E(X)}{\sqrt{V(X)/n}} \longrightarrow N(0, 1)$`

CLT는 통계학에서 **가장 중요한 정리** `$\rightarrow$` 이것이 없으면 SE, CI, p-값이 모두 불가능

---
# 확률 II
## CLT 수식을 "한 조각씩" 읽기

`$$\bar{X}_n \stackrel{\text{approx}}{\sim} N\left(\underbrace{E(X)}_{\text{중심}}, \quad \underbrace{\frac{V(X)}{n}}_{\text{퍼짐}}\right)$$`

+ **중심** `$E(X)$`: 표본 평균의 기대값은 모집단 평균과 같음 (불편성)

+ **퍼짐** `$\frac{V(X)}{n}$`: 표본 평균의 분산. `$n$`이 커지면 **0에 수렴** (정밀해짐)

+ `$\stackrel{\text{approx}}{\sim}$`: "근사적으로 따른다". `$n$`이 클수록 근사가 정확해짐

---
# 확률 II
## CLT 수식을 "한 조각씩" 읽기

`$$\bar{X}_n \stackrel{\text{approx}}{\sim} N\left(\underbrace{E(X)}_{\text{중심}}, \quad \underbrace{\frac{V(X)}{n}}_{\text{퍼짐}}\right)$$`

핵심 조건: `$X_1, X_2, \ldots, X_n$`이 **i.i.d.**여야 함

+ **i**(independent): 각 관측이 다른 관측에 영향을 주지 않음 (무작위 표본이면 충족)

+ **i.d.**(identically distributed): 모든 관측이 같은 분포에서 나옴 (같은 모집단이면 충족)

---
# 확률 II
## CLT가 놀라운 이유

원래 분포가 **극도로 비대칭**이어도, `$n$`이 커지면 표본평균은 **정규분포에 수렴**!

---
# 확률 II
## 회귀분석과의 연결: CLT가 가설검정을 가능하게 함

`$\hat{\beta}$`는 여러 관측치의 **가중 합**으로 계산됨

CLT에 의해 `$\hat{\beta}$`의 **표집분포**는 정규분포에 근사:

`$$\hat{\beta} \stackrel{\text{approx}}{\sim} N\left(\beta, V(\hat{\beta})\right)$$`

이제 이 정규분포의 **표준편차**(= Std. Error)를 구할 수 있다면:

`$$t = \frac{\hat{\beta} - 0}{SE(\hat{\beta})} \stackrel{\text{approx}}{\sim} N(0, 1)$$`

이것이 바로 R 출력의 **t value**! CLT 없이는 이 계산이 불가능함

---

# 확률 II
## 가설검정 미리보기: 재판의 논리

가설검정은 **형사재판**과 같은 논리 구조를 따름

+ **영가설( `$H_0$` )**: 피고인은 **무죄**다 (현상유지, status quo)

+ **대안가설( `$H_A$` )**: 피고인은 **유죄**다 (연구가설, 입증하고 싶은 것)

+ **입증 책임**: 검찰(연구자)에게 있음. 피고인(영가설)이 자신의 무죄를 증명할 필요는 없음

**판결**: 증거를 바탕으로 "무죄 가정 하에서 이런 증거가 나타날 가능성이 극히 낮다"면 `$\rightarrow$` 유죄(기각)

"무죄 가정과 양립 가능한 증거"이면 `$\rightarrow$` 무죄(기각 실패). 단, "**무죄를 확정**"하는 것이 아니라 "**유죄를 입증하지 못한 것**"

---
# 확률 II
## 가설검정 미리보기: 확률적 모순증명법

수학의 **모순 증명법(proof by contradiction)**을 확률적으로 변환한 것

1. 부정하고 싶은 명제( `$H_0$` )를 **참이라고 가정**함

2. 이 가정 하에서 관측된 데이터가 나타날 **확률**을 계산함

3. 그 확률이 **매우 낮으면** `$\rightarrow$` "가정이 틀렸을 가능성이 높다" `$\rightarrow$` `$H_0$` **기각**

수학에서는 100% 확실한 모순을 보이지만, 통계학에서는 **확률적**이므로 100% 확실하게 기각할 수 없음

`$\rightarrow$` 그래서 **유의수준( `$\alpha$` )**이라는 "기각 기준"을 미리 정해둠 (보통 5%)

---
# 확률 II
## 가설검정 미리보기: 검정통계량과 p-값

**검정통계량**: 관측된 추정치가 영가설의 값으로부터 **몇 표준오차** 떨어져 있는지

`$$Z = \frac{\text{점추정치} - \text{영가설의 값}}{SE}$$`

**p-값**: `$H_0$`가 참이라고 가정했을 때, 이 정도 극단적인 결과가 나타날 확률

`$$\text{p-value} = P(\text{이 정도 이상으로 극단적인 결과} \;|\; H_0 \text{ 참})$$`

+ `$p < 0.05$` `$\rightarrow$` " `$H_0$`가 참이라면 이런 데이터는 5% 미만의 확률로만 나타남" `$\rightarrow$` `$H_0$` **기각**

+ `$p \ge 0.05$` `$\rightarrow$` " `$H_0$`가 참이어도 이런 데이터는 충분히 나타날 수 있음" `$\rightarrow$` `$H_0$` **기각 실패**

---
# 확률 II
## 가설검정 미리보기

```
             Estimate Std. Error t value Pr(>|t|)    
reserved       9.252    3.948     2.34    0.020   *  
```

이 한 줄을 **완전히 해독**하면:

+ `$H_0: \beta = 0$` (여성 할당의 효과가 없다)

+ `$\hat{\beta} = 9.252$`, 이 추정치가 0에서 **2.34 표준오차** 떨어져 있음

+ `$H_0$`가 참이라면 이 정도 극단적인 결과가 나타날 확률은 **2.0%**

+ `$2.0\% < 5\%$` `$\rightarrow$` `$H_0$` **기각** `$\rightarrow$` "여성 할당이 효과가 없다"는 가정을 **배리**

+ `$*$` 표시: 5% 수준에서 통계적으로 유의함

---
# 확률 II
## 가설검정 미리보기: 오류의 가능성

재판에서 오판이 가능하듯, 가설검정에서도 **두 종류의 오류**가 존재함

+ `$\alpha = 0.05$` 의 의미: `$H_0$`가 참일 때 잘못 기각할 확률을 **5% 이하**로 통제

+ "열 명의 범인을 놓치더라도 한 명의 무고한 사람을 처벌하지 않는 것이 낫다" `$\rightarrow$` 제1종 오류를 더 심각하게 봄

---
# 확률 II
## 표집분포(Sampling Distribution)

**표집분포**: 같은 실험을 **무한히 반복**했을 때, 통계량(예: `$\hat{\beta}$`)이 따르는 분포

+ 현실: 하나의 표본, 하나의 `$\hat{\beta}$` = 9.252

+ 이론: 이 실험을 무한히 반복하면 매번 다른 `$\hat{\beta}$`를 얻을 것이며, 그 `$\hat{\beta}$`들의 분포가 **표집분포**

+ CLT에 의해 이 분포는 정규분포에 근사

---
# 확률 II
## 표집분포를 이해하는 사고실험

여론조사 회사 3곳이 **같은 날** 같은 모집단에서 각각 1,000명을 조사한다고 상상해 보자

+ A 조사: `$\hat{p} = 0.43$`

+ B 조사: `$\hat{p} = 0.45$`

+ C 조사: `$\hat{p} = 0.44$`

세 결과가 다른 이유: 각 회사가 뽑은 1,000명이 **다른 사람들**이므로 (표집변동)

이런 조사를 **무한히 반복**하면, `$\hat{p}$`값들의 분포가 만들어짐 `$\rightarrow$` 이것이 **표집분포**

그리고 이 분포의 **표준편차**가 바로 **표준오차(SE)**

---
# 확률 II
## 표준오차(Standard Error)

표집분포의 **표준편차** = **표준오차(SE)**

`$$SE(\bar{X}) = \frac{\sigma}{\sqrt{n}} \quad \leftarrow \text{이것이 R 출력의 "Std. Error"!}$$`

---
# 확률 II
## SE의 유도: 왜 `$\sigma/\sqrt{n}$`인가?

**1단계**: 표본 평균을 분산 연산자 안에 넣기

`$$V(\bar{X}_n) = V\left(\frac{1}{n}\sum_{i=1}^n X_i\right)$$`

**2단계**: `$\frac{1}{n}$`은 상수이므로 밖으로 빼면 **제곱**이 됨: `$V(aX) = a^2V(X)$`

`$$= \frac{1}{n^2} V\left(\sum_{i=1}^n X_i\right)$$`

---
# 확률 II
## SE의 유도: 왜 `$\sigma/\sqrt{n}$`인가?

**3단계**: `$X_i$`들이 **독립**이므로 분산의 합 = 합의 분산

`$$= \frac{1}{n^2} \sum_{i=1}^n V(X_i) = \frac{1}{n^2} \cdot n \cdot V(X) = \frac{V(X)}{n}$$`

**4단계**: 제곱근을 취하면 `$SE = \sqrt{V(\bar{X})} = \frac{\sigma}{\sqrt{n}}$`

`$\rightarrow$` **분산의 연산 규칙**(제4부)이 SE 공식의 수학적 근거!

---
# 확률 II
## SE의 직관: `$n$`이 커지면 왜 정밀해지는가

`$SE \propto 1/\sqrt{n}$`이므로:

+ 표본을 **4배** 늘리면 SE는 `$1/\sqrt{4} = 1/2$`로 **절반**

+ 표본을 **100배** 늘리면 SE는 `$1/\sqrt{100} = 1/10$`으로 **1/10**

---
# 확률 II
## 표준오차와 표본 크기의 관계

`$n = 1{,}000$`이면 약 `$\pm 3.1\%p$`, `$n = 10{,}000$`이면 약 `$\pm 1.0\%p$`

---
# 확률 II
## 여론조사에의 응용

`$n$`명을 조사한 표본 비율 `$\hat{p}$`의 표집분포:

`$$\hat{p} \sim N\left(p, \frac{p(1-p)}{n}\right)$$`

+ `$p$`: 모비율 (모르는 값, **모수**) `$\leftarrow$` 추정 **대상**

+ `$\hat{p}$`: 표본 비율 (아는 값, **통계량**) `$\leftarrow$` 추정 **도구**

+ `$SE = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$` `$\leftarrow$` `$p$`를 모르므로 `$\hat{p}$`로 대체

이제 95% 신뢰구간을 구성할 수 있음: `$\hat{p} \pm 1.96 \times SE$`

---
# 확률 II
## 원점 회귀: R 출력표를 다시 보자

```
             Estimate Std. Error t value Pr(>|t|)    
reserved       9.252    3.948     2.34    0.020   *  
```

이제 각 숫자의 의미를 이해할 수 있음:

+ **9.252** = `$\hat{\beta}$` (점추정치). 이항분포처럼 **확률변수**의 하나의 실현값

+ **3.948** = `$SE(\hat{\beta})$`. **표집분포의 표준편차**. CLT와 분산 규칙으로 유도됨

+ **2.34** = `$\hat{\beta}/SE = 9.252/3.948$`. 0에서 몇 **표준오차** 떨어져 있는가 (Z-점수와 같은 논리)

+ **0.020** = 정규분포(t-분포)에서 `$|t| > 2.34$`인 영역의 **면적** (= PDF의 적분)

---
class: center, middle

# 🧩 확인 퀴즈

---
# 확률 II
## 퀴즈 1: 이항분포

**Q.** 투표율이 40%인 선거구에서 20명을 무작위 추출할 때, 정확히 10명이 투표할 확률을 구하는 공식을 쓰시오. 이 확률이 높을지 낮을지 직관적으로 판단하시오.

**A.** `$P(X=10) = \binom{20}{10}(0.4)^{10}(0.6)^{10}$`

`$E(X) = 20 \times 0.4 = 8$`이므로, 10명은 기대값(8)보다 높음. 실제 계산하면 약 **5.8%**로 낮은 확률.

---
# 확률 II
## 퀴즈 2: CLT와 회귀의 연결

**Q.** "CLT가 없으면 가설검정이 불가능하다"는 말의 의미를 설명하시오. 구체적으로, CLT가 `$\hat{\beta}$`의 어떤 성질을 보장하며, 그 성질이 왜 t-검정에 필요한지 설명하시오.

**A.** CLT는 `$\hat{\beta}$`의 **표집분포가 정규분포에 근사**함을 보장함. 이 덕분에 `$t = \hat{\beta}/SE$`라는 검정통계량이 `$N(0,1)$` 또는 t-분포를 따른다는 것을 알 수 있고, 이 분포 하에서 관찰된 `$t$`값이 나타날 확률(p-값)을 계산할 수 있음. CLT 없이는 `$\hat{\beta}$`의 분포 형태를 알 수 없으므로, 어떤 값이 "극단적"인지 판단할 기준이 없음.

---
# 확률 II
## 퀴즈 3: 기대값과 분산

**Q.** 지지율 `$p = 0.4$`, 표본 `$n = 1{,}000$`일 때 `$\hat{p}$`의 (a) 기대값, (b) 분산, (c) SE를 구하고, (d) `$\hat{p}$`가 0.37~0.43일 확률을 근사적으로 구하시오.

**A.** (a) `$E(\hat{p}) = 0.4$`, (b) `$V(\hat{p}) = 0.4 \times 0.6 / 1000 = 0.00024$`

(d) `$Z_1 = \frac{0.37-0.4}{0.0155} = -1.94$`, `$Z_2 = \frac{0.43-0.4}{0.0155} = 1.94$`

`$P(0.37 < \hat{p} < 0.43) \approx \Phi(1.94) - \Phi(-1.94) \approx 0.948$` (약 95%)

---
# 확률 II
## 전체 요약: 확률에서 가설검정까지의 논리적 흐름

<table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'>
 <thead>
  <tr>
   <th style="text-align:left;"> 단계 </th>
   <th style="text-align:left;"> 내용 </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;"> ① 확률변수 </td>
   <td style="text-align:left;"> 결과를 숫자로 변환 → β̂도 확률변수 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> ② 확률분포 </td>
   <td style="text-align:left;"> 각 값이 나올 가능성 → PMF, PDF, CDF </td>
  </tr>
  <tr>
   <td style="text-align:left;"> ③ 기대값/분산 </td>
   <td style="text-align:left;"> 분포의 중심과 퍼짐 → E(β̂)=β, V(β̂) </td>
  </tr>
  <tr>
   <td style="text-align:left;"> ④ LLN </td>
   <td style="text-align:left;"> n→∞이면 β̂→β (일치성) </td>
  </tr>
  <tr>
   <td style="text-align:left;"> ⑤ CLT </td>
   <td style="text-align:left;"> β̂의 분포가 정규에 근사 </td>
  </tr>
  <tr>
   <td style="text-align:left;"> ⑥ 표준오차 </td>
   <td style="text-align:left;"> SE = √V(β̂) → R의 Std.Error </td>
  </tr>
  <tr>
   <td style="text-align:left;"> ⑦ 가설검정 </td>
   <td style="text-align:left;"> t = β̂/SE → p-값 → 별표(**) </td>
  </tr>
</tbody>
</table>

이 **모든 단계가 연결**되어 있으며, 하나라도 빠지면 회귀 출력표를 해석할 수 없음

---
# 확률 II
## 핵심 수식 정리

**이항 PMF**: `$P(X=x) = \binom{n}{x}p^x(1-p)^{n-x}$`

**정규 PDF**: `$f(x) = \frac{1}{\sigma\sqrt{2\pi}}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}$`

**Z-점수**: `$Z = \frac{X-\mu}{\sigma}$` `$\leftarrow$` R의 `t value`와 같은 논리

**LLN**: `$\bar{X}_n \to E(X)$`, **CLT**: `$\bar{X}_n \sim N(E(X), V(X)/n)$`

**표준오차**: `$SE(\bar{X}) = \sigma/\sqrt{n}$`, `$SE(\hat{p}) = \sqrt{p(1-p)/n}$`

---
class: center, middle
background-image: url("knu_wide.png")
background-size: 300px
background-position: 11% 15%

# 감사합니다!

강사 연락처

|                   연락처                         |     박상훈                                    |
| :-----------------------------------------------: | :--------------------------------------------------: |
| <svg viewBox="0 0 512 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg">  <path d="M440 6.5L24 246.4c-34.4 19.9-31.1 70.8 5.7 85.9L144 379.6V464c0 46.4 59.2 65.5 86.6 28.6l43.8-59.1 111.9 46.2c5.9 2.4 12.1 3.6 18.3 3.6 8.2 0 16.3-2.1 23.6-6.2 12.8-7.2 21.6-20 23.9-34.5l59.4-387.2c6.1-40.1-36.9-68.8-71.5-48.9zM192 464v-64.6l36.6 15.1L192 464zm212.6-28.7l-153.8-63.5L391 169.5c10.7-15.5-9.5-33.5-23.7-21.2L155.8 332.6 48 288 464 48l-59.4 387.3z"></path></svg>             | [sh.park.poli@gmail.com](sh.park.poli@gmail.com)               |
| <svg viewBox="0 0 576 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg">  <path d="M528 32H48C21.5 32 0 53.5 0 80v352c0 26.5 21.5 48 48 48h480c26.5 0 48-21.5 48-48V80c0-26.5-21.5-48-48-48zm0 400H303.2c.9-4.5.8 3.6.8-22.4 0-31.8-30.1-57.6-67.2-57.6-10.8 0-18.7 8-44.8 8-26.9 0-33.4-8-44.8-8-37.1 0-67.2 25.8-67.2 57.6 0 26-.2 17.9.8 22.4H48V144h480v288zm-168-80h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm0-64h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm0-64h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm-168 96c35.3 0 64-28.7 64-64s-28.7-64-64-64-64 28.7-64 64 28.7 64 64 64z"></path></svg>                 | [sanghoon-park.com/](https://www.sanghoon-park.com/) |
| <svg viewBox="0 0 448 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg">  <path d="M128 148v-40c0-6.6 5.4-12 12-12h40c6.6 0 12 5.4 12 12v40c0 6.6-5.4 12-12 12h-40c-6.6 0-12-5.4-12-12zm140 12h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm-128 96h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm128 0h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm-76 84v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12h40c6.6 0 12-5.4 12-12zm76 12h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm180 124v36H0v-36c0-6.6 5.4-12 12-12h19.5V24c0-13.3 10.7-24 24-24h337c13.3 0 24 10.7 24 24v440H436c6.6 0 12 5.4 12 12zM79.5 463H192v-67c0-6.6 5.4-12 12-12h40c6.6 0 12 5.4 12 12v67h112.5V49L80 48l-.5 415z"></path></svg>                | 영상바이오관 405                                        |