class: center, middle, inverse, title-slide .title[ # 10. 확률 II ] .subtitle[ ## 정치와데이터분석 ] .author[ ### 박상훈 (
sh.park.poli@gmail.com
) ] .date[ ### 강원대학교 ] --- <style> .remark-slide-content { word-break: keep-all; overflow-wrap: break-word; text-align: left; } </style> --- # 확률 II ## 지난 시간 복습: 우리가 할 줄 아는 것 지금까지 배운 것: 회귀분석으로 `\(Y = \hat{\alpha} + \hat{\beta}X\)`를 추정하는 방법 ``` fit <- lm(Y ~ X, data = df) ``` -- `\(\hat{\beta}\)`의 **점추정치**는 구할 수 있음. 그런데 이게 **진짜 효과**인가, 아니면 **우연의 산물**인가? -- `\(\rightarrow\)` 이 질문에 답하려면 **불확실성을 정량화**해야 하고, 그 도구가 바로 **확률** --- # 확률 II ## 이 숫자들은 무엇인가? 아래는 우리가 곧 해석해야 하는 R 출력표: ``` Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 14.738 2.286 6.45 2.4e-09 *** reserved 9.252 3.948 2.34 0.020 * ``` -- + **Estimate** = `\(\hat{\beta}\)`. 이건 우리가 이미 알고 있음 + **Std. Error** = ??? `\(\leftarrow\)` 이걸 이해하려면 **분산과 표준오차**가 필요 + **t value** = ??? `\(\leftarrow\)` 이걸 이해하려면 **표집분포와 CLT**가 필요 + **Pr(>|t|)** = ??? `\(\leftarrow\)` 이걸 이해하려면 **확률분포의 면적**이 필요 --- # 확률 II ## 확률에서 가설검정까지 <img src="10-slides_files/figure-html/unnamed-chunk-1-1.png" alt="" style="display: block; margin: auto;" /> 각 단계가 다음 단계의 **전제 조건**이 됨. 하나라도 빠지면 회귀 분석의 결과를 해석할 수 없음 --- # 확률 II ## 확률변수(Random Variable)란 **확률변수**: 확률 실험의 결과를 **숫자**로 바꿔주는 규칙(함수) -- 왜 숫자로 바꿔야 하는가? 수학적 연산(더하기, 빼기, 평균)을 하려면 숫자가 필요하기 때문 -- <table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:left;"> 실험 결과 (사건) </th> <th style="text-align:left;"> 확률변수 X의 값 </th> <th style="text-align:left;"> 이렇게 바꾸면 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 앞면/뒷면 </td> <td style="text-align:left;"> 1 또는 0 </td> <td style="text-align:left;"> 평균을 구할 수 있음 → 앞면 비율 </td> </tr> <tr> <td style="text-align:left;"> 투표함/기권 </td> <td style="text-align:left;"> 1 또는 0 </td> <td style="text-align:left;"> 합계를 구할 수 있음 → 투표자 수 </td> </tr> <tr> <td style="text-align:left;"> 매우동의/동의/비동의/매우비동의 </td> <td style="text-align:left;"> 4, 3, 2, 1 </td> <td style="text-align:left;"> 평균을 구할 수 있음 → 평균 태도 점수 </td> </tr> </tbody> </table> --- # 확률 II ## 표기법(notation) 해설: 대문자 X vs. 소문자 x 통계학에서 **대문자와 소문자**를 구분하는 것이 매우 중요함 -- + **대문자 `\(X\)`**: 확률변수 그 자체. 아직 **어떤 값이 나올지 모르는** 상태 + "주사위를 던지면 `\(X\)`는 1~6 중 하나가 될 것이다" -- + **소문자 `\(x\)`**: 확률변수가 취하는 **특정 값** (관찰된 결과) + "주사위를 던졌더니 `\(x = 4\)`가 나왔다" --- # 확률 II ## 표기법(notation) 해설: 대문자 X vs. 소문자 x `\(P(X = x)\)`: "확률변수 `\(X\)`가 값 `\(x\)`를 취할 확률". 예: `\(P(X = 4) = 1/6\)` `\(\hat{\beta}\)`: 확률변수 (표본마다 달라짐). `\(\hat{\beta} = 9.252\)`: 특정 표본에서 관찰된 값 우리가 추정한 `\(\hat{\beta} = 9.252\)`는 **하나의 표본**에서 나온 결과 -- + 만약 다른 마을들을 무작위로 뽑아 같은 실험을 반복한다면, **매번 다른 `\(\hat{\beta}\)`**를 얻게 됨 + `\(\hat{\beta}\)`는 표본에 따라 변하는 값 `\(\rightarrow\)` `\(\hat{\beta}\)`는 **확률변수** -- 이 사실이 왜 중요한가? `\(\hat{\beta}\)`가 확률변수라면, **확률분포**를 가지며, 그 분포의 **퍼짐(분산)**을 계산할 수 있음 `\(\rightarrow\)` 이것이 **표준오차(Std. Error)**의 정체 --- # 확률 II ## 이산 확률변수 vs. 연속 확률변수 <table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:left;"> </th> <th style="text-align:left;"> 이산(Discrete) </th> <th style="text-align:left;"> 연속(Continuous) </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 정의 </td> <td style="text-align:left;"> 유한하거나 셀 수 있는 수의 값 </td> <td style="text-align:left;"> 구간 내 연속적인 값 </td> </tr> <tr> <td style="text-align:left;"> 값의 개수 </td> <td style="text-align:left;"> 셀 수 있음 </td> <td style="text-align:left;"> 셀 수 없음 </td> </tr> <tr> <td style="text-align:left;"> 확률 표현 </td> <td style="text-align:left;"> PMF: P(X = x) </td> <td style="text-align:left;"> PDF: f(x), 적분해야 확률 </td> </tr> <tr> <td style="text-align:left;"> 예시 </td> <td style="text-align:left;"> 투표 수, 정당 소속, 주사위 눈 </td> <td style="text-align:left;"> GDP, 소득, 투표율, 체온 </td> </tr> </tbody> </table> -- + **이산**: "투표한 사람 수"는 0, 1, 2, 3... 등 **정수값**만 가능 + **연속**: "소득"은 `\(30{,}000.17, 30{,}000.18, \ldots\)` 등 **무한히 많은** 값을 취할 수 있음 + 회귀 계수 `\(\hat{\beta}\)`는 **연속** 확률변수에 해당함 --- # 확률 II ## 확률분포란 확률변수가 **어떤 값을 취할 가능성**을 체계적으로 나타낸 것 -- + "주사위를 던지면 각 눈이 나올 확률은 `\(1/6\)`씩" `\(\rightarrow\)` 이것이 확률분포 + "키가 170cm인 사람이 175cm인 사람보다 많다" `\(\rightarrow\)` 키의 확률분포가 170 근처에서 더 높음 -- 확률분포를 수학적으로 표현하는 함수가 세 가지 있음: **PMF, PDF, CDF** --- # 확률 II ## 확률질량함수(PMF): 이산 확률변수용 **PMF (Probability Mass Function)**: 이산 확률변수가 특정 값 `\(x\)`를 취할 확률 `$$f(x) = P(X = x)$$` -- + 표기법 해설: `\(P(X = x)\)` 는 "확률변수 `\(X\)`가 값 `\(x\)`를 취할 확률"을 의미 + 대문자 `\(X\)`: 확률변수 그 자체 (아직 어떤 값이 나올지 모르는 상태) + 소문자 `\(x\)`: 확률변수가 취하는 **특정 값** (예: 0, 1, 2, 3) -- **PMF의 성질**: `\(f(x) \ge 0\)` 이고, 모든 가능한 `\(x\)` 에 대해 `\(\sum_x f(x) = 1\)` --- # 확률 II ## PMF 예시: 동전 3회 던지기 동전 3회 던지기에서 앞면 수 `\(X\)`의 PMF: <img src="10-slides_files/figure-html/unnamed-chunk-4-1.png" alt="" style="display: block; margin: auto;" /> "앞면이 정확히 1번 나올 확률은 37.5%": `\(f(1) = P(X = 1) = 0.375\)` --- # 확률 II ## PMF 읽는 법: 수식을 "번역"하기 `\(f(x) = P(X = x)\)`라는 표기가 처음에는 어려울 수 있음. 한 줄씩 풀어보면: -- + `\(f(2) = P(X = 2) = 0.375\)` + 이것을 한국어로 번역하면: **"앞면이 정확히 2번 나올 확률은 0.375(= 37.5%)"** -- + 모든 PMF 값을 더하면 **반드시 1**이 됨: `$$f(0) + f(1) + f(2) + f(3) = 0.125 + 0.375 + 0.375 + 0.125 = 1.000$$` + 이것은 "가능한 모든 결과 중 **반드시 하나는** 일어난다"는 의미 --- # 확률 II ## 확률밀도함수(PDF): 연속 확률변수용 **PDF (Probability Density Function)**: 연속 확률변수에서 특정 **점**의 확률은 0이므로 **밀도**를 사용함 -- + PDF `\(f(x)\)`는 확률 **그 자체**가 아니라, 그 지점에서의 **밀도**(높이) + 확률은 **구간에 대한 적분**(면적)으로 구함: `$$P(a \le X \le b) = \int_a^b f(x) dx \quad \text{(= 곡선 아래 면적)}$$` --- # 확률 II ## 확률밀도함수(PDF): 연속 확률변수용 **PDF (Probability Density Function)**: 연속 확률변수에서 특정 **점**의 확률은 0이므로 **밀도**를 사용함 + 비유: 지도에서 "서울역 한 점"의 면적은 0이지만, "서울역 주변 1km²"의 면적은 양수 + `\(f(x) \ge 0\)`이고, `\(\int_{-\infty}^{\infty} f(x)dx = 1\)` (전체 면적 = 1) + `\(f(x)\)`는 1보다 클 수 있음! (밀도이지 확률이 아니므로) --- # 확률 II ## PDF가 확률이 아닌 "밀도"인 이유 **비유**: 인구밀도를 생각해 보자 + "서울의 인구밀도는 `\(16{,}000\)`명/km²" `\(\leftarrow\)` 이 숫자는 1보다 훨씬 큼! + 그러나 인구밀도 자체가 "사람 수"는 아님. **면적을 곱해야** 실제 인구가 됨 -- 마찬가지로 PDF `\(f(x)\)`는 **밀도**이며, **구간의 폭을 곱해야(= 적분해야)** 확률이 됨 `$$\underbrace{P(a \le X \le b)}_{\text{확률}} = \underbrace{\int_a^b f(x)dx}_{\text{밀도 × 구간 폭의 합}}$$` --- # 확률 II ## PMF vs. PDF vs. CDF: 요약 비교 <table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:left;"> </th> <th style="text-align:left;"> PMF </th> <th style="text-align:left;"> PDF </th> <th style="text-align:left;"> CDF </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 적용 대상 </td> <td style="text-align:left;"> 이산 확률변수 </td> <td style="text-align:left;"> 연속 확률변수 </td> <td style="text-align:left;"> 이산 + 연속 모두 </td> </tr> <tr> <td style="text-align:left;"> 의미 </td> <td style="text-align:left;"> P(X = x) </td> <td style="text-align:left;"> 밀도 (확률 아님!) </td> <td style="text-align:left;"> P(X ≤ x) </td> </tr> <tr> <td style="text-align:left;"> 값의 범위 </td> <td style="text-align:left;"> 0~1 </td> <td style="text-align:left;"> 0~∞ 가능 </td> <td style="text-align:left;"> 0~1 </td> </tr> <tr> <td style="text-align:left;"> 확률 구하는 법 </td> <td style="text-align:left;"> f(x)를 직접 읽음 </td> <td style="text-align:left;"> 구간을 적분 </td> <td style="text-align:left;"> F(b) - F(a) </td> </tr> <tr> <td style="text-align:left;"> R 함수 (정규) </td> <td style="text-align:left;"> dbinom() </td> <td style="text-align:left;"> dnorm() </td> <td style="text-align:left;"> pnorm() </td> </tr> </tbody> </table> --- # 확률 II ## 누적분포함수(CDF) **CDF (Cumulative Distribution Function)**: 확률변수가 `\(x\)` **이하**일 확률 `$$F(x) = P(X \le x)$$` -- + 이산: `\(F(x) = \sum_{k \le x} f(k)\)` `\(\leftarrow\)` PMF를 **차례로 더한 것** + 연속: `\(F(x) = \int_{-\infty}^{x} f(t) dt\)` `\(\leftarrow\)` PDF의 **왼쪽 면적** -- **CDF의 성질**: + 항상 **올라가기만** 함 (단조 비감소) + 왼쪽 끝에서 0, 오른쪽 끝에서 1: `\(F(-\infty) = 0\)`, `\(F(\infty) = 1\)` --- # 확률 II ## CDF의 시각화 <img src="10-slides_files/figure-html/unnamed-chunk-6-1.png" alt="" style="display: block; margin: auto;" /> 이산 CDF는 **계단 함수** (값이 뛸 때만 증가), 연속 CDF는 **매끄러운 곡선** --- # 확률 II ## PMF `\(\rightarrow\)` CDF 단계별 계산 동전 3회 던지기의 CDF를 PMF로부터 **하나씩 쌓아 올리면**: -- `\(F(0) = f(0) = 0.125\)` `\(F(1) = f(0) + f(1) = 0.125 + 0.375 = 0.500\)` `\(F(2) = f(0) + f(1) + f(2) = 0.500 + 0.375 = 0.875\)` `\(F(3) = 0.875 + 0.125 = 1.000\)` -- **CDF의 활용**: `\(P(1 \le X \le 2) = F(2) - F(0) = 0.875 - 0.125 = 0.750\)` --- # 확률 II ## 회귀와의 연결: p-값은 PDF의 면적 R 출력에서 `Pr(>|t|) = 0.020`은 **t-분포(연속 확률분포)**에서 `\(|t| > 2.34\)`인 영역의 **면적** <img src="10-slides_files/figure-html/unnamed-chunk-7-1.png" alt="" style="display: block; margin: auto;" /> `\(\rightarrow\)` PDF와 적분의 개념 없이는 p-값을 이해할 수 없음! --- # 확률 II ## 베르누이 분포(Bernoulli Distribution) 가장 단순한 이산 분포. **한 번의 시행**에서 성공(1) 또는 실패(0) -- **PMF**: `\(f(x) = \begin{cases} p & \text{if } x = 1 \text{ (성공)} \\ 1-p & \text{if } x = 0 \text{ (실패)} \end{cases}\)` -- + `\(p\)`는 **성공 확률**이라는 **모수(parameter)**. 분포의 형태를 결정함 + **기대값**: `\(E(X) = p\)` `\(\leftarrow\)` "장기적으로 평균 얼마나 성공하는가" + **분산**: `\(V(X) = p(1-p)\)` `\(\leftarrow\)` "결과가 얼마나 불확실한가" --- # 확률 II ## 베르누이 분포의 예시 <table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:left;"> 예시 </th> <th style="text-align:left;"> X = 1 </th> <th style="text-align:left;"> X = 0 </th> <th style="text-align:left;"> p </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 동전 던지기 </td> <td style="text-align:left;"> 앞면 </td> <td style="text-align:left;"> 뒷면 </td> <td style="text-align:left;"> 0.5 </td> </tr> <tr> <td style="text-align:left;"> 투표 참여 여부 </td> <td style="text-align:left;"> 투표함 </td> <td style="text-align:left;"> 기권 </td> <td style="text-align:left;"> 0.60 </td> </tr> <tr> <td style="text-align:left;"> 이력서 실험 콜백 </td> <td style="text-align:left;"> 합격 </td> <td style="text-align:left;"> 불합격 </td> <td style="text-align:left;"> 0.097 </td> </tr> <tr> <td style="text-align:left;"> 여성 의장 할당 여부 </td> <td style="text-align:left;"> 할당됨 (처치) </td> <td style="text-align:left;"> 비할당 (통제) </td> <td style="text-align:left;"> 0.33 </td> </tr> </tbody> </table> -- **회귀와의 연결**: 무작위 실험에서 처치 변수 `\(T_i\)`는 **베르누이 확률변수** + `\(T_i = 1\)` (처치) 또는 `\(T_i = 0\)` (통제) + 이것이 `\(Y = \alpha + \beta T + \epsilon\)`에서 `\(T\)`의 정체 --- # 확률 II ## 이항분포: 베르누이의 "반복 합산" `\(n\)`번의 **독립적이고 동일한** 베르누이 시행에서 성공 횟수 `\(X\)`의 분포 `$$X = Y_1 + Y_2 + \cdots + Y_n, \quad \text{각 } Y_i \sim \text{Bernoulli}(p)$$` -- **핵심 용어 해설**: + **독립적(independent)**: 한 시행의 결과가 다른 시행에 영향을 주지 않음 + **동일한(identically distributed)**: 매번 같은 성공 확률 `\(p\)`로 시행 + **i.i.d.**: "independently and identically distributed"의 약자. 통계학에서 가장 자주 등장하는 가정 --- # 확률 II ## 이항분포의 PMF `$$f(x) = P(X = x) = \binom{n}{x} p^x (1-p)^{n-x}$$` -- 이 수식을 **한 조각씩** 해석하면: + `\(\binom{n}{x}\)`: `\(n\)`번 중 `\(x\)`번 성공하는 **경우의 수** (순서 무관) + `\(p^x\)`: `\(x\)`번 연속으로 성공할 확률 (독립이므로 곱셈) + `\((1-p)^{n-x}\)`: 나머지 `\(n-x\)`번 실패할 확률 + 이 세 요소를 곱하면 "**정확히 `\(x\)`번 성공**할 확률" --- # 확률 II ## 이항분포의 기대값과 분산 **기대값**: `\(E(X) = np\)` `\(\leftarrow\)` "평균적으로 몇 번 성공하는가" -- **유도**: `\(E(X) = E(Y_1 + Y_2 + \cdots + Y_n) = E(Y_1) + E(Y_2) + \cdots + E(Y_n) = np\)` 기대값의 **선형성** 덕분에 `\(n\)`개를 따로따로 더할 수 있음 (독립 여부 무관!) -- **분산**: `\(V(X) = np(1-p)\)` `\(\leftarrow\)` "성공 횟수가 얼마나 흩어지는가" **유도**: `\(V(X) = V(Y_1) + V(Y_2) + \cdots + V(Y_n) = np(1-p)\)` 독립이므로 분산도 따로따로 더할 수 있음 (**독립일 때만** 성립!) --- # 확률 II ## 이항분포 예시 1: 비만율 미국 비만율 `\(p = 0.262\)`일 때, 10명 중 정확히 8명이 비만일 확률은? `$$P(X=8) = \binom{10}{8}(0.262)^8(0.738)^2 \approx 0.0005$$` -- + `\(E(X) = 10 \times 0.262 = 2.62\)`명 `\(\leftarrow\)` 10명 중 평균 2~3명이 비만 + 8명은 기대값(2.62)에서 **매우 먼** 값 `\(\rightarrow\)` 확률이 극히 낮음 (0.05%) --- # 확률 II ## 이항분포 예시 2: 나의 한 표가 결정적일 확률 유권자 50:50으로 나뉜 선거에서, 투표가 동률이 되어 내 한 표로 결과가 바뀔 확률은? <table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:center;"> 투표자 수(n) </th> <th style="text-align:center;"> 동률 확률 </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> 1,000 </td> <td style="text-align:center;"> 0.02523 </td> </tr> <tr> <td style="text-align:center;"> 10,000 </td> <td style="text-align:center;"> 0.007979 </td> </tr> <tr> <td style="text-align:center;"> 100,000 </td> <td style="text-align:center;"> 0.002523 </td> </tr> </tbody> </table> -- 유권자 수가 늘어날수록 동률 확률은 급격히 감소 `\(\rightarrow\)` 합리적 투표자 모형의 역설(Paradox of Voting) --- # 확률 II ## 이항분포의 시각화: p에 따른 형태 변화 <img src="10-slides_files/figure-html/unnamed-chunk-10-1.png" alt="" style="display: block; margin: auto;" /> `\(p=0.5\)`일 때 **대칭**, `\(p\)`가 극단으로 갈수록 **비대칭**. `\(n\)`이 커지면 어떤 `\(p\)`든 **종 모양에 근접** (이것이 CLT!) --- # 확률 II ## 이항분포의 CDF 활용 10명 중 **3명 이하**가 비만일 확률은? (`\(p = 0.262\)`) <table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:center;"> X </th> <th style="text-align:center;"> P(X=x) [PMF] </th> <th style="text-align:center;"> P(X≤x) [CDF] </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> 0 </td> <td style="text-align:center;"> 0.0479 </td> <td style="text-align:center;"> 0.0479 </td> </tr> <tr> <td style="text-align:center;"> 1 </td> <td style="text-align:center;"> 0.1701 </td> <td style="text-align:center;"> 0.2181 </td> </tr> <tr> <td style="text-align:center;"> 2 </td> <td style="text-align:center;"> 0.2718 </td> <td style="text-align:center;"> 0.4899 </td> </tr> <tr> <td style="text-align:center;"> 3 </td> <td style="text-align:center;"> 0.2573 </td> <td style="text-align:center;"> 0.7472 </td> </tr> <tr> <td style="text-align:center;"> 4 </td> <td style="text-align:center;"> 0.1599 </td> <td style="text-align:center;"> 0.9071 </td> </tr> <tr> <td style="text-align:center;"> 5 </td> <td style="text-align:center;"> 0.0681 </td> <td style="text-align:center;"> 0.9752 </td> </tr> </tbody> </table> `\(P(X \le 3) = F(3) = 0.7237\)`. R에서는 `pbinom(3, 10, 0.262)` 한 줄로 계산 가능 --- # 확률 II ## 이항분포의 정규 근사 (CLT의 미리보기) `\(n\)`이 충분히 크면, 이항분포는 **정규분포와 거의 동일한 형태**가 됨 <img src="10-slides_files/figure-html/unnamed-chunk-12-1.png" alt="" style="display: block; margin: auto;" /> `\(n = 100\)`이면 이항분포와 `\(N(np, np(1-p))\)`이 거의 일치 `\(\rightarrow\)` 이것이 **CLT가 작동**하는 것! --- # 확률 II ## 균등분포(Uniform Distribution) 구간 `\([a, b]\)` 내의 모든 값이 **동일한 확률**을 가지는 분포 -- + **PDF**: `\(f(x) = \frac{1}{b-a}\)`, `\(a \le x \le b\)` `\(\leftarrow\)` 직사각형 모양 + **CDF**: `\(F(x) = \frac{x-a}{b-a}\)` `\(\leftarrow\)` 직선 + **기대값**: `\(E(X) = \frac{a+b}{2}\)` (구간의 중점) + **분산**: `\(V(X) = \frac{(b-a)^2}{12}\)` --- # 확률 II ## 균등분포(Uniform Distribution) 구간 `\([a, b]\)` 내의 모든 값이 **동일한 확률**을 가지는 분포 <img src="10-slides_files/figure-html/unnamed-chunk-13-1.png" alt="" style="display: block; margin: auto;" /> --- # 확률 II ## 정규분포가 왜 가장 중요한가 **CLT(중심극한정리)** 때문: + **어떤 분포**에서 표본을 추출하든, 표본 평균의 분포는 정규분포에 수렴 + 따라서 회귀 계수 `\(\hat{\beta}\)`의 분포도 정규분포에 근사 `\(\rightarrow\)` p-값 계산이 가능해짐 -- 정규분포는 평균 `\(\mu\)`와 표준편차 `\(\sigma\)` 두 개의 모수로 완전히 정의됨: `\(X \sim N(\mu, \sigma^2)\)` -- **PDF**: `\(f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}\)` (이 수식을 외울 필요는 없지만, `\(\mu\)`와 `\(\sigma\)`가 분포의 형태를 결정한다는 것은 알아야 함) --- # 확률 II ## 정규분포: μ와 σ의 효과 <img src="10-slides_files/figure-html/unnamed-chunk-14-1.png" alt="" style="display: block; margin: auto;" /> + `\(\mu\)`가 바뀌면 분포가 **좌우로 이동** (위치) + `\(\sigma\)`가 커지면 분포가 **납작해짐** (퍼짐) --- # 확률 II ## 68-95-99.7 규칙 <img src="10-slides_files/figure-html/unnamed-chunk-15-1.png" alt="" style="display: block; margin: auto;" /> + `\(\mu \pm 1\sigma\)`: 약 **68%**, `\(\mu \pm 2\sigma\)`: 약 **95%**, `\(\mu \pm 3\sigma\)`: 약 **99.7%** + **회귀분석과의 연결**: "95% 신뢰구간 = `\(\hat{\beta} \pm 2 \times SE\)`"가 여기서 나옴! --- # 확률 II ## 표준정규분포와 Z-점수 **표준정규분포**: `\(Z \sim N(0, 1)\)`. 평균 0, 분산 1인 정규분포 임의의 정규분포를 **표준화(standardization)**: `$$Z = \frac{X - \mu}{\sigma}$$` -- + " `\(X\)`에서 평균을 빼고, 표준편차로 나눈다" `\(\rightarrow\)` "**평균에서 몇 표준편차 떨어져 있는가**"를 측정 + **회귀와의 연결**: `t value = Estimate / Std.Error = 9.252 / 3.948 = 2.34` + 이것은 `\(\hat{\beta}\)`가 0(귀무값)으로부터 **2.34 표준오차** 떨어져 있다는 뜻! --- # 확률 II ## Z-점수 예시: 시험 점수 비교 Pam의 SAT: 1800점 (평균 1500, SD 300) `\(\rightarrow Z = \frac{1800-1500}{300} = 1.0\)` Jim의 ACT: 24점 (평균 21, SD 5) `\(\rightarrow Z = \frac{24-21}{5} = 0.6\)` -- + Pam은 평균보다 **1.0 표준편차** 위, Jim은 **0.6 표준편차** 위 + `\(\rightarrow\)` **Pam이 상대적으로 더 높은 성적** + Z-점수를 통해 **단위가 다른** 변수를 비교할 수 있음 --- # 확률 II ## 정규분포를 이용한 확률 계산 체온이 `\(N(98.2, 0.73^2)\)`을 따를 때, 체온 99.0°F 이상일 확률은? `$$Z = \frac{99.0 - 98.2}{0.73} = 1.096 \quad \Rightarrow \quad P(X > 99.0) = P(Z > 1.096) \approx 0.137$$` <img src="10-slides_files/figure-html/unnamed-chunk-16-1.png" alt="" style="display: block; margin: auto;" /> --- # 확률 II ## 표준정규분포표 `\(Z\)`-점수로 변환하면 **하나의 표** (R에서는 `pnorm()`)로 모든 정규분포의 확률을 계산 가능 <table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:center;"> Z-점수 </th> <th style="text-align:center;"> P(Z ≤ z) </th> <th style="text-align:center;"> P(Z > z) </th> <th style="text-align:center;"> 의미 </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> 1.0 </td> <td style="text-align:center;"> 0.8413 </td> <td style="text-align:center;"> 0.1587 </td> <td style="text-align:center;"> 상위 15.9% </td> </tr> <tr> <td style="text-align:center;"> 1.64 </td> <td style="text-align:center;"> 0.9495 </td> <td style="text-align:center;"> 0.0505 </td> <td style="text-align:center;"> 90% CI 기준 </td> </tr> <tr> <td style="text-align:center;"> 1.96 </td> <td style="text-align:center;"> 0.9750 </td> <td style="text-align:center;"> 0.0250 </td> <td style="text-align:center;"> 95% CI 기준 ★ </td> </tr> <tr> <td style="text-align:center;"> 2.0 </td> <td style="text-align:center;"> 0.9772 </td> <td style="text-align:center;"> 0.0228 </td> <td style="text-align:center;"> 상위 2.3% </td> </tr> <tr> <td style="text-align:center;"> 2.34 </td> <td style="text-align:center;"> 0.9904 </td> <td style="text-align:center;"> 0.0096 </td> <td style="text-align:center;"> 여성할당 실험의 t값! </td> </tr> <tr> <td style="text-align:center;"> 2.58 </td> <td style="text-align:center;"> 0.9951 </td> <td style="text-align:center;"> 0.0049 </td> <td style="text-align:center;"> 99% CI 기준 </td> </tr> </tbody> </table> --- # 확률 II ## 주요 분포 요약 <table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:center;"> 분포 </th> <th style="text-align:center;"> 기대값 </th> <th style="text-align:center;"> 분산 </th> <th style="text-align:center;"> 회귀에서의 역할 </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> 베르누이 Bern(p) </td> <td style="text-align:center;"> p </td> <td style="text-align:center;"> p(1-p) </td> <td style="text-align:center;"> 처치 변수 Tᵢ </td> </tr> <tr> <td style="text-align:center;"> 이항 Binom(n,p) </td> <td style="text-align:center;"> np </td> <td style="text-align:center;"> np(1-p) </td> <td style="text-align:center;"> 지지자 수 Sⱼ </td> </tr> <tr> <td style="text-align:center;"> 균등 Unif(a,b) </td> <td style="text-align:center;"> (a+b)/2 </td> <td style="text-align:center;"> (b-a)²/12 </td> <td style="text-align:center;"> (시뮬레이션 입력) </td> </tr> <tr> <td style="text-align:center;"> 정규 N(μ,σ²) </td> <td style="text-align:center;"> μ </td> <td style="text-align:center;"> σ² </td> <td style="text-align:center;"> β̂의 표집분포 </td> </tr> </tbody> </table> --- # 확률 II ## 기대값(Expected Value) 확률분포의 **이론적 평균**. 모든 가능한 값을 확률로 가중평균한 것 -- 이산: `\(E(X) = \sum_x x \cdot P(X=x)\)` `\(\leftarrow\)` "각 값 × 그 확률"을 모두 더한 것 연속: `\(E(X) = \int_{-\infty}^{\infty} x \cdot f(x) dx\)` --- # 확률 II ## 표기법 해설: `\(E(\cdot)\)`의 의미 `\(E(\cdot)\)`는 "기대값 연산자(expectation operator)"로, **괄호 안의 것**의 이론적 평균을 구하라는 의미 -- + `\(E(X)\)` = 확률변수 `\(X\)`의 기대값 + `\(E(X^2)\)` = `\(X\)`를 **제곱한 것**의 기대값 (X의 기대값을 제곱한 것과 **다름**!) + `\(E(\hat{\beta})\)` = 추정량 `\(\hat{\beta}\)`의 기대값 (반복 실험 시 `\(\hat{\beta}\)`의 평균) -- **"가중평균"이란?**: 보통 평균은 각 값에 `\(1/n\)`을 곱하여 더함. 기대값은 `\(1/n\)` 대신 **확률**을 가중치로 사용한 평균 --- # 확률 II ## 기대값 vs. 표본 평균: 핵심 구분 <table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:left;"> </th> <th style="text-align:left;"> 표본 평균 X̄ </th> <th style="text-align:left;"> 기대값 E(X) </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 표기 </td> <td style="text-align:left;"> X̄ = (1/n)ΣXᵢ </td> <td style="text-align:left;"> E(X) = Σx·P(X=x) </td> </tr> <tr> <td style="text-align:left;"> 의미 </td> <td style="text-align:left;"> 특정 데이터에서 계산한 값 </td> <td style="text-align:left;"> 확률분포가 결정하는 이론적 상수 </td> </tr> <tr> <td style="text-align:left;"> 성격 </td> <td style="text-align:left;"> 표본마다 변함 (확률변수) </td> <td style="text-align:left;"> 고정됨 (상수) </td> </tr> <tr> <td style="text-align:left;"> 예시 </td> <td style="text-align:left;"> 조사에서 관찰한 지지율 43% </td> <td style="text-align:left;"> 진짜 모집단 지지율 (모르는 값) </td> </tr> </tbody> </table> -- LLN이 보장하는 것: `\(n\)`이 커지면 `\(\bar{X} \to E(X)\)` (표본 평균이 기대값에 수렴) --- # 확률 II ## 기대값 예시: 주사위 `\(E(X) = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} = 3.5\)` -- 3.5는 주사위에서 **실제로 나올 수 없는** 값이지만, **장기적 평균**을 나타냄 --- # 확률 II ## 기대값의 선형성(Linearity) `\(E(aX + b) = aE(X) + b\)` `\(E(X + Y) = E(X) + E(Y)\)` `\(\leftarrow\)` **항상** 성립! (독립이 아니어도!) -- **예시**: 동전 100회 던지기에서 앞면 수의 기대값 `$$E(X) = E(Y_1 + Y_2 + \cdots + Y_{100}) = 100 \times 0.5 = 50$$` -- **회귀분석과의 연결**: `\(E(\hat{\beta}) = \beta\)`이면 `\(\hat{\beta}\)`는 **불편추정량(unbiased estimator)** "평균적으로 정확하게 진짜 효과를 맞힌다" --- # 확률 II ## 분산(Variance) 확률분포의 **퍼짐(spread)** 정도. "기대값 주위로 얼마나 흩어져 있는가" `$$V(X) = E\left[(X - E(X))^2\right]$$` -- + `\((X - E(X))\)`: 평균에서의 편차 `\(\leftarrow\)` 양수일 수도, 음수일 수도 있음 + `\((X - E(X))^2\)`: 편차의 제곱 `\(\leftarrow\)` 항상 양수 (부호를 없앰) + `\(E[\cdot]\)`: 편차 제곱의 **평균** `\(\leftarrow\)` 이것이 분산 -- **왜 제곱하는가?** 편차를 그냥 더하면 양수와 음수가 상쇄되어 항상 0이 됨. 제곱해야 "퍼짐"을 측정할 수 있음 --- # 확률 II ## 표기법 해설: `\(V(\cdot)\)`, `\(\sigma^2\)`, `\(\sigma\)` 같은 것을 가리키는 여러 표기법: -- + `\(V(X)\)` = `\(\sigma^2\)` = `\(\text{Var}(X)\)`: 모두 **분산**을 나타냄 + `\(\sigma\)` = `\(\sqrt{V(X)}\)`: **표준편차** `\(\leftarrow\)` 분산의 제곱근. 원래 단위로 돌아감 -- **왜 표준편차가 더 직관적인가?** + 키의 분산: `\(V = 100 \text{cm}^2\)` `\(\leftarrow\)` `\(\text{cm}^2\)`가 무엇을 의미하는지 감이 안 옴 + 키의 표준편차: `\(\sigma = 10 \text{cm}\)` `\(\leftarrow\)` "평균에서 대략 10cm 정도 흩어져 있다" -- **계산 공식(computational formula)**: `\(V(X) = E(X^2) - [E(X)]^2\)` --- # 확률 II ## 분산의 연산 규칙 `\(V(a) = 0\)` `\(\leftarrow\)` 상수의 분산은 0 (변하지 않으므로) `\(V(X + b) = V(X)\)` `\(\leftarrow\)` 상수를 더해도 퍼짐은 변하지 않음 `\(V(aX) = a^2 V(X)\)` `\(\leftarrow\)` 상수 곱셈은 **제곱**으로 영향 -- **독립**인 경우: `\(V(X + Y) = V(X) + V(Y)\)` **일반적인** 경우: `\(V(X + Y) = V(X) + V(Y) + 2\text{Cov}(X, Y)\)` -- **회귀와의 연결**: Std. Error = `\(\sqrt{V(\hat{\beta})}\)`. 분산의 연산 규칙이 SE 공식의 근거! --- # 확률 II ## 분산 예시: 베르누이의 분산과 p의 관계 <img src="10-slides_files/figure-html/unnamed-chunk-20-1.png" alt="" style="display: block; margin: auto;" /> 여론조사에서 **지지율 50:50**일 때 표집변동성(SE)이 최대인 이유! --- # 확률 II ## 공분산(Covariance) 두 확률변수가 **함께 변하는** 정도를 측정하는 측도 `$$\text{Cov}(X, Y) = E[(X - E(X))(Y - E(Y))]$$` -- + `\(> 0\)`: 같은 방향으로 변동 (X 크면 Y도 큰 경향) + `\(< 0\)`: 반대 방향 (X 크면 Y 작은 경향) + `\(= 0\)`: 선형 관계 없음 -- **독립이면 공분산은 0**이지만, 공분산이 0이라고 반드시 독립은 아님! --- # 확률 II ## 대수의 법칙(LLN)이란 > 표본 크기 `\(n\)`이 증가하면, 표본 평균 `\(\bar{X}_n\)`은 기대값 `\(E(X)\)`에 **수렴** `$$\bar{X}_n = \frac{1}{n}\sum_{i=1}^{n} X_i \longrightarrow E(X) \quad \text{as } n \to \infty$$` -- **직관**: 데이터를 더 많이 모을수록, 계산한 평균이 진짜 평균에 가까워짐 -- **여론조사에서의 의미**: 1,000명만 무작위로 잘 뽑으면, 5,000만 유권자의 선호를 추정 가능 **회귀분석에서의 의미**: `\(n\)`이 커지면 `\(\hat{\beta} \to \beta\)` (일치성, consistency) --- # 확률 II ## LLN의 시뮬레이션 <img src="10-slides_files/figure-html/unnamed-chunk-21-1.png" alt="" style="display: block; margin: auto;" /> 처음에는 변동이 크지만, `\(n\)`이 커질수록 **안정적으로 수렴** --- # 확률 II ## LLN의 함정: 도박꾼의 오류 **도박꾼의 오류**: "앞면이 5번 연속 나왔으니, 다음에는 뒷면이 나올 확률이 높다" -- 이는 **잘못된 추론**! 각 동전 던지기는 **독립**이므로: `$$P(T_6 | H_1 H_2 H_3 H_4 H_5) = P(T_6) = 0.5$$` -- LLN은 **장기적으로** 평균이 수렴한다는 것이지, 단기적으로 "**교정(correction)**"이 일어난다는 것이 아님 --- # 확률 II ## 중심극한정리(CLT) > 표본 크기 `\(n\)`이 충분히 크면, **원래 분포가 무엇이든**, 표본 평균의 분포는 **정규분포**에 근사 `$$\bar{X}_n \stackrel{\text{approx}}{\sim} N\left(E(X), \frac{V(X)}{n}\right)$$` -- 표준화하면: `\(Z = \frac{\bar{X}_n - E(X)}{\sqrt{V(X)/n}} \longrightarrow N(0, 1)\)` -- CLT는 통계학에서 **가장 중요한 정리** `\(\rightarrow\)` 이것이 없으면 SE, CI, p-값이 모두 불가능 --- # 확률 II ## CLT 수식을 "한 조각씩" 읽기 `$$\bar{X}_n \stackrel{\text{approx}}{\sim} N\left(\underbrace{E(X)}_{\text{중심}}, \quad \underbrace{\frac{V(X)}{n}}_{\text{퍼짐}}\right)$$` -- + **중심** `\(E(X)\)`: 표본 평균의 기대값은 모집단 평균과 같음 (불편성) + **퍼짐** `\(\frac{V(X)}{n}\)`: 표본 평균의 분산. `\(n\)`이 커지면 **0에 수렴** (정밀해짐) + `\(\stackrel{\text{approx}}{\sim}\)`: "근사적으로 따른다". `\(n\)`이 클수록 근사가 정확해짐 --- # 확률 II ## CLT 수식을 "한 조각씩" 읽기 `$$\bar{X}_n \stackrel{\text{approx}}{\sim} N\left(\underbrace{E(X)}_{\text{중심}}, \quad \underbrace{\frac{V(X)}{n}}_{\text{퍼짐}}\right)$$` 핵심 조건: `\(X_1, X_2, \ldots, X_n\)`이 **i.i.d.**여야 함 + **i**(independent): 각 관측이 다른 관측에 영향을 주지 않음 (무작위 표본이면 충족) + **i.d.**(identically distributed): 모든 관측이 같은 분포에서 나옴 (같은 모집단이면 충족) --- # 확률 II ## CLT가 놀라운 이유 <img src="10-slides_files/figure-html/unnamed-chunk-22-1.png" alt="" style="display: block; margin: auto;" /> 원래 분포가 **극도로 비대칭**이어도, `\(n\)`이 커지면 표본평균은 **정규분포에 수렴**! --- # 확률 II ## 회귀분석과의 연결: CLT가 가설검정을 가능하게 함 `\(\hat{\beta}\)`는 여러 관측치의 **가중 합**으로 계산됨 CLT에 의해 `\(\hat{\beta}\)`의 **표집분포**는 정규분포에 근사: `$$\hat{\beta} \stackrel{\text{approx}}{\sim} N\left(\beta, V(\hat{\beta})\right)$$` -- 이제 이 정규분포의 **표준편차**(= Std. Error)를 구할 수 있다면: `$$t = \frac{\hat{\beta} - 0}{SE(\hat{\beta})} \stackrel{\text{approx}}{\sim} N(0, 1)$$` 이것이 바로 R 출력의 **t value**! CLT 없이는 이 계산이 불가능함 --- # 확률 II ## 가설검정 미리보기: 재판의 논리 가설검정은 **형사재판**과 같은 논리 구조를 따름 -- + **영가설( `\(H_0\)` )**: 피고인은 **무죄**다 (현상유지, status quo) + **대안가설( `\(H_A\)` )**: 피고인은 **유죄**다 (연구가설, 입증하고 싶은 것) + **입증 책임**: 검찰(연구자)에게 있음. 피고인(영가설)이 자신의 무죄를 증명할 필요는 없음 -- **판결**: 증거를 바탕으로 "무죄 가정 하에서 이런 증거가 나타날 가능성이 극히 낮다"면 `\(\rightarrow\)` 유죄(기각) "무죄 가정과 양립 가능한 증거"이면 `\(\rightarrow\)` 무죄(기각 실패). 단, "**무죄를 확정**"하는 것이 아니라 "**유죄를 입증하지 못한 것**" --- # 확률 II ## 가설검정 미리보기: 확률적 모순증명법 수학의 **모순 증명법(proof by contradiction)**을 확률적으로 변환한 것 -- 1. 부정하고 싶은 명제( `\(H_0\)` )를 **참이라고 가정**함 2. 이 가정 하에서 관측된 데이터가 나타날 **확률**을 계산함 3. 그 확률이 **매우 낮으면** `\(\rightarrow\)` "가정이 틀렸을 가능성이 높다" `\(\rightarrow\)` `\(H_0\)` **기각** -- 수학에서는 100% 확실한 모순을 보이지만, 통계학에서는 **확률적**이므로 100% 확실하게 기각할 수 없음 `\(\rightarrow\)` 그래서 **유의수준( `\(\alpha\)` )**이라는 "기각 기준"을 미리 정해둠 (보통 5%) --- # 확률 II ## 가설검정 미리보기: 검정통계량과 p-값 **검정통계량**: 관측된 추정치가 영가설의 값으로부터 **몇 표준오차** 떨어져 있는지 `$$Z = \frac{\text{점추정치} - \text{영가설의 값}}{SE}$$` -- **p-값**: `\(H_0\)`가 참이라고 가정했을 때, 이 정도 극단적인 결과가 나타날 확률 `$$\text{p-value} = P(\text{이 정도 이상으로 극단적인 결과} \;|\; H_0 \text{ 참})$$` -- + `\(p < 0.05\)` `\(\rightarrow\)` " `\(H_0\)`가 참이라면 이런 데이터는 5% 미만의 확률로만 나타남" `\(\rightarrow\)` `\(H_0\)` **기각** + `\(p \ge 0.05\)` `\(\rightarrow\)` " `\(H_0\)`가 참이어도 이런 데이터는 충분히 나타날 수 있음" `\(\rightarrow\)` `\(H_0\)` **기각 실패** --- # 확률 II ## 가설검정 미리보기 ``` Estimate Std. Error t value Pr(>|t|) reserved 9.252 3.948 2.34 0.020 * ``` 이 한 줄을 **완전히 해독**하면: + `\(H_0: \beta = 0\)` (여성 할당의 효과가 없다) + `\(\hat{\beta} = 9.252\)`, 이 추정치가 0에서 **2.34 표준오차** 떨어져 있음 + `\(H_0\)`가 참이라면 이 정도 극단적인 결과가 나타날 확률은 **2.0%** + `\(2.0\% < 5\%\)` `\(\rightarrow\)` `\(H_0\)` **기각** `\(\rightarrow\)` "여성 할당이 효과가 없다"는 가정을 **배리** + `\(*\)` 표시: 5% 수준에서 통계적으로 유의함 --- # 확률 II ## 가설검정 미리보기: 오류의 가능성 재판에서 오판이 가능하듯, 가설검정에서도 **두 종류의 오류**가 존재함 <table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:center;"> </th> <th style="text-align:center;"> H₀ 참 (무고한 피고인) </th> <th style="text-align:center;"> H₀ 거짓 (유죄인 피고인) </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> H₀ 기각 (유죄 판결) </td> <td style="text-align:center;"> 제1종 오류 ✗ 무고한 사람에게 유죄 선고 </td> <td style="text-align:center;"> 올바른 결정 ✓ </td> </tr> <tr> <td style="text-align:center;"> H₀ 유지 (무죄 판결) </td> <td style="text-align:center;"> 올바른 결정 ✓ </td> <td style="text-align:center;"> 제2종 오류 ✗ 범인을 무죄 방면 </td> </tr> </tbody> </table> -- + `\(\alpha = 0.05\)` 의 의미: `\(H_0\)`가 참일 때 잘못 기각할 확률을 **5% 이하**로 통제 + "열 명의 범인을 놓치더라도 한 명의 무고한 사람을 처벌하지 않는 것이 낫다" `\(\rightarrow\)` 제1종 오류를 더 심각하게 봄 --- # 확률 II ## 표집분포(Sampling Distribution) **표집분포**: 같은 실험을 **무한히 반복**했을 때, 통계량(예: `\(\hat{\beta}\)`)이 따르는 분포 -- + 현실: 하나의 표본, 하나의 `\(\hat{\beta}\)` = 9.252 + 이론: 이 실험을 무한히 반복하면 매번 다른 `\(\hat{\beta}\)`를 얻을 것이며, 그 `\(\hat{\beta}\)`들의 분포가 **표집분포** + CLT에 의해 이 분포는 정규분포에 근사 --- # 확률 II ## 표집분포를 이해하는 사고실험 여론조사 회사 3곳이 **같은 날** 같은 모집단에서 각각 1,000명을 조사한다고 상상해 보자 -- + A 조사: `\(\hat{p} = 0.43\)` + B 조사: `\(\hat{p} = 0.45\)` + C 조사: `\(\hat{p} = 0.44\)` -- 세 결과가 다른 이유: 각 회사가 뽑은 1,000명이 **다른 사람들**이므로 (표집변동) 이런 조사를 **무한히 반복**하면, `\(\hat{p}\)`값들의 분포가 만들어짐 `\(\rightarrow\)` 이것이 **표집분포** 그리고 이 분포의 **표준편차**가 바로 **표준오차(SE)** --- # 확률 II ## 표준오차(Standard Error) 표집분포의 **표준편차** = **표준오차(SE)** `$$SE(\bar{X}) = \frac{\sigma}{\sqrt{n}} \quad \leftarrow \text{이것이 R 출력의 "Std. Error"!}$$` --- # 확률 II ## SE의 유도: 왜 `\(\sigma/\sqrt{n}\)`인가? **1단계**: 표본 평균을 분산 연산자 안에 넣기 `$$V(\bar{X}_n) = V\left(\frac{1}{n}\sum_{i=1}^n X_i\right)$$` -- **2단계**: `\(\frac{1}{n}\)`은 상수이므로 밖으로 빼면 **제곱**이 됨: `\(V(aX) = a^2V(X)\)` `$$= \frac{1}{n^2} V\left(\sum_{i=1}^n X_i\right)$$` --- # 확률 II ## SE의 유도: 왜 `\(\sigma/\sqrt{n}\)`인가? **3단계**: `\(X_i\)`들이 **독립**이므로 분산의 합 = 합의 분산 `$$= \frac{1}{n^2} \sum_{i=1}^n V(X_i) = \frac{1}{n^2} \cdot n \cdot V(X) = \frac{V(X)}{n}$$` -- **4단계**: 제곱근을 취하면 `\(SE = \sqrt{V(\bar{X})} = \frac{\sigma}{\sqrt{n}}\)` `\(\rightarrow\)` **분산의 연산 규칙**(제4부)이 SE 공식의 수학적 근거! --- # 확률 II ## SE의 직관: `\(n\)`이 커지면 왜 정밀해지는가 `\(SE \propto 1/\sqrt{n}\)`이므로: + 표본을 **4배** 늘리면 SE는 `\(1/\sqrt{4} = 1/2\)`로 **절반** + 표본을 **100배** 늘리면 SE는 `\(1/\sqrt{100} = 1/10\)`으로 **1/10** --- # 확률 II ## 표준오차와 표본 크기의 관계 <table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:center;"> 표본 크기(n) </th> <th style="text-align:center;"> SE (p=0.5일 때) </th> <th style="text-align:center;"> ±오차범위 (95%) </th> </tr> </thead> <tbody> <tr> <td style="text-align:center;"> 100 </td> <td style="text-align:center;"> 0.0500 </td> <td style="text-align:center;"> ±9.8%p </td> </tr> <tr> <td style="text-align:center;"> 400 </td> <td style="text-align:center;"> 0.0250 </td> <td style="text-align:center;"> ±4.9%p </td> </tr> <tr> <td style="text-align:center;"> 1000 </td> <td style="text-align:center;"> 0.0158 </td> <td style="text-align:center;"> ±3.1%p </td> </tr> <tr> <td style="text-align:center;"> 2500 </td> <td style="text-align:center;"> 0.0100 </td> <td style="text-align:center;"> ±2%p </td> </tr> <tr> <td style="text-align:center;"> 10000 </td> <td style="text-align:center;"> 0.0050 </td> <td style="text-align:center;"> ±1%p </td> </tr> </tbody> </table> -- `\(n = 1{,}000\)`이면 약 `\(\pm 3.1\%p\)`, `\(n = 10{,}000\)`이면 약 `\(\pm 1.0\%p\)` --- # 확률 II ## 여론조사에의 응용 `\(n\)`명을 조사한 표본 비율 `\(\hat{p}\)`의 표집분포: `$$\hat{p} \sim N\left(p, \frac{p(1-p)}{n}\right)$$` -- + `\(p\)`: 모비율 (모르는 값, **모수**) `\(\leftarrow\)` 추정 **대상** + `\(\hat{p}\)`: 표본 비율 (아는 값, **통계량**) `\(\leftarrow\)` 추정 **도구** + `\(SE = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\)` `\(\leftarrow\)` `\(p\)`를 모르므로 `\(\hat{p}\)`로 대체 -- 이제 95% 신뢰구간을 구성할 수 있음: `\(\hat{p} \pm 1.96 \times SE\)` --- # 확률 II ## 원점 회귀: R 출력표를 다시 보자 ``` Estimate Std. Error t value Pr(>|t|) reserved 9.252 3.948 2.34 0.020 * ``` -- 이제 각 숫자의 의미를 이해할 수 있음: + **9.252** = `\(\hat{\beta}\)` (점추정치). 이항분포처럼 **확률변수**의 하나의 실현값 + **3.948** = `\(SE(\hat{\beta})\)`. **표집분포의 표준편차**. CLT와 분산 규칙으로 유도됨 + **2.34** = `\(\hat{\beta}/SE = 9.252/3.948\)`. 0에서 몇 **표준오차** 떨어져 있는가 (Z-점수와 같은 논리) + **0.020** = 정규분포(t-분포)에서 `\(|t| > 2.34\)`인 영역의 **면적** (= PDF의 적분) --- class: center, middle # 🧩 확인 퀴즈 --- # 확률 II ## 퀴즈 1: 이항분포 **Q.** 투표율이 40%인 선거구에서 20명을 무작위 추출할 때, 정확히 10명이 투표할 확률을 구하는 공식을 쓰시오. 이 확률이 높을지 낮을지 직관적으로 판단하시오. -- **A.** `\(P(X=10) = \binom{20}{10}(0.4)^{10}(0.6)^{10}\)` `\(E(X) = 20 \times 0.4 = 8\)`이므로, 10명은 기대값(8)보다 높음. 실제 계산하면 약 **5.8%**로 낮은 확률. --- # 확률 II ## 퀴즈 2: CLT와 회귀의 연결 **Q.** "CLT가 없으면 가설검정이 불가능하다"는 말의 의미를 설명하시오. 구체적으로, CLT가 `\(\hat{\beta}\)`의 어떤 성질을 보장하며, 그 성질이 왜 t-검정에 필요한지 설명하시오. -- **A.** CLT는 `\(\hat{\beta}\)`의 **표집분포가 정규분포에 근사**함을 보장함. 이 덕분에 `\(t = \hat{\beta}/SE\)`라는 검정통계량이 `\(N(0,1)\)` 또는 t-분포를 따른다는 것을 알 수 있고, 이 분포 하에서 관찰된 `\(t\)`값이 나타날 확률(p-값)을 계산할 수 있음. CLT 없이는 `\(\hat{\beta}\)`의 분포 형태를 알 수 없으므로, 어떤 값이 "극단적"인지 판단할 기준이 없음. --- # 확률 II ## 퀴즈 3: 기대값과 분산 **Q.** 지지율 `\(p = 0.4\)`, 표본 `\(n = 1{,}000\)`일 때 `\(\hat{p}\)`의 (a) 기대값, (b) 분산, (c) SE를 구하고, (d) `\(\hat{p}\)`가 0.37~0.43일 확률을 근사적으로 구하시오. -- **A.** (a) `\(E(\hat{p}) = 0.4\)`, (b) `\(V(\hat{p}) = 0.4 \times 0.6 / 1000 = 0.00024\)` (c) `\(SE = \sqrt{0.00024} = 0.0155\)` (d) `\(Z_1 = \frac{0.37-0.4}{0.0155} = -1.94\)`, `\(Z_2 = \frac{0.43-0.4}{0.0155} = 1.94\)` `\(P(0.37 < \hat{p} < 0.43) \approx \Phi(1.94) - \Phi(-1.94) \approx 0.948\)` (약 95%) --- # 확률 II ## 전체 요약: 확률에서 가설검정까지의 논리적 흐름 <table class=" lightable-classic" style='font-size: 24px; color: black; font-family: "Arial Narrow", "Source Sans Pro", sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr> <th style="text-align:left;"> 단계 </th> <th style="text-align:left;"> 내용 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> ① 확률변수 </td> <td style="text-align:left;"> 결과를 숫자로 변환 → β̂도 확률변수 </td> </tr> <tr> <td style="text-align:left;"> ② 확률분포 </td> <td style="text-align:left;"> 각 값이 나올 가능성 → PMF, PDF, CDF </td> </tr> <tr> <td style="text-align:left;"> ③ 기대값/분산 </td> <td style="text-align:left;"> 분포의 중심과 퍼짐 → E(β̂)=β, V(β̂) </td> </tr> <tr> <td style="text-align:left;"> ④ LLN </td> <td style="text-align:left;"> n→∞이면 β̂→β (일치성) </td> </tr> <tr> <td style="text-align:left;"> ⑤ CLT </td> <td style="text-align:left;"> β̂의 분포가 정규에 근사 </td> </tr> <tr> <td style="text-align:left;"> ⑥ 표준오차 </td> <td style="text-align:left;"> SE = √V(β̂) → R의 Std.Error </td> </tr> <tr> <td style="text-align:left;"> ⑦ 가설검정 </td> <td style="text-align:left;"> t = β̂/SE → p-값 → 별표(**) </td> </tr> </tbody> </table> -- 이 **모든 단계가 연결**되어 있으며, 하나라도 빠지면 회귀 출력표를 해석할 수 없음 --- # 확률 II ## 핵심 수식 정리 **이항 PMF**: `\(P(X=x) = \binom{n}{x}p^x(1-p)^{n-x}\)` **정규 PDF**: `\(f(x) = \frac{1}{\sigma\sqrt{2\pi}}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\}\)` **Z-점수**: `\(Z = \frac{X-\mu}{\sigma}\)` `\(\leftarrow\)` R의 `t value`와 같은 논리 **LLN**: `\(\bar{X}_n \to E(X)\)`, **CLT**: `\(\bar{X}_n \sim N(E(X), V(X)/n)\)` **표준오차**: `\(SE(\bar{X}) = \sigma/\sqrt{n}\)`, `\(SE(\hat{p}) = \sqrt{p(1-p)/n}\)` --- class: center, middle background-image: url("knu_wide.png") background-size: 300px background-position: 11% 15% # 감사합니다! 강사 연락처 | 연락처 | 박상훈 | | :-----------------------------------------------: | :--------------------------------------------------: | | <svg viewBox="0 0 512 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg"> <path d="M440 6.5L24 246.4c-34.4 19.9-31.1 70.8 5.7 85.9L144 379.6V464c0 46.4 59.2 65.5 86.6 28.6l43.8-59.1 111.9 46.2c5.9 2.4 12.1 3.6 18.3 3.6 8.2 0 16.3-2.1 23.6-6.2 12.8-7.2 21.6-20 23.9-34.5l59.4-387.2c6.1-40.1-36.9-68.8-71.5-48.9zM192 464v-64.6l36.6 15.1L192 464zm212.6-28.7l-153.8-63.5L391 169.5c10.7-15.5-9.5-33.5-23.7-21.2L155.8 332.6 48 288 464 48l-59.4 387.3z"></path></svg> | [sh.park.poli@gmail.com](sh.park.poli@gmail.com) | | <svg viewBox="0 0 576 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg"> <path d="M528 32H48C21.5 32 0 53.5 0 80v352c0 26.5 21.5 48 48 48h480c26.5 0 48-21.5 48-48V80c0-26.5-21.5-48-48-48zm0 400H303.2c.9-4.5.8 3.6.8-22.4 0-31.8-30.1-57.6-67.2-57.6-10.8 0-18.7 8-44.8 8-26.9 0-33.4-8-44.8-8-37.1 0-67.2 25.8-67.2 57.6 0 26-.2 17.9.8 22.4H48V144h480v288zm-168-80h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm0-64h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm0-64h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm-168 96c35.3 0 64-28.7 64-64s-28.7-64-64-64-64 28.7-64 64 28.7 64 64 64z"></path></svg> | [sanghoon-park.com/](https://www.sanghoon-park.com/) | | <svg viewBox="0 0 448 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg"> <path d="M128 148v-40c0-6.6 5.4-12 12-12h40c6.6 0 12 5.4 12 12v40c0 6.6-5.4 12-12 12h-40c-6.6 0-12-5.4-12-12zm140 12h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm-128 96h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm128 0h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm-76 84v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12h40c6.6 0 12-5.4 12-12zm76 12h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm180 124v36H0v-36c0-6.6 5.4-12 12-12h19.5V24c0-13.3 10.7-24 24-24h337c13.3 0 24 10.7 24 24v440H436c6.6 0 12 5.4 12 12zM79.5 463H192v-67c0-6.6 5.4-12 12-12h40c6.6 0 12 5.4 12 12v67h112.5V49L80 48l-.5 415z"></path></svg> | 영상바이오관 405 |