class: center, middle, inverse, title-slide .title[ # STATS101 ] .subtitle[ ## Foundation of Inference: Classical way ] .author[ ### Sanghoon Park ] .date[ ### University of South Carolina ] --- ## Before we start ### KBS 세대 인식조사 KBS 세대 인식조사 자료를 통해 분석한 "주관적 계층 의식과 세대 및 성별 간 관계" -- .pull-left[ <img src="fig/w5_fig1.jpg" width="85%" style="display: block; margin: auto;" /> ] -- .pull-right[ 분석자료: KBS-한국리서치 온라인 설문자료 문제의식: 청년세대(20-34세)와 586세대 간 상호인식이 어떠한가? 분석모델: 이항로짓(binary logit) + 종속변수: 도움을 줄 의사가 있다(1) or 없다(0) 연구진의 주장: <br><br>"50대 남녀 및 20-34세 여성과 달리, 20-34세 남성은 자신이 소속한 계층이 높다고 생각할수록 우리 사회의 어려운 사람들을 위해 내가 가진 것을 나누어주고 싶다는 생각을 덜 한다." ] --- ## What are the problems? -- <img src="fig/w5_fig2.png" width="70%" style="display: block; margin: auto;" /> -- [2021년 6월 29일 조선일보 기사](https://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=101&oid=023&aid=0003623155&fbclid=IwAR1tEFK55Z3vmfo_WLYCrfmamN8gkWVexG_vTgLmYrWbB1QE_eSOnmMBhMI)에 정리된 다섯 가지 질문들 -- .pull-left[ Q1. `\(X\)` 축의 10개로 나뉜 소득 수준마다 충분한 응답 수가 모였는지? Q2. 2030 남성 응답자 300명이 충분한 표본크기인지? Q3. 설문 결과가 이렇게 예쁜 선으로 표현되는 게 가능한지? ] -- .pull-right[ Q4. 회귀분석 대신, 각 구간별 ‘네’라고 답한 비율을 표시해주는 간단한 방식을 사용하는 것은 어떨지? Q5. 이 그래프가 제대로 된 결과물일 가능성? ] --- ## Foundation of Inference: Classical way ### Parameter estimation + 우리는 모집단(**population**)의 특징-모수(**parameter**)를 알고자 한다. -- + 하지만 완전한 모수를 손에 넣는다는 것은 불가능에 가깝다. -- + 따라서 우리는 표본 통계량(**sample statistics**)을 이용해 모집단을 추정하고자 한다. + 이때, 표본 통계량을 바탕으로 하나의 값이 모집단의 모수일 것이라고 추정하는 것을 점추정량/점추정치(**point estimates**)라고 한다. -- + 표본 통계량은 표본에 따라(*from sample to sample*) 다르게 나타날 수 있다. -- + 표본 통계량이 어떻게 달라지는지를 수량화하는 것은 점 추정치와 관련된 오차의 범위(**margin of error**)를 추정하는 한 방법이다. --- ## Foundation of Inference: Classical way ### Parameter estimation 그렇다면 어떻게, 그리고 왜 표본에 따라서 점 추정치가 다르게 나타나는지에 대해 알아보자. -- .pull-left[ <div class="figure" style="text-align: center"> <img src="D3S4_files/figure-html/unnamed-chunk-3-1.png" alt="Number of drinks to get drunk" /> <p class="caption">Number of drinks to get drunk</p> </div> ] .pull-right[ 왼쪽의 히스토그램은 대학생으로 이루어진 한 집단이 취할 때까지 마셔야 하는 양의 분포를 보여준다. + 그 대학생으로 이루어진 집단이 우리의 모집단이라고 가정하자. + 만약 우리가 이 모집단-데이터셋으로부터 관측치를 무작위로 뽑는다면, 어떤 값이 가장 뽑일 가능성이 클까? 혹은 어떤 값이 가장 덜 뽑할까? **아마도 중앙(4-6)에서 가장 많이 뽑힐 것이다.** ] --- ## Foundation of Inference: Classical way ### Parameter estimation > 만약 모집단 데이터를 얻을 수가 없다면, 우리는 모집단으로부터 얻은 표본을 통해 대학생들의 주량을<br>"평균적으로 마신 잔의 수"로 추정할 수 있다. -- + 반복추출(replacement)을 통해 모집단으로부터 얻은 10명의 학생들로 이루어진 표본으로 우리는 그들이 취하기까지 마신 잔의 수를 기록할 수 있다. -- + 그 표본의 평균을 구한다. + 이 과정을 여러 번 반복한다. + 각 **표본의 평균의 분포**를 그래프로 나타낸다. -- + 바로 그것이 표집분포(**sampling distribution**)다. -- + 표집분포는 단 하나의 표본을 가지고 우리가 추론할 수 있게 도와주는 매우 중요한 개념이다. --- ## Central limit theorem 표본 평균의 분포는 정규분포에 근사: $$ \bar x \sim N(\text{mean} = \mu, \text{SE} = \frac{\sigma}{\sqrt{n}}) $$ -- + SE는 **표준오차(standard error)**를 의미 + 표집분포의 표준편차 + 모집단 수준에서의 표준편차, `\(\sigma\)`를 모를 때, 우리는 표본의 표준편차, `\(s\)`를 사용 -- + 여기서 `\(\text{SE} = \frac{\sigma}{\sqrt{n}}\)`에 대한 엄밀한 증명을 하지는 않지만, ** `\(n\)`이 증가하면 `\(\text{SE}\)`가 감소한다는 것은 명심!** --- ## Central limit theorem CLT를 적용하기 위해서는 몇 가지 조건들이 충족되어야 한다. + 독립성(independence): 표집된 관측치들은 서로 독립적이어야 한다. 이것을 입증하기는 어렵지만 다음과 같은 조건에서 관측치들이 독립적일 가능성이 크다. -- + 무작위 표집/배치가 이루어졌을 때 + 반복표집되지 않았고 표본의 크기가 모집단의 10% 미만일 때 -- + 표본의 크기와 치우침(sample size/skew): 모집단의 분포가 정규분포를 따르거나 모집단의 분포가 치우친 분포를 따르더라도 표본의 크기가 클 경우 -- + 모집단의 분포가 치우칠수록, CLT를 적용하기 우해 필요한 표본의 규모는 더 커진다. + 적당히 치우친 분포에 대해서는, 적어도 `\(n > 30\)`인 표본이 필요하다(rule of thumb). -- 모집단에 대해 입증할 수는 없다(얻을 수 없으니까). 하지만 우리는 표본 데이터가 모집단을 미루어볼 수 있는(대표성 있는) 데이터라는 가정 하에서, 표본 데이터를 사용해서 모집단의 특성에 대해 확인할 수 있다. --- ## Confidence intervals 모집단의 모수이 존재할 것이라고 기대할 수 있는 값의 범위가 바로 **신뢰구간(confidence intervals)**이다. -- + 모집단의 모수를 추정하고자 할 때, 표본 통계량 중 점추정량만을 사용하는 것은 작살로 물고기를 잡는 것과 같다. -- + 한편, 신뢰구간을 사용하는 것은 그물을 통해 물고기를 잡는 것과 같다. -- + 점추정량으로 모수에 대해 추정한다면, 아마도 정확한 모수를 예측하지 못할 가능성이 크다(틀릴 가능성이 크다). -- + 하지만 우리가 어느 범위 안에 모수가 속할 것이라고 주장한다면, 그것은 모수를 포함할 가능성이 상대적으로 크다. --- ## A more accurate interval 신뢰구간을 구하는 공식은 다음과 같다: $$ \text{점추정량} \pm z^{*} \times \text{SE}. $$ 점추정량이 `\(\bar x\)`일 때의 조건은 다음과 같다: -- + 독립성: 표본의 관측치들은 서로 독립적이어야 한다. -- + 무작위 표집/배치 -- + 반복추출이 아닐 경우에는 모집단의 10% 미만의 관측치를 포함한 표본 -- + 표본 규모/치우침: `\(n\geq 30\)`이며 모집단의 분포가 극단적으로 치우치지 말아야 함. --- ## What does 95% confident mean? + 우리가 수많은 표본들을 가지고 있고, 각 표본으로부터 앞의 공식을 이용해 `\(\text{점추정량} \pm 2\times \text{SE}\)`인 신뢰구간을 만들었다고 가정하자. + 이제 우리는 그렇게 구한 신뢰구간들의 약 95%가 우리가 알고자 하는 모집단의 평균-모수 `\(\mu\)`를 포함하고 있을 것이라고 기대하게 된다. .pull-left[ <img src="D3S4_files/figure-html/unnamed-chunk-4-1.png" style="display: block; margin: auto;" /> ] .pull-right[ 왼쪽의 표는 20개의 표본 중 19개는 모집단의 모수-모집단 평균을 신뢰구간이 포함하고 있지만 한 개의 표본의 신뢰구간은 모수를 포함하지 않고 있다는 것을 나타낸다. + 즉, `\((19/20) \times 100 = 95\%\)`의 신뢰구간! ] --- ## Width of an interval 만약 모집단의 모수를 좀 더 확실하게 신뢰구간에 포착하고 싶다면? -- + 정확한 점추정량을 바탕으로 신뢰구간을 추정하거나/보다 넓은 신뢰구간을 추정하거나 -- 하지만 더 넓은 신뢰구간을 추정한다는 것이 반드시 모수를 추정하는 데 유용하다고 할 수는 없다. <div class="figure" style="text-align: center"> <img src="fig/chp4 handout.jpg" alt="Can you see any drawbacks to using a wider interval?" width="80%" /> <p class="caption">Can you see any drawbacks to using a wider interval?</p> </div> --- ## Changing the confidence interval $$ \text{점추정량} \pm z^{*} \times \text{SE}. $$ -- + 신뢰구간에서 `\(z^{*}\times \text{SE}\)`는 **오차 범위(margin of error)**라고 한다. -- + 주어진 표본에서 오차 범위는 신뢰수준(confidence level)에 따라서 변한다. -- + 신뢰수준을 변경하기 위해서는 위의 공식에서 `\(z^{*}\)`를 조정할 필요가 있다. -- + 실제로는 대개 90%, 95%, 98%, 99% 신뢰수준이 사용된다. -- + 95% 신뢰구간을 위한 신뢰수준, `\(z^{*} = 1.96\)`이다. -- + 하지만 표준정규분포(standard normal distribution; `\(z\)` distribution)을 사용하면, 원하는 신뢰수준을 위해 적절한 `\(z^{*}\)`을 찾을 수 있다. --- ## Pop-up quiz! 아래의 `\(Z\)` 스코어 중 98% 신뢰구간을 계산하기 위해 필요한 신뢰수준, `\(z^{*}\)`는? (a) `\(Z = 2.05\)` (b) `\(Z = -2.33\)` (c) `\(Z = 1.96\)` (d) `\(Z = -1.65\)` (e) `\(Z = 2.33\)` --- ## Pop-up quiz! 아래의 `\(Z\)` 스코어 중 98% 신뢰구간을 계산하기 위해 필요한 신뢰수준, `\(z^{*}\)`는? (a) `\(Z = 2.05\)` (b) `\(Z = -2.33\)` (c) `\(Z = 1.96\)` (d) `\(Z = -1.65\)` (e) `\(\underline{Z = 2.33}\)` --- ## Hypothesis testing framework + 현상유지(status-quo)를 나타내는 **영가설(null hypothesis; `\(H_0\)`)**에서 시작한다. + 우리가 검증하고자 하는, 연구문제를 나타내는 **대안가설(alternative hypothesis; `\(H_A\)`)** 또는 **연구가설(research hypothesis; `\(H_1\)`)**을 설정한다. + 영가설이 참일 것이라는 가정 하에서 가설을 검정한다. -- + 만약 검정 결과가 "데이터가 대안가설에 대해 믿을만한 근거를 제공하지 않는다면" 우리는 표본으로부터 영가설과 같은 결과를 얻을 것이라 기대할 수 있다. -- + 만약 검정 결과가 영가설을 기각하는 대로 데이터가 나타난다면, 우리는 표본이 대안가설을 지지할만한 근거라고 생각할 수 있다. --- ## Hypothesis testing for a population mean 가설을 설정한다. + `\(H_0:\mu\)` = 영가설의 값, 현상유지를 나타내는 값 + `\(H_1:\mu < 0 \text{ or }>0\text{ or } \neq\)` 영가설의 값 -- 점추정량을 계산한다. -- 가정과 조건들을 점검한다. + 독립성: 무작위 표본/배치, 반복추출을 하지 않는 표집일 경우 모집단의 10% 미만의 표본크기 + 정규성: 거의 정규분포를 따르거나 `\(n\geq 30\)`, 극단적으로 치우지치 않은 분포, `\(t\)` 분포 사용 -- **검정통계량(test statistics)**와 ** `\(p\)`-값**을 계산한다. $$ Z = \frac{\bar x - \mu}{SE}, SE = \frac{s}{\sqrt n} $$ --- ## Hypothesis testing for a population mean 결정하고 맥락에 따라 해석한다. + 만약 `\(p < \alpha\)`, 영가설을 기각한다. 데이터는 대안가설을 지지하는 근거를 제공한다. + 만약 `\(p > \alpha\)`, 영가설을 기각하지 못하므로, 대안가설을 지지할 경험적 근거가 충분하지 못하다. --- ## Testing hypotheses using confidence intervals -- > 대학생들이 술에 취하기 위해 마셔야하는 맥주 글라스의 평균 양에 대한 신뢰구간을 [2.7;3.7]로 계산했다고 하자. 이 신뢰구간으로 미루어보았을 때, 이 데이터는 "대학생들이 평균적으로 3잔 이상의 맥주 글라스를 마실 수 있다"는 가설을 지지한다고 할 수 있을까? -- + 우리는 다음과 같은 가설을 수립할 수 있다: -- + `\(H_0\)`: `\(\mu = 3\)`: 대학생들은 평균적으로 3잔의 맥주를 마신다. + `\(H_A\)`: `\(\mu > 3\)`: 대학생들은 평균적으로 3잔 이상의 맥주를 마신다. -- + 영가설에 해당하는 값(null value: `\(H_0: \mu = 3\)`)이 신뢰구간에 포함되기 때문에, 우리는 영가설을 기각할 수 없다. --- ## Setting the hypotheses > 학생들이 얼마나 많은 대학에 지원하는지를 물어본 설문조사가 있다고 하자. 그리고 206명의 학생들이 이 설문조사에 응했다고 하자. 이때 표본은 학생들이 약 평균 9.7개의 대학원서를 냈으며, 그 표준편차는 7로 나타났다. 학교 입학처 웹사이트에 따르면 상담사들은 학생들에게 약 8개의 대학원에 원서를 넣을 것을 추천했다고 한다. 이때, 이 데이터는 모든 한국대학교 학생들이 평균적으로 지원한 원서의 수가 상담사가 추천한 수보다 더 많을 것이라는 것에 대한 충분한 근거를 제공하고 있는가? --- ## Setting the hypotheses 우리가 알고자 하는 것, 모집단의 특성, **모수(parameter of interest)**는 모든 학국대학교 학생들이 평균적으로 지원한 대학원 원서 수이다. -- + 평균의 표본이 상담사가 추천한 8개의 원서보다 더 많을 것이라고 생각할 수 있는 데에는 두 가지 설명이 존재한다. -- + 진짜 모집단의 평균은 8이 아닐 것이다(8과는 다를 것이다). + 진짜 모집단의 평균은 8이고 표본평균과 모집단 평균 간의 차이는 단순히 자연적인 표집에 따른 변동성으로 인한 것이다. -- 한국대 학생들이 지원하는 대학원 원서의 수 평균이 8개(상담사의 추천에 따라)일 것이라는 가정에서 시작한다: $$ H_0: \mu = 8 $$ 한편 우리는 한국대 학생들이 지원한 대학원 원서의 수 평균이 8개보다 더 많을 것이라는 주장을 검증한다: $$ H_A: \mu > 8 $$ --- ## Test statistics 관측된 표본의 평균이 가설적인 표집분포에서 "이례적인(unusual)" 것인지를 평가하기 위하여, 우리는 그 표본평균이 영가설로 설정된 값으로부터 몇 표준오차만큼 떨어져 있는지를 결정하게 되고, 이를 "**검정통계량(test statistics)**"라고 한다. .pull-left[ <img src="D3S4_files/figure-html/unnamed-chunk-6-1.png" style="display: block; margin: auto;" /> $$ `\begin{aligned} &\bar x \sim N(\mu = 8, SE = \frac{7}{\sqrt{206}} = 0.5)\\ &Z = \frac{9.7-8}{0.5} = 3.4 \end{aligned}` $$ ] .pull-right[ 여기서 우리가 관측한 표본의 평균은 9.7로 영가설에 설정된 값으로부터 약 3.4 표준오차만큼 떨어져 있다. + 3.4 표준오차는 멀리 떨어져있는 것이라고 봐야할까? + 과연 이 결과는 통계적으로 유의미한가? 이를 위해서 우리는 검정통계량를 바탕으로 `\(p\)`-값을 계산해야 한다. ] --- ## `\(p\)`-values 검정통계량을 사용해 ** `\(p\)`-값**을 계산할 때, 이 `\(p\)`-값은 우리가 관측한 데이터가 얼마나 영가설 또는 연구가설에 따라 나타날지에 대한 확률을 보여준다. -- `\(p\)`-값이 작다는 것(우리가 설정한 신뢰수준, `\(\alpha\)`보다 작다는 것)은 영가설이 참이라면 그 데이터를 관측할 가능성이 매우 희박하다는 것을 의미한다. -- 이때, 우리는 `\(H_0\)`을 기각한다. -- `\(p\)`-값이 크다는 것(우리가 설정한 신뢰수준, `\(\alpha\)`보다 크다는 것)은 영가설이 참이라면 그 데이터를 관측할 가능성이 매우 높다는 것을 의미한다. -- 이때, 우리는 `\(H_0\)`을 기각하지 않는다. --- ## Number of college applications - `\(p\)`-value `\(p\)`-값: 영가설이 참이라고 할 때 `\((\mu = 8)\)` 현재 우리가 가진 데이터셋을 가지고 연구가설을 지지할만한 `\((H_A: \mu > 9.7)\)` 최소한의 데이터를 관측할 확률. -- <img src="D3S4_files/figure-html/unnamed-chunk-7-1.png" style="display: block; margin: auto;" /> -- $$ \Pr(\bar x > 9.7 | \mu = 8) = \Pr(Z > 3.4) = 0.0003. $$ --- ## Number of college applications - Making a decision `\(p\)`-값 `\(=0.0003\)` -- + 만약 한국대 학생들이 지원한 원서의 수가 평균적으로 8개라고 할 때, 평균적으로 9.7개 이상의 대학원에 지원할 206명의 한국대 학생들의 무작위 표본을 관측할 확률은 0.03%에 불과하다. -- + 이 확률은 9.7개 이상의 학교에 지원한다는 표본 평균이 단순히 우연으로 나타났다고 보기에는 매우 어려운, 희박한 확률이라는 것을 의미한다. -- 따라서 `\(p\)`-값이 **낮기 때문에 (5%보다 낮기 때문에)**, 우리는 **영가설을 기각한다**. -- 데이터는 한국대 학생들이 평균적으로 8개 이상의 대학원 원서를 낸다는 것에 대해 믿을만한 근거를 제공하고 있다. -- 8개의 학교에만 지원했을 것이라는 영가설의 값과 관측된 표본평균인 9.7개의 값의 차이는 **우연**이나 **표집 변동성(sampling variability)**으로 인한 것이 아니라고 할 수 있다. -- **통계적으로 유의미한 차이!** --- ## Pop-up quiz! > 어떤 연구소에서 설문조사를 통해 대학생들이 평균 7시간 수면을 취한다고 발표했다. 한편 기초통계학 수업을 들은 대학생들 169명으로 이루어진 이 표본은 평균 6.88시간에 표준편차 0.94시간이라는 통계량을 보였다. 이 표본이 전체 대학생에 대해 대표성을 가지는 무작위 표본이라고 가정하여 평균적으로 대학생들이 7시간 미만의 수면을 취하는지를 평가하기 위한 가설검정을 수행했다. 이때, 가설검정에 대한 `\(p\)`-값은 0.0485였다. 이때, 다음 중 옳은 설명은? --- ## Pop-up quiz! (a) 영가설을 기각하는데 실패하고, 데이터는 평균적으로 대학생들이 7시간 미만 수면을 취한다는 것을 지지하는 근거를 제공한다. (b) 영가설을 기각하고, 데이터는 평균적으로 대학생들이 7시간 미만 수면을 취한다는 것을 지지하는 근거를 제공한다. (c) 영가설을 기각하고, 데이터는 평균적으로 대학생들이 7시간 이상 수면을 취한다는 것을 입증한다. (d) 영가설을 기각하는 데 실패하고, 데이터는 평균적으로 대학생들이 7시간 미만 수면을 취한다는 것을 지지하는 근거를 제공하지 않는다. (e) 영가설을 기각하고, 데이터는 평균적으로 이 표본에 속한 대학생들이 7시간 미만 수면을 취한다는 것을 지지하는 근거를 제공한다. --- ## Pop-up quiz! (a) 영가설을 기각하는데 실패하고, 데이터는 평균적으로 대학생들이 7시간 미만 수면을 취한다는 것을 지지하는 근거를 제공한다. **(b) 영가설을 기각하고, 데이터는 평균적으로 대학생들이 7시간 미만 수면을 취한다는 것을 지지하는 근거를 제공한다.** (c) 영가설을 기각하고, 데이터는 평균적으로 대학생들이 7시간 이상 수면을 취한다는 것을 입증한다. (d) 영가설을 기각하는 데 실패하고, 데이터는 평균적으로 대학생들이 7시간 미만 수면을 취한다는 것을 지지하는 근거를 제공하지 않는다. (e) 영가설을 기각하고, 데이터는 평균적으로 이 표본에 속한 대학생들이 7시간 미만 수면을 취한다는 것을 지지하는 근거를 제공한다. --- ## Two-sided hypothesis testing with `\(p\)`-values 만약 연구문제가 "과연 데이터가 대학생들의 평균 수면 시간이 국가 평균과 **다를다는** 것에 대한 믿을 수 있는 근거를 제시하는가?"라고 할 때, 대안가설은 다르게 표현할 수 있다: $$ `\begin{aligned} &H_0: \mu = 7\\ &H_A: \mu \neq 7 \end{aligned}` $$ 따라서 이 경우 `\(p\)`-값은 다음과 같이 변할 수 있다. .pull-left[ <img src="D3S4_files/figure-html/unnamed-chunk-8-1.png" style="display: block; margin: auto;" /> ] .pull-right[ $$ `\begin{aligned} &p\text{-값}\\ &=0.0485\times 2\\ &=0.097 \end{aligned}` $$ ] --- ## Decision errors 가설검정에도 빈틈은 존재한다. + 법원에서 판결을 할 때, 때때로 무고한 사람이 유죄로 판결나거나, 유죄인 사람이 무죄로 풀려나는 것과 같은 문제가 존재한다. 두 가설이 존재한다고 하자: 영가설과 대안가설. + 가설검정에서 우리는 무엇이 참인지 결정할 수 있지만, 그 결정은 때로는 틀릴 수 있다. -- .pull-left[ | | | Decision || |-------|------------|:---------------------:|:---------------------:| | | | Fail to reject `\(H_0\)` | Reject `\(H_0\)` | | Truth | `\(H_0\)` true | **V** | *Type 1 Error* | | | `\(H_A\)` true | *Type 2 Error* | **V** | Table: Possible sets of hypothesis testing ] .pull-right[ + **1종오류(Type 1 Error)**: `\(H_0\)`이 참일 때, 영가설을 기각해서 생기는 오류 + **2종오류(Type 2 Error)**: `\(H_A\)`가 참일 때, 영가설을 기각하는 데 실패해서 생기는 오류 + 우리는 `\(H_0\)`이 참인지, 혹은 `\(H_A\)`가 참인지 실제로 알 수 없기 때문에 모든 가능성을 염두에 두어야 한다. ] --- ## Type 1 error rate 일반적인 규칙으로써 우리는 `\(p\)`-값이 0.05보다 작을 때, 영가설을 기각한다. + 즉, 0.05의 **유의수준(significance level)**, `\(\alpha = 0.05\)`로 사용한다. -- 영가설이 실제로 참인 경우, 우리는 영가설을 기각하는 오류를 범하고 싶지 않다. + 영가설이 참일 때 5%의 유의수준을 사용하면, 5% 확률로 1종오류를 범할 수 있다는 것을 의미한다. -- $$ \Pr(\text{1종오류}) = \alpha $$ -- 1종오류의 존재로 인해 우리는 `\(\alpha\)`가 작은 것을 선호한다. + `\(\alpha\)`가 클수록 1종오류의 확률도 높아지기 때문. --- ## Choosing a significance level 검정을 위한 유의수준을 선택하는 것은 여러 이유에서 중요하다. + 통상적으로는 0.05 수준에서 결정하지만, 그 이유/바탕이 되는 논리를 이해할 필요가 있다. -- 검정 결과로 얻을 수 있는 어떠한 결론에 따라서 유의수준을 0.05을 기준으로 더 크거나 작게 선택한다고 해보자. + 1종오류가 특히 위험하다고 할 때, 우리는 더 작은 유의수준(예: 0.01)을 설정해야만 한다. 이런 상황에서는 영가설을 기각하는 데 있어서 더 주의를 기울여야 한다는 것이다. 따라서 이 경우는 `\(H_0\)`을 기각하기에 앞서 `\(H_A\)` 가설을 지지할 더 강력한 근거를 필요로 한다. + 2종오류가 상대적으로 1종오류보다 더 위험하다고 한다면, 더 높은 수준의 유의수준(예: 0.10)을 설정하게 될 것이다. 이 경우에는 `\(H_0\)`이 실제로 거짓인데도 영가설을 기각하는 데 실패하는 문제가 있을 수 있다. --- ## Pop-up quiz! > 표집분포의 평균이 5.75이며 표준편차가 0.75라고 하자. 표집분포의 표준편차는 표준오차라고 표현할 수도 있다. 학생들이 참석한 농구경기의 평균 숫자를 알고싶다고 할 때, 다음 진술 중에서 지금 주어진 표본으로 95% 수준의 신뢰구간에서 이를 추정하기 위한 가장 합당한 추측을 고르시오. -- (a) `\(5.75 \pm 0.75\)` (b) `\(5.75 \pm 2 \times 0.75\)` (c) `\(5.75 \pm 3 \times 0.75\)` (d) 주어진 정보로는 알 수 없음. --- ## Pop-up quiz! > 표집분포의 평균이 5.75이며 표준편차가 0.75라고 하자. 표집분포의 표준편차는 표준오차라고 표현할 수도 있다. 학생들이 참석한 농구경기의 평균 숫자를 알고싶다고 할 때, 다음 진술 중에서 지금 주어진 표본으로 95% 수준의 신뢰구간에서 이를 추정하기 위한 가장 합당한 추측을 고르시오. (a) `\(5.75 \pm 0.75\)` (b) `\(\underline{5.75 \pm 2 \times 0.75}\)` (c) `\(5.75 \pm 3 \times 0.75\)` (d) 주어진 정보로는 알 수 없음. --- class: center, middle background-image: url(https://raw.githubusercontent.com/pherephobia/usc_logo/main/UofSC_Primary_RGB_G.png) background-size: 300px background-position: 11% 15% # Thanks! ## Please do not hesitate to ask questions. Contacts for Instructor. | Contact | Sanghoon Park | | :-------------: | :----------------------------: | | <svg viewBox="0 0 512 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg"> <path d="M440 6.5L24 246.4c-34.4 19.9-31.1 70.8 5.7 85.9L144 379.6V464c0 46.4 59.2 65.5 86.6 28.6l43.8-59.1 111.9 46.2c5.9 2.4 12.1 3.6 18.3 3.6 8.2 0 16.3-2.1 23.6-6.2 12.8-7.2 21.6-20 23.9-34.5l59.4-387.2c6.1-40.1-36.9-68.8-71.5-48.9zM192 464v-64.6l36.6 15.1L192 464zm212.6-28.7l-153.8-63.5L391 169.5c10.7-15.5-9.5-33.5-23.7-21.2L155.8 332.6 48 288 464 48l-59.4 387.3z"></path></svg> | [sp23@email.sc.edu](sp23@email.sc.edu) | | <svg viewBox="0 0 576 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg"> <path d="M528 32H48C21.5 32 0 53.5 0 80v352c0 26.5 21.5 48 48 48h480c26.5 0 48-21.5 48-48V80c0-26.5-21.5-48-48-48zm0 400H303.2c.9-4.5.8 3.6.8-22.4 0-31.8-30.1-57.6-67.2-57.6-10.8 0-18.7 8-44.8 8-26.9 0-33.4-8-44.8-8-37.1 0-67.2 25.8-67.2 57.6 0 26-.2 17.9.8 22.4H48V144h480v288zm-168-80h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm0-64h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm0-64h112c4.4 0 8-3.6 8-8v-16c0-4.4-3.6-8-8-8H360c-4.4 0-8 3.6-8 8v16c0 4.4 3.6 8 8 8zm-168 96c35.3 0 64-28.7 64-64s-28.7-64-64-64-64 28.7-64 64 28.7 64 64 64z"></path></svg> | [sanghoon-park.com/](https://www.sanghoon-park.com/) | | <svg viewBox="0 0 448 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg"> <path d="M128 148v-40c0-6.6 5.4-12 12-12h40c6.6 0 12 5.4 12 12v40c0 6.6-5.4 12-12 12h-40c-6.6 0-12-5.4-12-12zm140 12h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm-128 96h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm128 0h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm-76 84v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12h40c6.6 0 12-5.4 12-12zm76 12h40c6.6 0 12-5.4 12-12v-40c0-6.6-5.4-12-12-12h-40c-6.6 0-12 5.4-12 12v40c0 6.6 5.4 12 12 12zm180 124v36H0v-36c0-6.6 5.4-12 12-12h19.5V24c0-13.3 10.7-24 24-24h337c13.3 0 24 10.7 24 24v440H436c6.6 0 12 5.4 12 12zM79.5 463H192v-67c0-6.6 5.4-12 12-12h40c6.6 0 12 5.4 12 12v67h112.5V49L80 48l-.5 415z"></path></svg> | #305 Gambrell |