통계학

03. 정규분포로의 근사 (백분위수, 사분위수)

infinity-epoch 2025. 3. 10. 23:12

단위 변환

  • 상수를 더하거나 곱하는 변환
  • 예: 섭씨 온도(y) = 5/9(화씨온도(x)-32). 즉 y=160/9+(5/9)x
  • 표준화(standardization): 평균을 빼주고 표준편차로 나누어 주는 변환
  • 확률변수가 $X \sim N(\mu ,\sigma ^{2})$ (= normal distribution)일 때
  • $Z=\frac{X-\mu }{\sigma } \sim N(0,1) $ = 표준정규분포

 

알 수 있는 사실

  1. 분포의 전반적인 모습은 단위 변환을 통해 바뀌지 않는다.
  2. 평균을 뺏기 때문에, 새로운 평균은 0이 된다.
  3. 표준 편차로 나눴기 때문에 새로운 편차는 1이 될 수밖에 없다.

 

수능 표준 점수 예시

  • 사회탐구 과목당 50점 (2과목)
  • 과학탐구 과목당 50점 (2과목)
  • 언어 100점
  • 수리 100점
  • 외국어 100점

  • 사회탐구, 과학탐구 과목당 표준점수 
    • (표준점수) = 50+10$z$
  • 언어, 수리, 외국어 표준점수
    • (표준점수) = 2(50+10$z$)

 

정규분포곡선

  • 하나의 이상적인 히스토그램. 하나의 수학적 모형. 개념상 모집단의 분포.
  • 정규분포의 확률밀도함수 (probability density function) 

$ f(x) = \frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2 \sigma^{2}}} $, $- \infty < x <+\infty$,  $e=2.71828\cdots $

  • $\mu$ 를 모평균, $\sigma$ 를 모표준편차라고 부름.
  • 모집단 : 모평균과 모표준편차
  • 표본 : 표본평균과 표본표준편차

정규분포의 확률밀도함수 (빨간색 = 표준정규분포)

 

표준정규분포 (standard normal distribution)

평균이 0이고 표준편차가 1인 정규분포 : $Z\sim N(0,1)$

 

$f(x) = \frac{1}{\sqrt{2\pi }}e^{-\frac{1}{2}z^{2}}, -\infty <z<\infty $

 

정규분포곡선의 68-95-99.7 규칙 (참고 : 2025.03.09 - [통계학] - 5강 평균과 중앙값)

  • 표준단위로 -1부터 1까지 영역의 넓이 : 약 68% 
  • 표준단위로 -2부터 2까지 영역의 넓이 : 약 95%
  • 표준단위로 -3부터 3까지 영역의 넓이 : 약 99.7%

1 standard deviation(표준편차) 과 같은표현을 쓸 필요가 없다

평균은 0이 되었고, 표준편차는 1이 되었기 때문이다

 

정규분포곡선의 모양

  • 평균을 중심으로 좌우 대칭 (symmetric)
  • 종 모양 (bell-shaped)
  • 봉우리가 하나 (single-peaked)

 

표준 정규분포 곡선 아래의 영역 찾기 (참고 : 표준정규분포표 )

전북특별자치도교육청 - 표준정규분포표

 

Q1. 정규 근사

한 은행이 특정 영업일에 지급준비금 부족을 겪을 가능성은?

(매일 영업이 끝난 뒤 이 은행에 남아있는 잔고는 평균이 1조원이고 표준편차가 0.2조원인 정규분포에 의해 잘 근사된다고 가정. 지급준비금은 0.7조원 이상이어야 한다고 가정.)

더보기

정답 : 6.68%

 

백분위수

  • 백분위수(percentile)는 하나의 히스토그램을 100개의 균등한 영역으로 나누는 99개의 경계점 값들.
  • 제 p 백분위수는 그 값보다 작은 값이 p%, 큰 값이 (100-p)%가 되는 경계값.
  • 많은 히스토그램은 정규분포곡선과 다름. (평균과 표준편차만으로는 부족)
    • 예시로 소득분포가 있음
    • 이런 경우에 percentile로 많이 표현함
    • 제 1 십분위수, 제 9 십분위수
    • 10개로 나눴을 때
      • 제 1 십분위수에 해당하는 소득 = 하위 10%에 해당하는 사람의 소득
      • 제 9 십분위수에 해당하는 소득 = 상위 10%에 해당하는 사람의 소득
      • 두 값을 비교 계산했 때 6배 차이가 나면 "소득의 불평등을 보여준다"와 같이 해석도 가능
  • 이러한 히스토그램을 요약할 때는 백분위수 개념이 유용.

가구소득그래프

 

 

사분위수

  • 백분위수 가운데 25번째, 50번째, 75번째 백분위수를 특별히 제1사분위수(first quartile), 제2사분위수(second quartile), 제3사분위수(third quartile)라 부름.
  • 50번째 백분위수는 제2사분위수이면서 중앙값(median)임.
  • 사분위수 범위 (interquartile range)

(사분위수 범위) = (제3사분위수) - (제1사분위수)

  • 다섯 숫자 요약 (five number summary) : 최소값, 제1사분위수, 제2사분위수, 제3사분위수, 최대값
    • *(최소값, 최대값) 쌍 대신 (제5백분위수, 제95백분위수) 쌍 또는 (제1백분위수, 제99백분위수) 쌍을 사용하기도 함.

 

상자 그림 (box plot)

box plot 그리는 방법 (Q1 = 제 1사분위수 , Q3 = 제 3사분위수)

 

Q2. 백분위수 찾기

2009년도 1학기 통계학 중간고사에서 상위 5%에 해당하는 학생의 점수를 추정하라. 단 평균점수는 28.93 점이고 표준편차는 8.52점이다.

더보기

정답

z=1.65일 때 [0,1.65] 구간의 면적이 45%이므로, 상위 5% 학생의 z 값은 1.65이다.

이 학생은 평균보다 1.65 * 8.52 = 14.06 점 높을 것으로 추정된다.

즉, 이 학생은 27.93 + 14.06 = 41.99점을 받았을 것으로 추정된다.

 

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / - 제7강 정규분포로의 근사