03. 정규분포로의 근사 (백분위수, 사분위수)

2025. 3. 10. 23:12·통계학

단위 변환

  • 상수를 더하거나 곱하는 변환
  • 예: 섭씨 온도(y) = 5/9(화씨온도(x)-32). 즉 y=160/9+(5/9)x
  • 표준화(standardization): 평균을 빼주고 표준편차로 나누어 주는 변환
  • 확률변수가 $X \sim N(\mu ,\sigma ^{2})$ (= normal distribution)일 때
  • $Z=\frac{X-\mu }{\sigma } \sim N(0,1) $ = 표준정규분포

 

알 수 있는 사실

  1. 분포의 전반적인 모습은 단위 변환을 통해 바뀌지 않는다.
  2. 평균을 뺏기 때문에, 새로운 평균은 0이 된다.
  3. 표준 편차로 나눴기 때문에 새로운 편차는 1이 될 수밖에 없다.

 

수능 표준 점수 예시

  • 사회탐구 과목당 50점 (2과목)
  • 과학탐구 과목당 50점 (2과목)
  • 언어 100점
  • 수리 100점
  • 외국어 100점

  • 사회탐구, 과학탐구 과목당 표준점수 
    • (표준점수) = 50+10$z$
  • 언어, 수리, 외국어 표준점수
    • (표준점수) = 2(50+10$z$)

 

정규분포곡선

  • 하나의 이상적인 히스토그램. 하나의 수학적 모형. 개념상 모집단의 분포.
  • 정규분포의 확률밀도함수 (probability density function) 

$ f(x) = \frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2 \sigma^{2}}} $, $- \infty < x <+\infty$,  $e=2.71828\cdots $

  • $\mu$ 를 모평균, $\sigma$ 를 모표준편차라고 부름.
  • 모집단 : 모평균과 모표준편차
  • 표본 : 표본평균과 표본표준편차

정규분포의 확률밀도함수 (빨간색 = 표준정규분포)

 

표준정규분포 (standard normal distribution)

평균이 0이고 표준편차가 1인 정규분포 : $Z\sim N(0,1)$

 

$f(x) = \frac{1}{\sqrt{2\pi }}e^{-\frac{1}{2}z^{2}}, -\infty <z<\infty $

 

정규분포곡선의 68-95-99.7 규칙 (참고 : 2025.03.09 - [통계학] - 5강 평균과 중앙값)

  • 표준단위로 -1부터 1까지 영역의 넓이 : 약 68% 
  • 표준단위로 -2부터 2까지 영역의 넓이 : 약 95%
  • 표준단위로 -3부터 3까지 영역의 넓이 : 약 99.7%

1 standard deviation(표준편차) 과 같은표현을 쓸 필요가 없다

평균은 0이 되었고, 표준편차는 1이 되었기 때문이다

 

정규분포곡선의 모양

  • 평균을 중심으로 좌우 대칭 (symmetric)
  • 종 모양 (bell-shaped)
  • 봉우리가 하나 (single-peaked)

 

표준 정규분포 곡선 아래의 영역 찾기 (참고 : 표준정규분포표 )

전북특별자치도교육청 - 표준정규분포표

 

Q1. 정규 근사

한 은행이 특정 영업일에 지급준비금 부족을 겪을 가능성은?

(매일 영업이 끝난 뒤 이 은행에 남아있는 잔고는 평균이 1조원이고 표준편차가 0.2조원인 정규분포에 의해 잘 근사된다고 가정. 지급준비금은 0.7조원 이상이어야 한다고 가정.)

더보기

정답 : 6.68%

 

백분위수

  • 백분위수(percentile)는 하나의 히스토그램을 100개의 균등한 영역으로 나누는 99개의 경계점 값들.
  • 제 p 백분위수는 그 값보다 작은 값이 p%, 큰 값이 (100-p)%가 되는 경계값.
  • 많은 히스토그램은 정규분포곡선과 다름. (평균과 표준편차만으로는 부족)
    • 예시로 소득분포가 있음
    • 이런 경우에 percentile로 많이 표현함
    • 제 1 십분위수, 제 9 십분위수
    • 10개로 나눴을 때
      • 제 1 십분위수에 해당하는 소득 = 하위 10%에 해당하는 사람의 소득
      • 제 9 십분위수에 해당하는 소득 = 상위 10%에 해당하는 사람의 소득
      • 두 값을 비교 계산했 때 6배 차이가 나면 "소득의 불평등을 보여준다"와 같이 해석도 가능
  • 이러한 히스토그램을 요약할 때는 백분위수 개념이 유용.

가구소득그래프

 

 

사분위수

  • 백분위수 가운데 25번째, 50번째, 75번째 백분위수를 특별히 제1사분위수(first quartile), 제2사분위수(second quartile), 제3사분위수(third quartile)라 부름.
  • 50번째 백분위수는 제2사분위수이면서 중앙값(median)임.
  • 사분위수 범위 (interquartile range)

(사분위수 범위) = (제3사분위수) - (제1사분위수)

  • 다섯 숫자 요약 (five number summary) : 최소값, 제1사분위수, 제2사분위수, 제3사분위수, 최대값
    • *(최소값, 최대값) 쌍 대신 (제5백분위수, 제95백분위수) 쌍 또는 (제1백분위수, 제99백분위수) 쌍을 사용하기도 함.

 

상자 그림 (box plot)

box plot 그리는 방법 (Q1 = 제 1사분위수 , Q3 = 제 3사분위수)

 

Q2. 백분위수 찾기

2009년도 1학기 통계학 중간고사에서 상위 5%에 해당하는 학생의 점수를 추정하라. 단 평균점수는 28.93 점이고 표준편차는 8.52점이다.

더보기

정답

z=1.65일 때 [0,1.65] 구간의 면적이 45%이므로, 상위 5% 학생의 z 값은 1.65이다.

이 학생은 평균보다 1.65 * 8.52 = 14.06 점 높을 것으로 추정된다.

즉, 이 학생은 27.93 + 14.06 = 41.99점을 받았을 것으로 추정된다.

 

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / - 제7강 정규분포로의 근사

'통계학' 카테고리의 다른 글

05. 회귀분석  (0) 2025.03.14
04. 상관관계와 회귀직선  (0) 2025.03.12
02. 표준편차와 자유도  (1) 2025.03.09
01. 평균과 중앙값  (0) 2025.03.09
'통계학' 카테고리의 다른 글
  • 05. 회귀분석
  • 04. 상관관계와 회귀직선
  • 02. 표준편차와 자유도
  • 01. 평균과 중앙값
infinity-epoch
infinity-epoch
과거에 했던 공부와 앞으로 공부할 내용을 정리해보고자 블로그를 시작하게 되었습니다 일주일에 3개정도는 포스팅하는게 목표입니다 :-)
  • infinity-epoch
    infinity-epoch
    infinity-epoch
  • 전체
    오늘
    어제
    • 분류 전체보기 (7)
      • 통계학 (7)
      • Backend (0)
      • AI (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
    • 관리 페이지
    • 글쓰기
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    사분위수
    Probability density function
    등분산성
    오차
    결합분포
    joint distribution
    회귀오류
    산포도
    homoskedestic
    백분위수
    확률밀도함수
    degrees of freedom
    simpson's paradox
    회귀효과
    요인 통제
    root mean square error
    중회귀분석
    normal distribution
    변수 변환
    회귀직선
    rmse
    최빈치
    로그변환
    density function
    median
    r square
    Percentile
    statiscits
    IQR
    변동의 분해
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
infinity-epoch
03. 정규분포로의 근사 (백분위수, 사분위수)
상단으로

티스토리툴바