단위 변환
- 상수를 더하거나 곱하는 변환
- 예: 섭씨 온도(y) = 5/9(화씨온도(x)-32). 즉 y=160/9+(5/9)x
- 표준화(standardization): 평균을 빼주고 표준편차로 나누어 주는 변환
- 확률변수가 $X \sim N(\mu ,\sigma ^{2})$ (= normal distribution)일 때
- $Z=\frac{X-\mu }{\sigma } \sim N(0,1) $ = 표준정규분포
알 수 있는 사실
- 분포의 전반적인 모습은 단위 변환을 통해 바뀌지 않는다.
- 평균을 뺏기 때문에, 새로운 평균은 0이 된다.
- 표준 편차로 나눴기 때문에 새로운 편차는 1이 될 수밖에 없다.
수능 표준 점수 예시
- 사회탐구 과목당 50점 (2과목)
- 과학탐구 과목당 50점 (2과목)
- 언어 100점
- 수리 100점
- 외국어 100점
- 사회탐구, 과학탐구 과목당 표준점수
- (표준점수) = 50+10$z$
- 언어, 수리, 외국어 표준점수
- (표준점수) = 2(50+10$z$)
정규분포곡선
- 하나의 이상적인 히스토그램. 하나의 수학적 모형. 개념상 모집단의 분포.
- 정규분포의 확률밀도함수 (probability density function)
$ f(x) = \frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2 \sigma^{2}}} $, $- \infty < x <+\infty$, $e=2.71828\cdots $
- $\mu$ 를 모평균, $\sigma$ 를 모표준편차라고 부름.
- 모집단 : 모평균과 모표준편차
- 표본 : 표본평균과 표본표준편차
표준정규분포 (standard normal distribution)
평균이 0이고 표준편차가 1인 정규분포 : $Z\sim N(0,1)$
$f(x) = \frac{1}{\sqrt{2\pi }}e^{-\frac{1}{2}z^{2}}, -\infty <z<\infty $
정규분포곡선의 68-95-99.7 규칙 (참고 : 2025.03.09 - [통계학] - 5강 평균과 중앙값)
- 표준단위로 -1부터 1까지 영역의 넓이 : 약 68%
- 표준단위로 -2부터 2까지 영역의 넓이 : 약 95%
- 표준단위로 -3부터 3까지 영역의 넓이 : 약 99.7%
1 standard deviation(표준편차) 과 같은표현을 쓸 필요가 없다
평균은 0이 되었고, 표준편차는 1이 되었기 때문이다
정규분포곡선의 모양
- 평균을 중심으로 좌우 대칭 (symmetric)
- 종 모양 (bell-shaped)
- 봉우리가 하나 (single-peaked)
표준 정규분포 곡선 아래의 영역 찾기 (참고 : 표준정규분포표 )
Q1. 정규 근사
한 은행이 특정 영업일에 지급준비금 부족을 겪을 가능성은?
(매일 영업이 끝난 뒤 이 은행에 남아있는 잔고는 평균이 1조원이고 표준편차가 0.2조원인 정규분포에 의해 잘 근사된다고 가정. 지급준비금은 0.7조원 이상이어야 한다고 가정.)
정답 : 6.68%
백분위수
- 백분위수(percentile)는 하나의 히스토그램을 100개의 균등한 영역으로 나누는 99개의 경계점 값들.
- 제 p 백분위수는 그 값보다 작은 값이 p%, 큰 값이 (100-p)%가 되는 경계값.
- 많은 히스토그램은 정규분포곡선과 다름. (평균과 표준편차만으로는 부족)
- 예시로 소득분포가 있음
- 이런 경우에 percentile로 많이 표현함
- 제 1 십분위수, 제 9 십분위수
- 10개로 나눴을 때
- 제 1 십분위수에 해당하는 소득 = 하위 10%에 해당하는 사람의 소득
- 제 9 십분위수에 해당하는 소득 = 상위 10%에 해당하는 사람의 소득
- 두 값을 비교 계산했 때 6배 차이가 나면 "소득의 불평등을 보여준다"와 같이 해석도 가능
- 이러한 히스토그램을 요약할 때는 백분위수 개념이 유용.
사분위수
- 백분위수 가운데 25번째, 50번째, 75번째 백분위수를 특별히 제1사분위수(first quartile), 제2사분위수(second quartile), 제3사분위수(third quartile)라 부름.
- 50번째 백분위수는 제2사분위수이면서 중앙값(median)임.
- 사분위수 범위 (interquartile range)
(사분위수 범위) = (제3사분위수) - (제1사분위수)
- 다섯 숫자 요약 (five number summary) : 최소값, 제1사분위수, 제2사분위수, 제3사분위수, 최대값
- *(최소값, 최대값) 쌍 대신 (제5백분위수, 제95백분위수) 쌍 또는 (제1백분위수, 제99백분위수) 쌍을 사용하기도 함.
상자 그림 (box plot)
Q2. 백분위수 찾기
2009년도 1학기 통계학 중간고사에서 상위 5%에 해당하는 학생의 점수를 추정하라. 단 평균점수는 28.93 점이고 표준편차는 8.52점이다.
정답
z=1.65일 때 [0,1.65] 구간의 면적이 45%이므로, 상위 5% 학생의 z 값은 1.65이다.
이 학생은 평균보다 1.65 * 8.52 = 14.06 점 높을 것으로 추정된다.
즉, 이 학생은 27.93 + 14.06 = 41.99점을 받았을 것으로 추정된다.
'통계학' 카테고리의 다른 글
05. 회귀분석 (0) | 2025.03.14 |
---|---|
04. 상관관계와 회귀직선 (0) | 2025.03.12 |
02. 표준편차와 자유도 (1) | 2025.03.09 |
01. 평균과 중앙값 (0) | 2025.03.09 |