통계학

01. 평균과 중앙값

infinity-epoch 2025. 3. 9. 18:05

중심과 퍼진 정도

- 히스토그램에서 자료를 요약할 때 중심(평균, 중앙값)과 중심 주위로 퍼진 정도(표준편차, 사분위수 범위)를 주로 사용

 

 

평균

  • 평균(mean)은 관측치의 총합을 관측치의 개수로 나누어 구한다.
  • x1, x2, .. xn 등 n 개의 관측치가 주어져 있을 때 표본의 평균은  (평균 수식)
  • 평균이 중요하지만 전부는 아님. 아래 세 그림은 평균이 같지만 퍼진 정도가 다름

 

중앙값 (median)

  • 절반 이상의 숫자들이 이 값보다 크거나 같고 동시에 절반 이상의 숫자들이 이 값보다 작거나 같은 수
  • 하스토그램은 중앙값에서 그 면적이 양분됨
  • 중앙값 n이 홀수이면 (n+1)/2 번째로 크거나 작은 숫자임
  • 중앙값은 n이 짝수이면 n/2 번째 숫자와 (n+1)/2 번째 숫자의 평균으로 정의
  • median voter theorem (결국 중앙값에 위치한 사람의 성향을 대표할 수밖에 없다!)
    • 선호의 비대칭분포 이용하여 후보자의 location choice 문제 설명.
    • 다수결에 의한 투표는 중앙값 투표자(median voter)가 선호하는 결과를 선택하게 됨
    • 이는 중앙값이 LAD (least absolute deviation)의 해로 얻어진다는 것과 수학적으로 같은 내용임
    • 유권자의 선호를 일차원 실직선 상에서 표현할 수 있을 때 성립함
    • 유권자의 선호가 다차원적이면 성립하지 않음
    • sum(|yi - m|) 이를 최소화하는 m을 선택한다면, 투표를 받을 수 있다! - 데이터의 중앙값이 됨

 

평균과 중앙값의 관계

  • 히스토그램이 대칭이면 평균 = 중앙값
  • 숫자열의 변화에 따른 평균의 변화 ( 1,2,2,3 || 1,2,2,5 || 1,2,2,7 )
    • 극단적인 값이 변화함에 따라 중앙값은 robust 하지만, 평균은 극단값의 영향을 많이 받는다!

 

최빈치 (mode)

  • 가장 많이 관측되는 값 
  • 히스토그램은 최빈치에서 그 높이가 제일 높음

 

히스토그램의 세 가지 꼬리 유형 (left/right-skewed distribution , normal distribution)

  • 평균은 극단적인 값의 영향을 받음
  • 중앙값은 극단적인 값의 영향을 받지 않음
  • 극단적인 값이 존재하는 경우 평균보다 중앙값이 중심을 더 잘 나타냄
  • GDP 2만 달러 약 2천만 원  / 4인 8천만 원 = 평균

 

 

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / - 제5강 평균과 중앙값