01. 평균과 중앙값

2025. 3. 9. 18:05·통계학

중심과 퍼진 정도

- 히스토그램에서 자료를 요약할 때 중심(평균, 중앙값)과 중심 주위로 퍼진 정도(표준편차, 사분위수 범위)를 주로 사용

 

 

평균

  • 평균(mean)은 관측치의 총합을 관측치의 개수로 나누어 구한다.
  • x1, x2, .. xn 등 n 개의 관측치가 주어져 있을 때 표본의 평균은  (평균 수식)
  • 평균이 중요하지만 전부는 아님. 아래 세 그림은 평균이 같지만 퍼진 정도가 다름

 

중앙값 (median)

  • 절반 이상의 숫자들이 이 값보다 크거나 같고 동시에 절반 이상의 숫자들이 이 값보다 작거나 같은 수
  • 하스토그램은 중앙값에서 그 면적이 양분됨
  • 중앙값 n이 홀수이면 (n+1)/2 번째로 크거나 작은 숫자임
  • 중앙값은 n이 짝수이면 n/2 번째 숫자와 (n+1)/2 번째 숫자의 평균으로 정의
  • median voter theorem (결국 중앙값에 위치한 사람의 성향을 대표할 수밖에 없다!)
    • 선호의 비대칭분포 이용하여 후보자의 location choice 문제 설명.
    • 다수결에 의한 투표는 중앙값 투표자(median voter)가 선호하는 결과를 선택하게 됨
    • 이는 중앙값이 LAD (least absolute deviation)의 해로 얻어진다는 것과 수학적으로 같은 내용임
    • 유권자의 선호를 일차원 실직선 상에서 표현할 수 있을 때 성립함
    • 유권자의 선호가 다차원적이면 성립하지 않음
    • sum(|yi - m|) 이를 최소화하는 m을 선택한다면, 투표를 받을 수 있다! - 데이터의 중앙값이 됨

 

평균과 중앙값의 관계

  • 히스토그램이 대칭이면 평균 = 중앙값
  • 숫자열의 변화에 따른 평균의 변화 ( 1,2,2,3 || 1,2,2,5 || 1,2,2,7 )
    • 극단적인 값이 변화함에 따라 중앙값은 robust 하지만, 평균은 극단값의 영향을 많이 받는다!

 

최빈치 (mode)

  • 가장 많이 관측되는 값 
  • 히스토그램은 최빈치에서 그 높이가 제일 높음

 

히스토그램의 세 가지 꼬리 유형 (left/right-skewed distribution , normal distribution)

  • 평균은 극단적인 값의 영향을 받음
  • 중앙값은 극단적인 값의 영향을 받지 않음
  • 극단적인 값이 존재하는 경우 평균보다 중앙값이 중심을 더 잘 나타냄
  • GDP 2만 달러 약 2천만 원  / 4인 8천만 원 = 평균

 

 

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / - 제5강 평균과 중앙값

 

 

'통계학' 카테고리의 다른 글

05. 회귀분석  (0) 2025.03.14
04. 상관관계와 회귀직선  (0) 2025.03.12
03. 정규분포로의 근사 (백분위수, 사분위수)  (0) 2025.03.10
02. 표준편차와 자유도  (1) 2025.03.09
'통계학' 카테고리의 다른 글
  • 05. 회귀분석
  • 04. 상관관계와 회귀직선
  • 03. 정규분포로의 근사 (백분위수, 사분위수)
  • 02. 표준편차와 자유도
infinity-epoch
infinity-epoch
과거에 했던 공부와 앞으로 공부할 내용을 정리해보고자 블로그를 시작하게 되었습니다 일주일에 3개정도는 포스팅하는게 목표입니다 :-)
  • infinity-epoch
    infinity-epoch
    infinity-epoch
  • 전체
    오늘
    어제
    • 분류 전체보기 (7)
      • 통계학 (7)
      • Backend (0)
      • AI (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
    • 관리 페이지
    • 글쓰기
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    joint distribution
    변동의 분해
    오차
    요인 통제
    중회귀분석
    rmse
    Probability density function
    회귀효과
    Percentile
    statiscits
    homoskedestic
    degrees of freedom
    density function
    root mean square error
    normal distribution
    회귀오류
    산포도
    IQR
    median
    r square
    백분위수
    등분산성
    회귀직선
    결합분포
    최빈치
    변수 변환
    로그변환
    확률밀도함수
    사분위수
    simpson's paradox
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
infinity-epoch
01. 평균과 중앙값
상단으로

티스토리툴바