01. 평균과 중앙값

2025. 3. 9. 18:05·통계학

중심과 퍼진 정도

- 히스토그램에서 자료를 요약할 때 중심(평균, 중앙값)과 중심 주위로 퍼진 정도(표준편차, 사분위수 범위)를 주로 사용

 

 

평균

  • 평균(mean)은 관측치의 총합을 관측치의 개수로 나누어 구한다.
  • x1, x2, .. xn 등 n 개의 관측치가 주어져 있을 때 표본의 평균은  (평균 수식)
  • 평균이 중요하지만 전부는 아님. 아래 세 그림은 평균이 같지만 퍼진 정도가 다름

 

중앙값 (median)

  • 절반 이상의 숫자들이 이 값보다 크거나 같고 동시에 절반 이상의 숫자들이 이 값보다 작거나 같은 수
  • 하스토그램은 중앙값에서 그 면적이 양분됨
  • 중앙값 n이 홀수이면 (n+1)/2 번째로 크거나 작은 숫자임
  • 중앙값은 n이 짝수이면 n/2 번째 숫자와 (n+1)/2 번째 숫자의 평균으로 정의
  • median voter theorem (결국 중앙값에 위치한 사람의 성향을 대표할 수밖에 없다!)
    • 선호의 비대칭분포 이용하여 후보자의 location choice 문제 설명.
    • 다수결에 의한 투표는 중앙값 투표자(median voter)가 선호하는 결과를 선택하게 됨
    • 이는 중앙값이 LAD (least absolute deviation)의 해로 얻어진다는 것과 수학적으로 같은 내용임
    • 유권자의 선호를 일차원 실직선 상에서 표현할 수 있을 때 성립함
    • 유권자의 선호가 다차원적이면 성립하지 않음
    • sum(|yi - m|) 이를 최소화하는 m을 선택한다면, 투표를 받을 수 있다! - 데이터의 중앙값이 됨

 

평균과 중앙값의 관계

  • 히스토그램이 대칭이면 평균 = 중앙값
  • 숫자열의 변화에 따른 평균의 변화 ( 1,2,2,3 || 1,2,2,5 || 1,2,2,7 )
    • 극단적인 값이 변화함에 따라 중앙값은 robust 하지만, 평균은 극단값의 영향을 많이 받는다!

 

최빈치 (mode)

  • 가장 많이 관측되는 값 
  • 히스토그램은 최빈치에서 그 높이가 제일 높음

 

히스토그램의 세 가지 꼬리 유형 (left/right-skewed distribution , normal distribution)

  • 평균은 극단적인 값의 영향을 받음
  • 중앙값은 극단적인 값의 영향을 받지 않음
  • 극단적인 값이 존재하는 경우 평균보다 중앙값이 중심을 더 잘 나타냄
  • GDP 2만 달러 약 2천만 원  / 4인 8천만 원 = 평균

 

 

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / - 제5강 평균과 중앙값

 

 

'통계학' 카테고리의 다른 글

05. 회귀분석  (0) 2025.03.14
04. 상관관계와 회귀직선  (0) 2025.03.12
03. 정규분포로의 근사 (백분위수, 사분위수)  (0) 2025.03.10
02. 표준편차와 자유도  (1) 2025.03.09
'통계학' 카테고리의 다른 글
  • 05. 회귀분석
  • 04. 상관관계와 회귀직선
  • 03. 정규분포로의 근사 (백분위수, 사분위수)
  • 02. 표준편차와 자유도
infinity-epoch
infinity-epoch
과거에 했던 공부와 앞으로 공부할 내용을 정리해보고자 블로그를 시작하게 되었습니다 일주일에 3개정도는 포스팅하는게 목표입니다 :-)
  • infinity-epoch
    infinity-epoch
    infinity-epoch
  • 전체
    오늘
    어제
    • 분류 전체보기 (7)
      • 통계학 (7)
      • Backend (0)
      • AI (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
    • 관리 페이지
    • 글쓰기
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    결합분포
    로그변환
    오차
    최빈치
    root mean square error
    산포도
    중회귀분석
    density function
    rmse
    요인 통제
    Probability density function
    백분위수
    r square
    simpson's paradox
    joint distribution
    변수 변환
    median
    Percentile
    확률밀도함수
    등분산성
    normal distribution
    IQR
    회귀효과
    변동의 분해
    statiscits
    회귀오류
    회귀직선
    degrees of freedom
    사분위수
    homoskedestic
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
infinity-epoch
01. 평균과 중앙값
상단으로

티스토리툴바