06. 회귀직선의 오차 RMSE

2025. 3. 14. 22:42·통계학

 

RMSE (Root Mean Square Error)

잔차(residual) 제곱의 합을 표본크기 - 2로 나누어 제곱근을 씌운 값

 

회귀직선의 RMSE와 y의 표준편차

일반적으로 회귀직선의 RMSE는 y의 표준편차보다 작다. 이는 수평선보다 회귀직선이 산포도상의 점들에 보다 가까이 위치하기 때문이다.

수평선 = y의 SD만을 구한다면 이는 y값만 사용하는 것이기에 수평선과 동일. y축에 평행이동시켜서 수치를 잰 것과 동일

 

$RMSE\approx \sqrt{1-r^2}*SD_y$

 

상관계수자체가 0인 경우, 1인 경우 = 모든 잔차가 0이기에 RMSE를 적용해도 0임

r 값이 크면 클수록 설명이 많이 되기 때문에, 설명이 안되는 것을 의미하는 RMSE는 줄어든다!

 

 

점을 regression function으로 일반화했고 이것이 대표값이다

이를 y의 대표값인 것처럼

regression function의 각각의 점들은 해당 집단의 y값을 대표하는 것이다

x가 주어지면 세로 수직선을 결정한다.

각각 모두 다른 집단들이다.

x, y 각 집단마다 결정되는 중심은 regression line의 높이고

집단마다 따로 적용되는 중심과의 거리는 RMSE이다.

 

중심은 집단마다 함수를 따라 변화하도록 허용하였는데

이 중심으로부터 떨어진 거리는 같은 값을 쓰고 있다! 이를 모든 집단에 같이 쓰는것이 가능한 이유는 등분산성의 가정으로 가능한 것

 

등분산성(homoskedestic)

회귀직선을 중심으로 점들이 위 아래로 퍼진 정도가 세로띠 별로 같음

 

1차원에서 2차원으로 시야는 확장했으나, 본질을 새로 도입한 것은 없다!

차원 1차원 2차원
자료의 퍼짐 정도를 보자 1차원 scatter plot 2차원 scatter plot
수치로 자료를 요약하자 (중심) $\overline{y}$ regression function
데이터의 분산 (variation) $SD$ $RMSE$
중심과 분산으로 모든것을 파악할 수 있는가? 분포의 모양이 정규분포를 따른다면 그렇다. 세로띠별로 모든 세로띠에서(구간) 다 정규분포면 그렇다.
정규분포의 퍼진 정도가 다 같으면 그렇다 (등분산성)

 

중간 고사 30점 맞은 학생의 기말고사 점수를 95% 범위 안에서 말해달라.

 

30 점의 regression line 점수가 대표값으로 예측됩니다.

다만, 다른 요인으로 기말고사 점수가 영향을 받을 수 있으므로 RMSE의 2배를 위아래로 잡아줘야 95% 정도 확실할 수 있습니다.

(RMSE 앞서 편차와 동일한 본질이므로, 2배 위아래라는 것은 이전에 배웠던 68-95 법칙에 의한 것! 

 

 

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / 제11강 회귀직선의 오차

 

'통계학' 카테고리의 다른 글

07. 중회귀분석 (결정계수)  (0) 2025.03.17
05. 회귀분석  (0) 2025.03.14
04. 상관관계와 회귀직선  (0) 2025.03.12
03. 정규분포로의 근사 (백분위수, 사분위수)  (0) 2025.03.10
'통계학' 카테고리의 다른 글
  • 07. 중회귀분석 (결정계수)
  • 05. 회귀분석
  • 04. 상관관계와 회귀직선
  • 03. 정규분포로의 근사 (백분위수, 사분위수)
infinity-epoch
infinity-epoch
과거에 했던 공부와 앞으로 공부할 내용을 정리해보고자 블로그를 시작하게 되었습니다 일주일에 3개정도는 포스팅하는게 목표입니다 :-)
  • infinity-epoch
    infinity-epoch
    infinity-epoch
  • 전체
    오늘
    어제
    • 분류 전체보기 (7)
      • 통계학 (7)
      • Backend (0)
      • AI (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
    • 관리 페이지
    • 글쓰기
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    median
    사분위수
    산포도
    Percentile
    homoskedestic
    최빈치
    Probability density function
    degrees of freedom
    joint distribution
    statiscits
    확률밀도함수
    백분위수
    회귀오류
    요인 통제
    중회귀분석
    변동의 분해
    normal distribution
    simpson's paradox
    r square
    결합분포
    로그변환
    IQR
    density function
    오차
    rmse
    변수 변환
    등분산성
    root mean square error
    회귀효과
    회귀직선
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
infinity-epoch
06. 회귀직선의 오차 RMSE
상단으로

티스토리툴바