RMSE (Root Mean Square Error)
잔차(residual) 제곱의 합을 표본크기 - 2로 나누어 제곱근을 씌운 값
회귀직선의 RMSE와 y의 표준편차
일반적으로 회귀직선의 RMSE는 y의 표준편차보다 작다. 이는 수평선보다 회귀직선이 산포도상의 점들에 보다 가까이 위치하기 때문이다.
수평선 = y의 SD만을 구한다면 이는 y값만 사용하는 것이기에 수평선과 동일. y축에 평행이동시켜서 수치를 잰 것과 동일
$RMSE\approx \sqrt{1-r^2}*SD_y$
상관계수자체가 0인 경우, 1인 경우 = 모든 잔차가 0이기에 RMSE를 적용해도 0임
r 값이 크면 클수록 설명이 많이 되기 때문에, 설명이 안되는 것을 의미하는 RMSE는 줄어든다!
점을 regression function으로 일반화했고 이것이 대표값이다
이를 y의 대표값인 것처럼
regression function의 각각의 점들은 해당 집단의 y값을 대표하는 것이다
x가 주어지면 세로 수직선을 결정한다.
각각 모두 다른 집단들이다.
x, y 각 집단마다 결정되는 중심은 regression line의 높이고
집단마다 따로 적용되는 중심과의 거리는 RMSE이다.
중심은 집단마다 함수를 따라 변화하도록 허용하였는데
이 중심으로부터 떨어진 거리는 같은 값을 쓰고 있다! 이를 모든 집단에 같이 쓰는것이 가능한 이유는 등분산성의 가정으로 가능한 것
등분산성(homoskedestic)
회귀직선을 중심으로 점들이 위 아래로 퍼진 정도가 세로띠 별로 같음
1차원에서 2차원으로 시야는 확장했으나, 본질을 새로 도입한 것은 없다!
차원 | 1차원 | 2차원 |
자료의 퍼짐 정도를 보자 | 1차원 scatter plot | 2차원 scatter plot |
수치로 자료를 요약하자 (중심) | $\overline{y}$ | regression function |
데이터의 분산 (variation) | $SD$ | $RMSE$ |
중심과 분산으로 모든것을 파악할 수 있는가? | 분포의 모양이 정규분포를 따른다면 그렇다. | 세로띠별로 모든 세로띠에서(구간) 다 정규분포면 그렇다. 정규분포의 퍼진 정도가 다 같으면 그렇다 (등분산성) |
중간 고사 30점 맞은 학생의 기말고사 점수를 95% 범위 안에서 말해달라.
30 점의 regression line 점수가 대표값으로 예측됩니다.
다만, 다른 요인으로 기말고사 점수가 영향을 받을 수 있으므로 RMSE의 2배를 위아래로 잡아줘야 95% 정도 확실할 수 있습니다.
(RMSE 앞서 편차와 동일한 본질이므로, 2배 위아래라는 것은 이전에 배웠던 68-95 법칙에 의한 것!
출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / 제11강 회귀직선의 오차
'통계학' 카테고리의 다른 글
05. 회귀분석 (0) | 2025.03.14 |
---|---|
04. 상관관계와 회귀직선 (0) | 2025.03.12 |
03. 정규분포로의 근사 (백분위수, 사분위수) (0) | 2025.03.10 |
02. 표준편차와 자유도 (1) | 2025.03.09 |