05. 회귀분석

2025. 3. 14. 22:13·통계학

 

가장 간단한 관계가 직선이다

그렇게 상관계수와 상관관계를 배웠다

직선의 관계에 방향(기울기 양수,음수)이 있고, 강도(절대값 1에 가까울수록)가 있다

 

상관관계와 관련된 회귀직선을 공부하자!

regression line, regression equation

 

회귀분석

    • 회귀분석(regression analysis)는 집단별 평균을 분석하는 통계적 방법
    • 집단을 구분하는 분류지표가 한 개인지, 둘 또는 그 이상인지에따라 단순회귀분석과 중회귀분석으로 나누어짐

류근관. (2013). 통계학, 제3판 서울:법문사

  • 상관계수 = 0.67 : 키가 평균보다 $1SD_y$ 만큼 큰 사람들은 몸무게가 평균보다 대략 0.67$SD_y$ 만큼 더 나감
  • 표준편차선 : 두 변수(여기서는 키와 몸무게)의 표준화된 변수 값이 같은 점들을 이은 직선
  • 그렇다면 왜 회귀직선은 표준편차선보다 더 완만한가? 그 이유는 상관계수가 1이 아니기 때문!
  • y의 x에 대한 회귀직선은 각각의 x에 대응하는 y의 평균값을 추정

류근관. (2013). 통계학, 제3판 서울:법문사

  • x 값이 x 평균값에서 $1SD_x$증가할 때 y값은 y평균값에서 $r x \times SD_y$
  • r이 1이면 표준편차선이 되는 것!
  •  회귀직선은 평균의 그래프를 하나의 직선으로 근사 시킨 것
  • 평균의 그래프가 비선형이면 회귀직선으로의 선형 근사는 부적절

 

회귀분석 방법

  • x의 표준편차가 한 단위 증가할 때, y는 y의 표준편차의 상관계수 배만큼 증가한다.
  • x가 분류지표일 때, y를 x에 대하여 회귀분석 한다는 것은! x의 담긴 정보를 이용할 때 y 를 얼마나 직선으로 설명할 수 있는가

 

예: 경제학부 10학번 학생 100명을 대상으로 조사한 결과

경제원론 평균 = 3.0 표준편차($SD_x$) = 0.70

경제통계학 평균 = 3.0 표준편차($SD_y$) = 0.60

상관계수 = 0.5

 

문제 ) 경제원론 학점이 3.70인 지희의 경제통계학 학점은?

더보기

1. 경제원론 점수가 평균보다 (3.7-3)/0.7  = 1$SD_x$ 높으므로

2. 경제통계학 학점은 평균보다 $rSD_y$. 즉, 0.5 * 0.60 = 0.30 만큼 높을 것으로 예측

3. 따라서 경제통계학 학점의 예측치는 3.0 + 0.3 = 3.3 (B+) 이다.

 

평범으로의 회귀 (regression to mediocrity)

상관계수가 1이 아니기 때문에 회귀직선이 SD선보다 누워있다. 중간고사와 기말고사 사이에는 다른 요인이 있을 수 있다

 

($x$) 중간고사 성적의 평균 129.3
표준편차 ($SD_x$) 30.8
($y$) 기말고사 성적의 평균 112.4
표준편차($SD_y$) 40.0
상관계수 0.64
  • 중간고사에서 평균보다 높은 160점 받은 학생들의 기말소가 평균 점수는 138점으로 표준단위로 볼 때 하락했음
  • 반면 중간고사에서 평균보다 낮은 110점 받은 학생들의 기말고사 평균 점수는 96.1점으로 표준단위로 볼 때 상승했음

 

회귀효과

  • 회귀오류(regression fallacy)는 회귀효과를 무언가 중요한 효과로 착각하는 것
    • 회귀효과의 배경
    • (관찰된 점수) = (실제 실력) + (롹률오차)
    • 예: 실제 실력은 평균 120, 표준편차 15의 정규분포를 따라 분포한다고 가정하자.
      • 또 관측치에 든 확률오차는 각각 0.5의 확률로 $\pm5$라고 가정하자.
      • 실제 실력이 135인 사람의 관찰된 점수는 각각 1/2의 확률로 130 또는 140
      • 실제 실력이 145인 사람의 관찰된 점수는 각각 1/2의 확률로 140 또는 150
      • 관찰된 점수로 140점 받은 사람의 경우 실제 실력은 135인데 확률오차가 +5인 경우가 실제 실력은 145인데 확률오차가 -5인 경우보다 더 가능성 높음 (평균이 120임을 참고!)
      • 따라서 첫 번째 시험 점수가 평균보다 높으면, 아마도 실제 실력은 관찰된 점수보다 낮을 가능성이 큼

 

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / 제10강 회귀분석

 

'통계학' 카테고리의 다른 글

07. 중회귀분석 (결정계수)  (0) 2025.03.17
06. 회귀직선의 오차 RMSE  (0) 2025.03.14
04. 상관관계와 회귀직선  (0) 2025.03.12
03. 정규분포로의 근사 (백분위수, 사분위수)  (0) 2025.03.10
'통계학' 카테고리의 다른 글
  • 07. 중회귀분석 (결정계수)
  • 06. 회귀직선의 오차 RMSE
  • 04. 상관관계와 회귀직선
  • 03. 정규분포로의 근사 (백분위수, 사분위수)
infinity-epoch
infinity-epoch
과거에 했던 공부와 앞으로 공부할 내용을 정리해보고자 블로그를 시작하게 되었습니다 일주일에 3개정도는 포스팅하는게 목표입니다 :-)
  • infinity-epoch
    infinity-epoch
    infinity-epoch
  • 전체
    오늘
    어제
    • 분류 전체보기 (7)
      • 통계학 (7)
      • Backend (0)
      • AI (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
    • 관리 페이지
    • 글쓰기
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    median
    homoskedestic
    statiscits
    산포도
    사분위수
    Probability density function
    로그변환
    중회귀분석
    root mean square error
    simpson's paradox
    변수 변환
    rmse
    r square
    결합분포
    회귀효과
    백분위수
    변동의 분해
    joint distribution
    오차
    등분산성
    요인 통제
    확률밀도함수
    density function
    Percentile
    회귀오류
    degrees of freedom
    회귀직선
    최빈치
    normal distribution
    IQR
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
infinity-epoch
05. 회귀분석
상단으로

티스토리툴바