07. 중회귀분석 (결정계수)

2025. 3. 17. 23:37·통계학

기울기와 절편

  • 절편은 x가 0일 때 y 값을 의미하며 기울기는 x가 1만큼 증가할 때 y가 증가하는 정도를 의미한다.

 

직선을 구하는 방법

최소자승법

  • 최소자승직선 : 모든 직선 중에서 x를 통해 y를 추정할 때 발생하는 추정오차들의 "제곱의 합"으로 측정한 전반적 크기를 가장 작게 만들어주는 직선
    • 산포도상의 각가의 점으로부터 하나의 직선까지의 수직거리를 정의
    • 수직거리의 "제곱 합"이 최소화 되는 직선을 회귀직선으로 선택
    • 수직거리의 제곱합을 최소화하는 것이나 RMS로 측정한 수직거리의 전반적 크기를 최소화하는 것이나 수학적으로 동일한 최적화 문제임
    • 즉, 최소자승법(method of least square)은 모든 직선 가운데 수직거리의 전반적 크기를 최소화 해주는 직선을 구하는 방법임

$\underset{a,b}{min}\sum_{n}^{i=1}[Y_{i}-(a+bX_i)]^{2}$

$\begin{matrix}
(X_i, Y_i) & i=1,...,n \\
\end{matrix}$

$\Rightarrow a=\overline{Y}-b\overline{X}$

$b=r \cdot \frac{SD_Y}{SD_X}$

 

 

 

예) 빅맥지수

(환율) = -57.31 + 1.81 (빅맥지수)

  • 빅맥지수와 환율의 수준이 같지 않다.
  • Absolute PPP 성립한다고 보기 어렵다.

ln(환율) = 0.29 + 1.01 x ln(빅맥지수)

  • 빅맥지수가 1% 변화할 때 환율도 대체로 1% 남짓 (1.01%) 변화하는 것으로 판단됨
  • Relative PPP가 성립하지 않는다고 볼 통계적 근거가 없음

 

자산가격결정모형(CAPM)

  • CAPM : 수익률에 대한 단일요인 모형 (Single factor model of return)
  • 시계열 회귀분석 방정식

$$ r_{it} = \alpha_i + \beta_ir_{mt}+\epsilon_{it} $$

$i$ = individual asset (특정 자산)

$t$ = time period (시기)

$m$ = market (시장)

$r$ = 수익률

$ r_{mt} $ = 시장 수익률

$\epsilon_{it}$ = 기타 외부 요인

  • Fama & French (1992) : '기업규모' 및 '장부가치/시장가치 비율' 등 두 요인을 추가하여 수익률의 종목간 변동을 추가로 설명

예) CAPM $\beta$의 추정

  • 종목별로 월별 주가수익률 데이터를 이용하여 개별주식의 수익률을 시장포트폴리오(KOSPI)의 수익률에 대해 회귀분석한 결과
  • 데이터 : 월별 주가 자료 (1992.2 - 2001.12)
기업명 $beta$ t-value
Samsung Electronics 1.24 6.39
SK Telecom 0.95 3.71
KT 1.09 5.97
KEPCO 0.71 4.79
POSCO 1.00 8.12

 

수치의 의미를 보면,

1보다 크다  = 시장 수익률이 한 단위 움직였을 때, 개별적인 주가는 더 많이 움직인다. ex. 삼성전자

1보다 낮다 = 시장 수익률보다 덜 움직인다. ex. KEPCO

 

직사각형의 둘레길이와 널이의 산포도 (회귀직선이 모두 통하는 것은 아님! 직선의 관계!)

  • 넓이와 둘레길이간 상관계수 = 0.98 : 이는 넓이와 높이라는 제3의 요인들 영향
  • 넓이와 둘레길이간 관계는 선형 관계가 아니라 비선형 관계임

 

중회귀 분석

  • 둘 이상의 설명 변수(x)로 독립 변수(y)를 설명하는 회귀분석
  • 종종 제 3의 변수가 두 변수 x와 y 각각에 영향을 미쳐, 관심의 대상인 두 변수 상호간의 순수한 관계를 왜곡시키게 됨. 제3의 변수를 통제할 필요성 대두
    • 1) 실험 (experiment) - 현실에서는 불가능 그래서 관측된 관계를 이용!
    • 2) 통계적 통제 1 : 자료를 제 3의 변수값에 따라 분류, 집단 별로 따로따로 분석
    • 3) 통계적 통제 2 : 중회귀분석

 

예) 남녀 노동자간 임금격차

  • 남녀 간에 임금격차가 존재하는지 보기 위하여 다음의 단순회귀분석 모형을 추정하려고 한다.

(임금) = a + b(남성 더미변수) + (오차)

  • 여기서 남성 더미변수는 남성에게 1을, 여성에게는 0의 값을 부여하는 질적변수이다.
  • 일반적으로 더미변수는 하나의 질적인 설명변수가 종속변수에 미치는 영향을 파악하고자할 때 이용한다.
  • 남녀 간의 임금격차는 남녀간 교육수준의 차이 등이 통제되지 않는 한 성차별의 증거로 보기 어렵다.
  • 교육수준을 설명변수로 추가, 단순회귀분석 모형을 중회귀분석 모형으로 확장하는 것이 필요!

(임금) =  a + b(남성 더미변수) + c(교육연수) + (오차)

 

 

예) 기술진보 반영한 물가지수 작성법

예) 컴퓨터 기술진보를 감안한 상태에서 지난 10년간의 컴퓨터 가격지수 작성

  • 지난 10년간 판매된 데스크탑 컴퓨터에 대해 CPU, 메모리 등 각종 스펙(x), 판매연도 (첫 해를 기준으로 $d_2, ..., d_{10}$ 등 총 9개의 연도더미변수들), 판매가격(y) 정보수집
  • log(y)를 상수항 $x, d_2, ... ,d_{10}$에 중회귀분석하여 $d_2, ... ,d_{10}$의 계수 추정치인 $b_2, .. ,b_{10}$ 얻음
  • 첫 해의 가격지수를 100으로 두면, 둘째 연도, ... , 10번째 연도의 가격지수는 각각 $100*exp(b_2), ... 100*exp(b_{10})$ 등으로 추정됨.

 

\[
\ln P_{it} = \alpha + {X_{it}}' \beta + \gamma_1 D_{1t} + \cdots + \gamma_{10} D_{10t} + \varepsilon_{it}
\]
\[
\text{where} \quad D_{jt} =
\begin{cases} 
1 & \text{if } t = j \\
0 & \text{otherwise}
\end{cases}, \quad j = 1, \dots, 10
\]
\[
D_1, \dots, D_{10} : \text{ time dummies}
\]

 

 

  • ${X_{it}}'\beta$ : 여러 개의 스펙이 다 들어가 있는 것 (CPU, 화면 크기 등)
  • $P_{it}$ : t년도에 판 i 라는 컴퓨터의 가격
  • $\gamma_1D_{it}$ : 각 더미변수 (11년동안의 데이터이고 기준년도 빼고 10개)

컴퓨터 스펙이 컴퓨터 가격에 미치는 영향을 통제한 상태에서, 기준 년도 대비 $\gamma_1$ 퍼센트(p항 로그취해졌기 때문) 만큼 달랐다.를 의미하는 수식

통계적인 통제를 하지 않는다면, 예나 지금이나 좋은 컴퓨터는 약 150~200 정도 비슷하게 한다. 즉, 시대에 흐름을 타지 않는다는 해석이 나올 수 있기에 주의해야한다!

같은 컴퓨터가 년도별로 가격이 어떻게 변했나 = 물가지수의 의미!

 

$lnP_{ij}-lnP_{i0} = \gamma_j$

$\Rightarrow P_{ij} = P_{i0}e^{r_j}$

$j = 1,2, \cdots, 10$

 

원년도를 100으로 본다고 하면 j 년도의 물가지수 = $100e^{r_j}$

같은 컴퓨터는 시간이 지날수록 가격이 하랄할테니, $\gamma_1$ 은 음수, $\gamma_2$는 더 작은 음수, .. 점점 줄어드는 그래프가 나올 것 (우하향)

 

이러한 변수 통제를 하지 않으면 심슨의 역설(simpson's paradox)가 발생하게 된다

 

 

총 변동의 분해

\[
y_i - \bar{y} = \left[ (a + bx_i) - \bar{y} \right] + \left[ y_i - (a + bx_i) \right]
\]
\[
T = Regression (설명이 되는 부분) + Error (설명되지 않는 부분)
\]

각 항을 제곱하면 아래와 같다!

 

$\sum(y_i-\overline{y})^2 = \sum [(a+bx_i)-\overline{y}]^2+\sum [y_i-(a+bx_i)]^2$

SST = SSR + SSE

 

SST [총제곱합 (total sum of squares)] : y의 평균 주위로의 총변동

SSR [회귀제곱합 (regression sum of squares)] : 회귀직선에 의해 설명되는 변동분

SSE [잔차제곱합 (residual sum of squares) 또는 오차제곱합 (error sum of squares)] : 회귀직선에 의해 설명되지 않는 변동분

 

결정계수 ($R^2$)

결정계수 = 총변동에서 차지하는 설명되는 변동분의 비율

$R^2 = \frac{SSR}{SST} = 1-\frac{SSE}{SST}$

$(0\leq R^2\leq1)$

  • 결정계수의 값이 1에 가까울수록 회귀직선의 설명력은 높다
  • 단순회귀분석의 경우 결정계수인 $R^2$ 값은 두 변수간 상관관계인 r의 제곱과 같게된다. (단순회귀분석의 경우에는 $R^2$ = r 제곱)

조정된 결정계수 (adjusted $R^2$)

  • 설명계수를 추가하면 추가할수록 $R^2$는 언제나 증가함
    • $R^2=1-SSE/SST$인데 $SST$는 고정된 반면 $SSE$ 는 설명변수 추가될수록 감소
  • 이 문제를 해결하기 위해 아래의 "조정된 결정계수"를 정의함

$\overline{R}^2=1-\frac{SSE/(n-k-1)}{SST/(n-1)}$

(n= 표본크기, k=설명변수의 개수)

  • $SSE$와 $SST$가 각각의 자유도로 나누어진 형태로 등장
  • $SST$의 자유도=(n-1): 표준편차 구할 때의 자유도와 동일
  • $SSE$의 자유도=(n-k-1): n개 자료 이용 총 (k+1)개의 계수 추정한 결과
  • 조정된 결정계수는 설명변수가 추가된다고 해서 반드시 늘지는 않음

 

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / 제12강 회귀직선

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / 제13강 중회귀분석의 응용

 

'통계학' 카테고리의 다른 글

06. 회귀직선의 오차 RMSE  (0) 2025.03.14
05. 회귀분석  (0) 2025.03.14
04. 상관관계와 회귀직선  (0) 2025.03.12
03. 정규분포로의 근사 (백분위수, 사분위수)  (0) 2025.03.10
'통계학' 카테고리의 다른 글
  • 06. 회귀직선의 오차 RMSE
  • 05. 회귀분석
  • 04. 상관관계와 회귀직선
  • 03. 정규분포로의 근사 (백분위수, 사분위수)
infinity-epoch
infinity-epoch
과거에 했던 공부와 앞으로 공부할 내용을 정리해보고자 블로그를 시작하게 되었습니다 일주일에 3개정도는 포스팅하는게 목표입니다 :-)
  • infinity-epoch
    infinity-epoch
    infinity-epoch
  • 전체
    오늘
    어제
    • 분류 전체보기 (7)
      • 통계학 (7)
      • Backend (0)
      • AI (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
    • 관리 페이지
    • 글쓰기
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    rmse
    백분위수
    density function
    변수 변환
    r square
    최빈치
    Probability density function
    로그변환
    등분산성
    degrees of freedom
    회귀직선
    회귀오류
    median
    joint distribution
    statiscits
    normal distribution
    산포도
    중회귀분석
    simpson's paradox
    Percentile
    오차
    변동의 분해
    요인 통제
    사분위수
    확률밀도함수
    root mean square error
    homoskedestic
    회귀효과
    결합분포
    IQR
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
infinity-epoch
07. 중회귀분석 (결정계수)
상단으로

티스토리툴바