기울기와 절편
- 절편은 x가 0일 때 y 값을 의미하며 기울기는 x가 1만큼 증가할 때 y가 증가하는 정도를 의미한다.
직선을 구하는 방법
최소자승법
- 최소자승직선 : 모든 직선 중에서 x를 통해 y를 추정할 때 발생하는 추정오차들의 "제곱의 합"으로 측정한 전반적 크기를 가장 작게 만들어주는 직선
- 산포도상의 각가의 점으로부터 하나의 직선까지의 수직거리를 정의
- 수직거리의 "제곱 합"이 최소화 되는 직선을 회귀직선으로 선택
- 수직거리의 제곱합을 최소화하는 것이나 RMS로 측정한 수직거리의 전반적 크기를 최소화하는 것이나 수학적으로 동일한 최적화 문제임
- 즉, 최소자승법(method of least square)은 모든 직선 가운데 수직거리의 전반적 크기를 최소화 해주는 직선을 구하는 방법임
$\underset{a,b}{min}\sum_{n}^{i=1}[Y_{i}-(a+bX_i)]^{2}$
$\begin{matrix}
(X_i, Y_i) & i=1,...,n \\
\end{matrix}$
$\Rightarrow a=\overline{Y}-b\overline{X}$
$b=r \cdot \frac{SD_Y}{SD_X}$
예) 빅맥지수
(환율) = -57.31 + 1.81 (빅맥지수)
- 빅맥지수와 환율의 수준이 같지 않다.
- Absolute PPP 성립한다고 보기 어렵다.
ln(환율) = 0.29 + 1.01 x ln(빅맥지수)
- 빅맥지수가 1% 변화할 때 환율도 대체로 1% 남짓 (1.01%) 변화하는 것으로 판단됨
- Relative PPP가 성립하지 않는다고 볼 통계적 근거가 없음
자산가격결정모형(CAPM)
- CAPM : 수익률에 대한 단일요인 모형 (Single factor model of return)
- 시계열 회귀분석 방정식
$$ r_{it} = \alpha_i + \beta_ir_{mt}+\epsilon_{it} $$
$i$ = individual asset (특정 자산)
$t$ = time period (시기)
$m$ = market (시장)
$r$ = 수익률
$ r_{mt} $ = 시장 수익률
$\epsilon_{it}$ = 기타 외부 요인
- Fama & French (1992) : '기업규모' 및 '장부가치/시장가치 비율' 등 두 요인을 추가하여 수익률의 종목간 변동을 추가로 설명
예) CAPM $\beta$의 추정
- 종목별로 월별 주가수익률 데이터를 이용하여 개별주식의 수익률을 시장포트폴리오(KOSPI)의 수익률에 대해 회귀분석한 결과
- 데이터 : 월별 주가 자료 (1992.2 - 2001.12)
기업명 | $beta$ | t-value |
Samsung Electronics | 1.24 | 6.39 |
SK Telecom | 0.95 | 3.71 |
KT | 1.09 | 5.97 |
KEPCO | 0.71 | 4.79 |
POSCO | 1.00 | 8.12 |
수치의 의미를 보면,
1보다 크다 = 시장 수익률이 한 단위 움직였을 때, 개별적인 주가는 더 많이 움직인다. ex. 삼성전자
1보다 낮다 = 시장 수익률보다 덜 움직인다. ex. KEPCO
직사각형의 둘레길이와 널이의 산포도 (회귀직선이 모두 통하는 것은 아님! 직선의 관계!)
- 넓이와 둘레길이간 상관계수 = 0.98 : 이는 넓이와 높이라는 제3의 요인들 영향
- 넓이와 둘레길이간 관계는 선형 관계가 아니라 비선형 관계임
중회귀 분석
- 둘 이상의 설명 변수(x)로 독립 변수(y)를 설명하는 회귀분석
- 종종 제 3의 변수가 두 변수 x와 y 각각에 영향을 미쳐, 관심의 대상인 두 변수 상호간의 순수한 관계를 왜곡시키게 됨. 제3의 변수를 통제할 필요성 대두
- 1) 실험 (experiment) - 현실에서는 불가능 그래서 관측된 관계를 이용!
- 2) 통계적 통제 1 : 자료를 제 3의 변수값에 따라 분류, 집단 별로 따로따로 분석
- 3) 통계적 통제 2 : 중회귀분석
예) 남녀 노동자간 임금격차
- 남녀 간에 임금격차가 존재하는지 보기 위하여 다음의 단순회귀분석 모형을 추정하려고 한다.
(임금) = a + b(남성 더미변수) + (오차)
- 여기서 남성 더미변수는 남성에게 1을, 여성에게는 0의 값을 부여하는 질적변수이다.
- 일반적으로 더미변수는 하나의 질적인 설명변수가 종속변수에 미치는 영향을 파악하고자할 때 이용한다.
- 남녀 간의 임금격차는 남녀간 교육수준의 차이 등이 통제되지 않는 한 성차별의 증거로 보기 어렵다.
- 교육수준을 설명변수로 추가, 단순회귀분석 모형을 중회귀분석 모형으로 확장하는 것이 필요!
(임금) = a + b(남성 더미변수) + c(교육연수) + (오차)
예) 기술진보 반영한 물가지수 작성법
예) 컴퓨터 기술진보를 감안한 상태에서 지난 10년간의 컴퓨터 가격지수 작성
- 지난 10년간 판매된 데스크탑 컴퓨터에 대해 CPU, 메모리 등 각종 스펙(x), 판매연도 (첫 해를 기준으로 $d_2, ..., d_{10}$ 등 총 9개의 연도더미변수들), 판매가격(y) 정보수집
- log(y)를 상수항 $x, d_2, ... ,d_{10}$에 중회귀분석하여 $d_2, ... ,d_{10}$의 계수 추정치인 $b_2, .. ,b_{10}$ 얻음
- 첫 해의 가격지수를 100으로 두면, 둘째 연도, ... , 10번째 연도의 가격지수는 각각 $100*exp(b_2), ... 100*exp(b_{10})$ 등으로 추정됨.
\[
\ln P_{it} = \alpha + {X_{it}}' \beta + \gamma_1 D_{1t} + \cdots + \gamma_{10} D_{10t} + \varepsilon_{it}
\]
\[
\text{where} \quad D_{jt} =
\begin{cases}
1 & \text{if } t = j \\
0 & \text{otherwise}
\end{cases}, \quad j = 1, \dots, 10
\]
\[
D_1, \dots, D_{10} : \text{ time dummies}
\]
- ${X_{it}}'\beta$ : 여러 개의 스펙이 다 들어가 있는 것 (CPU, 화면 크기 등)
- $P_{it}$ : t년도에 판 i 라는 컴퓨터의 가격
- $\gamma_1D_{it}$ : 각 더미변수 (11년동안의 데이터이고 기준년도 빼고 10개)
컴퓨터 스펙이 컴퓨터 가격에 미치는 영향을 통제한 상태에서, 기준 년도 대비 $\gamma_1$ 퍼센트(p항 로그취해졌기 때문) 만큼 달랐다.를 의미하는 수식
통계적인 통제를 하지 않는다면, 예나 지금이나 좋은 컴퓨터는 약 150~200 정도 비슷하게 한다. 즉, 시대에 흐름을 타지 않는다는 해석이 나올 수 있기에 주의해야한다!
같은 컴퓨터가 년도별로 가격이 어떻게 변했나 = 물가지수의 의미!
$lnP_{ij}-lnP_{i0} = \gamma_j$
$\Rightarrow P_{ij} = P_{i0}e^{r_j}$
$j = 1,2, \cdots, 10$
원년도를 100으로 본다고 하면 j 년도의 물가지수 = $100e^{r_j}$
같은 컴퓨터는 시간이 지날수록 가격이 하랄할테니, $\gamma_1$ 은 음수, $\gamma_2$는 더 작은 음수, .. 점점 줄어드는 그래프가 나올 것 (우하향)
이러한 변수 통제를 하지 않으면 심슨의 역설(simpson's paradox)가 발생하게 된다
총 변동의 분해
\[
y_i - \bar{y} = \left[ (a + bx_i) - \bar{y} \right] + \left[ y_i - (a + bx_i) \right]
\]
\[
T = Regression (설명이 되는 부분) + Error (설명되지 않는 부분)
\]
각 항을 제곱하면 아래와 같다!
$\sum(y_i-\overline{y})^2 = \sum [(a+bx_i)-\overline{y}]^2+\sum [y_i-(a+bx_i)]^2$
SST = SSR + SSE
SST [총제곱합 (total sum of squares)] : y의 평균 주위로의 총변동
SSR [회귀제곱합 (regression sum of squares)] : 회귀직선에 의해 설명되는 변동분
SSE [잔차제곱합 (residual sum of squares) 또는 오차제곱합 (error sum of squares)] : 회귀직선에 의해 설명되지 않는 변동분
결정계수 ($R^2$)
결정계수 = 총변동에서 차지하는 설명되는 변동분의 비율
$R^2 = \frac{SSR}{SST} = 1-\frac{SSE}{SST}$
$(0\leq R^2\leq1)$
- 결정계수의 값이 1에 가까울수록 회귀직선의 설명력은 높다
- 단순회귀분석의 경우 결정계수인 $R^2$ 값은 두 변수간 상관관계인 r의 제곱과 같게된다. (단순회귀분석의 경우에는 $R^2$ = r 제곱)
조정된 결정계수 (adjusted $R^2$)
- 설명계수를 추가하면 추가할수록 $R^2$는 언제나 증가함
- $R^2=1-SSE/SST$인데 $SST$는 고정된 반면 $SSE$ 는 설명변수 추가될수록 감소
- 이 문제를 해결하기 위해 아래의 "조정된 결정계수"를 정의함
$\overline{R}^2=1-\frac{SSE/(n-k-1)}{SST/(n-1)}$
(n= 표본크기, k=설명변수의 개수)
- $SSE$와 $SST$가 각각의 자유도로 나누어진 형태로 등장
- $SST$의 자유도=(n-1): 표준편차 구할 때의 자유도와 동일
- $SSE$의 자유도=(n-k-1): n개 자료 이용 총 (k+1)개의 계수 추정한 결과
- 조정된 결정계수는 설명변수가 추가된다고 해서 반드시 늘지는 않음
출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / 제12강 회귀직선
출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / 제13강 중회귀분석의 응용
'통계학' 카테고리의 다른 글
06. 회귀직선의 오차 RMSE (0) | 2025.03.14 |
---|---|
05. 회귀분석 (0) | 2025.03.14 |
04. 상관관계와 회귀직선 (0) | 2025.03.12 |
03. 정규분포로의 근사 (백분위수, 사분위수) (0) | 2025.03.10 |