06. 회귀직선의 오차 RMSE
·
통계학
RMSE (Root Mean Square Error)잔차(residual) 제곱의 합을 표본크기 - 2로 나누어 제곱근을 씌운 값 회귀직선의 RMSE와 y의 표준편차일반적으로 회귀직선의 RMSE는 y의 표준편차보다 작다. 이는 수평선보다 회귀직선이 산포도상의 점들에 보다 가까이 위치하기 때문이다.수평선 = y의 SD만을 구한다면 이는 y값만 사용하는 것이기에 수평선과 동일. y축에 평행이동시켜서 수치를 잰 것과 동일 $RMSE\approx \sqrt{1-r^2}*SD_y$ 상관계수자체가 0인 경우, 1인 경우 = 모든 잔차가 0이기에 RMSE를 적용해도 0임r 값이 크면 클수록 설명이 많이 되기 때문에, 설명이 안되는 것을 의미하는 RMSE는 줄어든다!  점을 regression function으로 일반..
05. 회귀분석
·
통계학
가장 간단한 관계가 직선이다그렇게 상관계수와 상관관계를 배웠다직선의 관계에 방향(기울기 양수,음수)이 있고, 강도(절대값 1에 가까울수록)가 있다 상관관계와 관련된 회귀직선을 공부하자!regression line, regression equation 회귀분석회귀분석(regression analysis)는 집단별 평균을 분석하는 통계적 방법집단을 구분하는 분류지표가 한 개인지, 둘 또는 그 이상인지에따라 단순회귀분석과 중회귀분석으로 나누어짐상관계수 = 0.67 : 키가 평균보다 $1SD_y$ 만큼 큰 사람들은 몸무게가 평균보다 대략 0.67$SD_y$ 만큼 더 나감표준편차선 : 두 변수(여기서는 키와 몸무게)의 표준화된 변수 값이 같은 점들을 이은 직선그렇다면 왜 회귀직선은 표준편차선보다 더 완만한가? 그..
04. 상관관계와 회귀직선
·
통계학
결합분포 (joint distrbution)이제까지는 한 번에 하나의 변수만을 다루는 방법에 대해 살펴보았다이제부터는 두 변수 사이의 상호관계를 분석하기 위한 방법을 살펴본다남녀간의 관계처럼 많은 경우 둘 간의 관계가 중요하다예: 교육과 임금예: 통화증가율과 물가상승률예: 학급 규모와 학생 성적결합분포 : 두 변수 간의 관계 전모를 보여줌 산포도 (scatter plot)두 변수 사이의 관계를 살펴보기 위해 산포도를 이용한다.설명변수는 x로 표기하고 가로축에 표시피설명변수는 y로 표기하고 세로축에 표시 산포도의 요약가로로 보면 대략 95%의 점들이 x 평균점을 기준으로 $ \pm 2SD_{x}$ 이내에 위치함세로로 보면 대략 95%의 점들이 y 평균점을 기준으로 $ \pm 2SD_{y}$ 이내에 위치함x..
03. 정규분포로의 근사 (백분위수, 사분위수)
·
통계학
단위 변환상수를 더하거나 곱하는 변환예: 섭씨 온도(y) = 5/9(화씨온도(x)-32). 즉 y=160/9+(5/9)x표준화(standardization): 평균을 빼주고 표준편차로 나누어 주는 변환확률변수가 $X \sim N(\mu ,\sigma ^{2})$ (= normal distribution)일 때$Z=\frac{X-\mu }{\sigma } \sim N(0,1) $ = 표준정규분포 알 수 있는 사실 분포의 전반적인 모습은 단위 변환을 통해 바뀌지 않는다.평균을 뺏기 때문에, 새로운 평균은 0이 된다.표준 편차로 나눴기 때문에 새로운 편차는 1이 될 수밖에 없다. 수능 표준 점수 예시사회탐구 과목당 50점 (2과목)과학탐구 과목당 50점 (2과목)언어 100점수리 100점외국어 100점사회탐..
02. 표준편차와 자유도
·
통계학
제곱근-평균-제곱 (Root Mean Square)계산은 표현의 역순 (제곱 후 평균, 최종적으로 제곱근)제곱(S) : 모든 수를 제곱하여 부호를 없앤다.평균(M) : 제곱된 값들의 평균을 구한다.제곱근(R) : 제곱-평균된 값에 제곱근을 취한다$RMS = \sqrt{숫자들의 제곱의  평균}$ 표준편차 : $S_{y}$ / $SD_{y}$표준편차의 계산표준편차(SD)는 "평균으로부터의 편차들"의 RMS와 "대략" 비슷표본 분산 및 표본 표준편차는 아래와 같다.$S = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}$-1과 관련된 개념이 자유도(degrees of freedom : 주어진 조건 하에서 자유롭게 변화할 수 있는 개수) 자유도의 정의자유..
01. 평균과 중앙값
·
통계학
중심과 퍼진 정도- 히스토그램에서 자료를 요약할 때 중심(평균, 중앙값)과 중심 주위로 퍼진 정도(표준편차, 사분위수 범위)를 주로 사용  평균평균(mean)은 관측치의 총합을 관측치의 개수로 나누어 구한다.x1, x2, .. xn 등 n 개의 관측치가 주어져 있을 때 표본의 평균은  (평균 수식)평균이 중요하지만 전부는 아님. 아래 세 그림은 평균이 같지만 퍼진 정도가 다름 중앙값 (median)절반 이상의 숫자들이 이 값보다 크거나 같고 동시에 절반 이상의 숫자들이 이 값보다 작거나 같은 수하스토그램은 중앙값에서 그 면적이 양분됨중앙값 n이 홀수이면 (n+1)/2 번째로 크거나 작은 숫자임중앙값은 n이 짝수이면 n/2 번째 숫자와 (n+1)/2 번째 숫자의 평균으로 정의median voter theo..