자료와 중심위치
통계학
기술 통계학: 도표나 그림을 통하여 자료를 요약하여 대표값이나 변동의 크기 등을 구하는 방법
추측 통계학: 모집단에서 뽑은 표본을 분석하여 이의 결과를 가지고 모집단의 특성을 밝히고 규명하는 방법
모집단
통계적 특성을 알기 위해 목적에 맞는 모든 자료를 수집했을 때, 전체 자료들의 집합
표본
모집단의 일부로 구성된 자료들의 집합
모평균
N개로 구성된 모집단의 각 자료값 x1,x2,…,Xn에 대한 평균 (1/N Sigma(i=1->n) xi))
표본 평균
n개로 구성된 표본의 각 자료값 x1,x2,…,xn에 대한 평균 (1/n sigma(i=1->n)xi))
극단값(outlier)
대부분의 자료값으로부터 멀리 떨어진 위치에 놓인 자료값 (기록 오류, 관찰 부족에 의해 생성)
가중 평균
서로 다른 값 x1,x2,…xk의 도수가 각각 f1,f2,…,fk이고 전체 관측 도수가 n일 때의 평균
(1/n*(x1*f1+x2*f2+…+xk*fk)
도수
각 범주에 대해 관찰된 자료 수
절사 평균
자료 집단 안에 극단값이 포함된 경우에 가장 큰 자료와 가장 작은 자료를 제거한 나머지 자료의 평균
중위수(me= x(n+1/2),n이 홀수, me=x(n/2)+x((2/n)+1),n이 짝수
자료를 작은 수부터 크기 순서로 나열하여 가장 가운데 놓이는 자료값
(극단값에 전혀 영향을 받지 않는다/ 긴꼬리 모양을 갖는 분포를 갖는 경우 평균보다 좋은 중심 위치를 갖는다)
최빈값
두 번 이상 발생하는 자료값 중에서 가장 많은 도수를 가지는 자료값 (극단값에 전혀 영향을 받지 않는다. 자료의 수가 많은 경우 부적절하다)
대칭형: 평균 = 중위수 = 최빈값, 양의 비대칭형: 최빈값<중위수<평균, 음의 비대칭형: 평균<중위수<최빈값
산포도
산포도
자료의 흩어지거나 밀집되는 정도를 나타내는 척도 (범위,사분위수 범위,평균편차,분산,표준편차)
범위
최대 자료값과 최소 자료값의 차이
평균편차
자료값 xi와 평균 ㅡx의 편차의 절대값들의 평균 (1/n sigma(i=1->n) |xi-ㅡx|)
분산(평균 편차에서 절댓값을 사용한다는 불편함을 극복)
모분산
모집단을 구성한 자료값 x1,x2…,xN과 모평균과의 편차의 제곱에 대한 평균 (1/N sigma(i=1->n) (xi-모평균)^2)
표본 분산
표본을 구성한 자료값 x1,x2,…,xn과 표본평균과의 편차에 제곱에 대한 평균 (1/n-1 sigma(i=1->n) (xi-표본평균)^2)
표준편차(분산으로 구한 단위에는 항상 자료값의 단위의 제곱이 되서 해석하기 곤란함, 이를 극복)
모표준편차, 표본의 표준편차
모분산의 양의 제곱근, 표본분산의 양의 제곱근
변동계수(측정단위가 서로 다른 것들의 산포를 비교하거나 측정단위가 동일하더라고 평균의 차이가 극심한 경우에 쓰는 산포도) – 표준편차/평균 x 100
z-점수
평균을 중심으로 각 자료값을 상대적인 위치로 변환한 척도 (x-평균/표준편차)
백분위수
1%씩 등간격으로 구분하는 척도
사분위수
25%씩 등간격으로 구분하는 척도
사분위수의 범위(I.Q.R) = Q3-Q1
중심부분에 있는 50%자료의 하한 Q1, 상한 Q3일 때, 이러한 중심 범위 (극단값 영향 안 받는다)
상자그림
사분위 수를 이용하여 자료에 포함된 극단값을 알려주는 그림
안울타리: 사분위수Q1과 Q3에서 각각 1.5*IQR만큼 떨어져 있는 값
바깥울타리: 사분위수Q1과 Q3에서 각각 3*IQR만큼 떨어져 있는 값
보통 극단값: 바깥울타리와 안울타리 사이에 놓인 수치
극단값: 바깥울타리 밖에 놓인 수치
공분산
회귀 직선을 중심으로 자료점(x,y)가 흩어지거나 밀집되는 정도를 나타내는 척도
모공분산(σxy)
모집단에서 반응변수의 평균편차와 응답변수의 평균편차의 곱에 대한 평균 (1/N sigma(i=1->N) (xi-x모평균) (yi-y모평균))
표본공분산(Sxy)
표본에서 반응변수의 평균편차와 응답변수의 평균편차의 곱을 모두 더하여 n-1로 나눈 값(1/n-1 sigma(i=1->n) (xi-x표본평균) (yi-y표본평균))
Sxy>0: 양의 상관관계(반응변수가 높으면 응답변수도 높다)
상관계수(-1과 1사이)
(공분산은 측정단위에 의존한다는 단점이 있다. 몸무게의 단위가 kg,oz등일 때 xi-(x평균)은 단위에 따라 차이를 보인다. 이러한 단위에 무관한 상관관계를 나타내는 척도가 상관계수이다)
모상관계수(pxy)- σxy/ σx x σy, 표본 상관계수(rxy)- Sxy/ Sx x Sy
확률과 랜덤변수
Kolmogorov가 제시한 공리론적 확률
P(s)=1, A가 S에 속하면 P(A)>=0, A와 B가 배반 -> P(A합B)=P(A)+P(B)
(응용) A가 B에 속하면 P(B-A)=P(B)-P(A)
독립사건
어떤 사건A의 발생여부가 다른 사건B의 발생에 아무런 영향을 미치지 않을 때, A와 B는 독립
- P(A교B)=P(A)P(B), p(B|A)=P(B)
조건부확률: 어떤 사건 A가 주어졌다는 조건 아래서 사건B가 나타날 확률
전확률공식
Ai와 Aj는 배반사건 -> P(a합b)=p(a)+p(b) / 응용: P(a합b|e)=p(a|e)+p(b|e)
P(B)=P(A1) x p(B|A1)+ P(A2) x p(B|A2) + P(A3) x p(B|A3) +… + P(Ak) x p(B|Ak)
베이즈정리
사건B가 발생했을 때, 이 사건이 사전에 주어진 사건Ai에 의해 나왔을 조건부 확률
P(Ai|B)=P(B|Ai) x p(Ai) / p(B)
확률변수
확률 실험에서 나타날 수 있는 개개의 실험결과에 실수를 대응시키는 함수 X
상태공간 Sx
확률변수 X가 취할 수 있는 모든 가능한 숫자들의 집합
이상확률변수
상태공간이 유한집합이거나 셈을 할 수 있는 무한집합인 확률변수
확률함수
상태공간 Sx에 있는 x에 대해 확률변수X가 취하는 확률의 함수 ( 0<=p(x)<=1, Sigma(모든x)p(x)=1)
확률질량함수
상태공간 Sx안에 있는 각각의 x에 대해 f(x)=p(x)이고, Sx안에 없는 모든 x에 대해 f(x)=0으로 정의한 함수 [ p(x>a)=1-p(x<=a) , p(x>=a)=1-p(x<=(a-1)) ]
이산확률-분포함수
F(x)=sigma(u<=x)f(u) [ p(a<x<=b)=F(b)-F(a), p(a<=x<=b)=F(b)-F(a)+p(x=a), p(x>=a)=1-F(a)+p(x=a) ]
연속확률변수
확률변수 X의 상태공간이 유한구간[a,b]또는 무한구간인 확률변수
확률밀도함수
연속확률변수 X에 의해 다음 성질을 만족하는 함수 ( 0<=f(x)<=1, 적분(-무~무) f(x)=1)
p(a<=x<=b)=적분(a~b)f(x)dx [ p(x=a)=0, p(a<=x<=b)=p(a<x<b) ]
연속확률-분포함수
F(x)=적분(-무~x)f(u)du [ p(x>=a)=1-F(a), p(a<=x<=b)=F(b)-F(a) ]
기댓값
확률분포의 중심위치를 나타내는 평균
E(X)=Sigma(모든x)xf(x), E(x)=적분(-무~무)xf(x)
E(a)=a
E(ax)=aE(x)
E(ax+b)= aE(x)+b
E(g(x)+h(x))= E(g(x))+E(h(x))
분산
σ2=var(x)=E[(x-모평균)^2]
= E(x^2)-E(X)^2
Var(a)=0
Var(ax)=a2var(x)
Var(ax+b)= a2var(x)
X의 표준화 확률변수: Z=X-모평균/모표준편차, E(Z)=0, Var(z)=1
왜도: 비대칭 분포에 대한 비대칭 정도를 나타내는 척도(s>0 양의 비대칭, s=0 대칭, s<0 음의 비대칭)
첨도: 분포 곡선의 봉우리 부분이 뾰족한 정도를 나타내는 척도 (k>3 뾰족, k<3 납작)
공분산과 상관계수
Cov(x,y)=E[(x-x모평균)(y-y모평균)] -> var(x+-y)=var(x)+var(y)+-2cov(x,y), cov(x,y)=0이면 앞에 것만
P=Corr(x,y)=cov(x,y)/ σx σy
채비쇼프 부등식 (확률 변수 X의 평균과 분산을 이용해서 구간 안에 놓인 확률의 하한을 알 수 있다)
-> p(|x-평균|<=k*표준편차)>=1-(1/k2)