이산확률분포: 이산 확률 변수에 관한 분포
이산균등분포: 주사위 사건과 같이 균등한 결과를 내는 사건의 확률질량함수가 갖는 분포
f(x)=1/n, x=1,2,…,n | 평균: n+1/2, 분산: n2-1/12 | X~DU(n), n:모수(확률변수 x의 분포를 결정)
베루누이분포: 실험결과가 0또는1이 나오는 사건을 베르누이 사건이라고 할 때, 이 사건에 관한 분포
f(x)=1-p(x=0), p(x=1), 0(다른 곳에서) | 평균:p, 분산:pq | X~B(1,p)
이항분포: 복원추출해서 베르누이 실험을 n번 시행할 때 x번 성공할 확률에 관한 분포
f(x)=(n x)px(1-p)n-x, x=0,1,2,…,n, 0(다른 곳에서) | 평균:np, 분산:npq | X~B(n,p)
초기하분포: N개중 n개를 고르는데, m중 x개를 고를 확률에 관한 분포
f(x)=(m x) (N-M n-x)/(N n), max(0,n+M-N) <= X <= min(n,M) |
평균: n*M/N, 분산:n*M/N*(1-(M/N))*(N-n/N-1) | X~H(N,M,n)
기하분포: 베르누이 시행이 처음 성공할 때까지 시행 횟수에 관한 분포
f(x)=(1-p)x-1p = pqx-1, x=1,2,3,… | 평균:1/p, 분산:q/p2 | X~G(p)
기하분포의 비기억성: x>n인 조건 아래에서 x>m+n인 조건부확률은 x>m일 확률과 같다.
[ p(x>n+m | x>n) = p(x>m) ]
음이항분포: 베르누이 시행이 r번 성공할 때까지 시행 횟수에 관한 분포
f(x) = (x-1 r-1) prqx-r, x=r,r+1,… | 평균:r/p, 분산:rq/p2 | X~NB(r,p)
푸아송분포: 단위 시간또는 지정된 영역 안에서 특정한 사건이 발생한 횟수에 관한 분포
f(x) = mx/x! * e-m, x=0,1,2,.. | 평균:m, 분산:m | X~P(m), m=단위 시간 당 사건 발생 기댓값(평균)
연속확률분포: 연속 확률 변수에 관한 분포
균등분포: 실수 a,b에 대해 확률 밀도 함수가 다음과 같은 분포
f(x)=1/b-a (a<=x<=b), 0 (다른 곳에서) | 평균:a+b/2, 분산:(b-a)2/12 | X~U(a,b)
X~U(a,b)에 대한 분포 함수: F(x)= 0 (x<a), x-a/b-a (a<=x<=b), 1 (x>=b)
지수분포: 푸아송 사건이 처음 발생할 때까지 걸린 시간의 분포 (대기 시간에 관한 분포)
f(x) = λe-λx, x>0 λ:단위 시간 당 사건 발생 기댓값 | 평균:1/λ, 분산:1/λ2 | Exp(λ)
Exp(λ)에 대한 분포 함수: F(x)=0 (x<0), 1-e-λx (x>=0)
무기억성: (적어도 a시간 이상이 지나야 사건이 발생할 때, a+b시간 이상이 지나야 사건이 발생할 확률)은 (처음부터 적어도 b시간 이상 지나야 사건이 발생할 확률)과 동일함
[ p(x>=a+b | x>=a) = p(x>=b) ]
감마분포: 푸아송 사건이 n번 발생할 때까지 걸린 시간의 분포
f(x) = [1/{(n-1)!Bn}]*xn-1*e-x/B , x>0 | 평균: AB, 분산: AB2 | Γ(n,1/λ) =Γ(A,B), λ는 평균 사건 횟수
정규분포: 통계적 추론에서 매우 중요하게 취급되는 연속 확률 분포
정의: 임의의 실수 m과 양의 실수 s에 대해 다음 확률 밀도 함수를 가지는 확률 분포이며, X~N(m,s2)으로 나타낸다.
f(x) = { 1/ √(2π)*s }*e-(x-m)^2 / 2s^2 , -∞<x<∞ | 평균:m, 분산:s2
표준 정규 분포: 평균이 0이고 분산이 1인 정규 분포
z~N(0,1), Φ(z) = { 1/ √(2π) }*e-z^2/2, -∞<z<∞
정규분포의 일차 결합
X+Y ~ N(m1+m2, σ12+σ22), X-Y ~ N(m1-m2, σ12+σ22)
E(ax+by)= am1+bm2 , Var(ax+by)= a2σ12+b2σ22 -> ax+by=U, U~N(E(ax+by), Var(ax+by))
표본 평균 (¯x)는 정규 분포를 따른다: ¯x~N(μ,σ2/n)
이유: Xi~N(μi,σ12), i=1,2,…,n에 대해 Y= a1x1 +…+anxn이라 하면 확률 변수 Y도 정규 분포를 따른다.
ai=1/n, i=1,2,…,n일 때 Y는 1/n(x1+…+xn)이므로 표본평균(¯x)와 같다. 따라서 표본 평균은 정규분포를 따른다.
중심 극한 정리: x라는 확률 변수가 어떤 분포를 가지고 있는지 모르는 상태에서 표본을 n개 뽑았을 때, x가 어떤 분포 모양인지 상관없이 표본 평균은 정규 분포에 근사한다. ¯x~N(μ,σ2/n)
연속성 수정 정규근사: 이항분포의 정규근사를 구할 때, 그냥 정규근사를 한 것에 비해 (연속성 수정+정규 근사)를 한 것이 원래 이항 분포 확률과 비슷하다.
정규 분포와 다르지만 많이 쓰이는 분포
카이제곱 분포: 모수가 a=r/2, b=2인 감마분포로 자유도가 r이며, X~𝒳2(r)로 나타낸다.
평균:r,분산:2r | 표준 정규 확률 변수 Z에 대해 Z2~ 𝒳2(1)이다. | V= Z12+…+ Zn2 ~ 𝒳2(n)을 만족한다.
T-분포: Z~N(0,1)에 대해 자유도가 r인 카이제곱 확률 변수 V~𝒳2(n)에 대해 z가 v와 독립일 때, 확률 변수 T를 다음과 같이 정의한다.
T= Z/ √(v/r) | 평균:0,분산:r/r-2(r>2) | 자유도 r이 증가하면 t-분포는 표준 정규 분포에 근접한다.
F-분포: 독립인 카이제곱 분포 U~𝒳2(m)과 U~𝒳2(n)에 대해 확률 변수 F를 [ F=(U/m) / (U/n)]이라고 정의할 때, 확률 변수 F의 확률 분포를 분자와 분모의 자유도가 각각 m과 n인 F-분포라고 한다.
표본 분포: 표본 평균의 분포, 표본 분산의 분포 등을 의미
<표본 평균의 분포 개념>
표본을 잘 뽑아서 모집단을 대표할 수 있다면 표본만으로 모집단 추정이 가능하다는 의미이다.
그러나 어떻게 표본을 뽑느냐에 따라 모집단을 대표하지 못 할 수도 있다. 이 때 ‘표본 평균을 계산했을 때, 표본 평균도 분포를 이루지 않을까’ 라는 아이디어가 나왔다. 그렇게 해서 구한 표본 평균의 분포는 정규분포를 따랐고 n이 커질수록 모평균에 집중하는 형태를 만족했다. 즉 표본 평균으로 모평균을 추론할 수 있게 된 것이다. (모집단의 모수 추론이 가능해짐)
모집단이 알려진 정규 모집단인 경우: ¯x~N(μ,σ2/n), Z~(¯x-μ)/(σ/√n)
모집단이 알려지지 않은 정규 모집단인 경우: 모표준편차(σ)를 표본 표준편차(s)로 바꾸면 다음과 같이 자유도가 n-1인 t-분포를 따른다. [ T=¯x-μ/(s/√n) ~ t(n-1) ]
표본 분산의 분포: 표본 분산 자체는 분포를 따르지 않지만 표본 분산을 변형하면 카이제곱 분포를 따른다.
V= (n-1)s2/σ2 ~ 𝒳2(n-1), 자유도가 n-1인 카이제곱 분포
이변량 표본 분포: 두 모집단에 대한 모평균의 차를 추론하기 위한 표본 평균의 차에 대한 분포를 살펴봄
[두 표본평균 차의 분포]
정규 모집단 N(μ1,σ12)과 N(μ2,σ22)에서 각각 크기가 n과 m인 표본을 임의로 선정하여 표본 평균을 ¯x, ¯y라고 하자. 이 때 ¯x-¯y는 다음의 정규 분포를 따른다.
¯x-¯y ~ N(μ1-μ2, σ12/n+σ22/m), Z= (¯x-¯y)-(μ1-μ2) / √(σ12/n+σ22/m) ~ N(0,1)
두 모분산이 같지만 알려지지 않은 정규 모집단인 경우
1) 합동 표본 분산 식을 이용한다.
Sp2=1/n+m-2 * [(n-1)S12 + (m-1)S22]
2) 모분산이 같으니 ¯x-¯y의 표준화 확률변수 z는 다음과 같다.
Z= (¯x-¯y)-(μ1-μ2) / √(1/n+1/m)*σ ~ N(0,1)
3) 모표준편차를 합동 표본 표준편차로 교체하면 ¯x-¯y는 t-분포를 따른다.
T= (¯x-¯y)-(μ1-μ2) / √(1/n+1/m)*Sp ~ t(n+m-2)
두 모분산이 다르고 알려지지 않은 정규 모집단인 경우
표본 평균의 차 ¯x-¯y에 대해 통계량 U를 다음과 같이 정의한다.
U= (¯x-¯y)-(μ1-μ2) / √(S12/n+S22/m)
통계량 U는 다음과 같이 정의되는 자유도 r인 t-분포에 근사한다.
r=[ S12/ S22/m]2 / {(S12/n)2/n-1} + {(S22/m)2/m-1}
[합동 표본 분산의 분포]
합동 표본 분산 Sp2은 다음과 같이 자유도가 n+m-2인 카이제곱 분포를 따른다.
V=n+m-2/σ2 * Sp2 ~ 𝒳2(n+m-2)
추정
점 추정
추정: 표본으로부터 얻은 추정량을 이용해서 모수를 추론하는 과정
점 추정: 모수 θ의 참값에 대해 최선의 추정 값을 구하는 과정
점 추정량(^θ): 모수 θ의 참값인 수치를 추정하기 위해 표본에 기초하여 얻은 통계량
불편추정량: 모수 θ에 대한 점 추정량^θ의 기댓값이 모수θ와 일치하는 추정량
E(^θ)=θ <-> 일치하지 않으면 편의 추정량이라고 한다.
유료추정량: 모수 θ에 대한 점 추정량^θ의 분산이 가장 작은 추정량 (표본 크기와 유효성 비례)
Var(^θ) = min{var(^θ1),var(^θ2),…,var(^θk)}
일치성: 표본의 크기를 크게 하면 모수에 수렴한다는 성질, 표본의 크기가 커질수록 추정량의 분산은 작아지고 (유효성은 커지고) 결국 추정량은 모수치에 일치하게 된다.
<표본 분산 s2을 구할 때 (n-1)로 나누는 이유>
표본 분산 s2을 (xi-¯x)2의 평균으로 정의하면 s2은 σ2의 불편추정량이 아니다. (xi-¯x)2을 (n-1)로 나눈 값으로 정의하면 σ2의 불편추정량이 되므로 s2으로 σ2을 추정 가능하다.
구간 추정: 아무리 좋은 추정량을 선택하더라도 모수의 참값을 정확하게 추정하기 쉽지 않으므로 나온 방법
신뢰 구간(모수 θ의 참값이 포함될 것이라 믿어지는 구간)을 측정하는 방법
신뢰 구간: ^θ1 < θ < ^θ2, ^θ1= θ-e, ^θ2= θ+e | e=오차한계 | 신뢰구간은 점 추정량을 기준으로 동일한 값(e)만큼 떨어진 구간으로 결정하는 것이 바람직하다.
신뢰도: 모수의 참값이 신뢰구간에 포함될 것이라고 믿어지는 확신의 정도
<신뢰도 90%의 의미>
동일한 크기의 표본 10개를 임의 추출했을 때, 이 표본으로부터 얻는 신뢰구간들 중에서 90%에 해당하는 9개의 신뢰구간이 모수의 참값을 포함하고 10%에 해당하는 1개의 신뢰 구간은 모수의 참값을 포함하지 않는다.