통계학 - 심화 용어 모음

이산확률분포: 이산 확률 변수에 관한 분포

이산균등분포: 주사위 사건과 같이 균등한 결과를 내는 사건의 확률질량함수가 갖는 분포
f(x)=1/n, x=1,2,…,n | 평균: n+1/2, 분산: n²-1/12 | X~DU(n), n:모수(확률변수 x의 분포를 결정)

베루누이분포: 실험결과가 0또는1이 나오는 사건을 베르누이 사건이라고 할 때, 이 사건에 관한 분포
f(x)=1-p(x=0), p(x=1), 0(다른 곳에서) | 평균:p, 분산:pq | X~B(1,p)

이항분포: 복원추출해서 베르누이 실험을 n번 시행할 때 x번 성공할 확률에 관한 분포
f(x)=(n x)p^x(1-p)^n-x, x=0,1,2,…,n, 0(다른 곳에서) | 평균:np, 분산:npq | X~B(n,p)

초기하분포: N개중 n개를 고르는데, m중 x개를 고를 확률에 관한 분포
f(x)=(m x) (N-M n-x)/(N n), max(0,n+M-N) <= X <= min(n,M) |
평균: n*M/N, 분산:n*M/N*(1-(M/N))*(N-n/N-1) | X~H(N,M,n)

기하분포: 베르누이 시행이 처음 성공할 때까지 시행 횟수에 관한 분포
f(x)=(1-p)^x-1p = pq^x-1, x=1,2,3,… | 평균:1/p, 분산:q/p²| X~G(p)

기하분포의 비기억성: x>n인 조건 아래에서 x>m+n인 조건부확률은 x>m일 확률과 같다.
[ p(x>n+m | x>n) = p(x>m) ]

음이항분포: 베르누이 시행이 r번 성공할 때까지 시행 횟수에 관한 분포
f(x) = (x-1 r-1) p^rq^x-r, x=r,r+1,… | 평균:r/p, 분산:rq/p² | X~NB(r,p)

푸아송분포: 단위 시간또는 지정된 영역 안에서 특정한 사건이 발생한 횟수에 관한 분포
f(x) = m^x/x! * e^-m, x=0,1,2,.. | 평균:m, 분산:m | X~P(m), m=단위 시간 당 사건 발생 기댓값(평균)

연속확률분포: 연속 확률 변수에 관한 분포

균등분포: 실수 a,b에 대해 확률 밀도 함수가 다음과 같은 분포
f(x)=1/b-a (a<=x<=b), 0 (다른 곳에서) | 평균:a+b/2, 분산:(b-a)²/12 | X~U(a,b)
X~U(a,b)에 대한 분포 함수: F(x)= 0 (x<a), x-a/b-a (a<=x<=b), 1 (x>=b)

지수분포: 푸아송 사건이 처음 발생할 때까지 걸린 시간의 분포 (대기 시간에 관한 분포)
f(x) = λe^-λx, x>0 λ:단위 시간 당 사건 발생 기댓값 | 평균:1/λ, 분산:1/λ²| Exp(λ)
Exp(λ)에 대한 분포 함수: F(x)=0 (x<0), 1-e^-λx (x>=0)

무기억성: (적어도 a시간 이상이 지나야 사건이 발생할 때, a+b시간 이상이 지나야 사건이 발생할 확률)은 (처음부터 적어도 b시간 이상 지나야 사건이 발생할 확률)과 동일함
[ p(x>=a+b | x>=a) = p(x>=b) ]

감마분포: 푸아송 사건이 n번 발생할 때까지 걸린 시간의 분포
f(x) = [1/{(n-1)!Bⁿ}]*x^n-1*e^-x/B , x>0 | 평균: AB, 분산: AB² | Γ(n,1/λ) =Γ(A,B), λ는 평균 사건 횟수

정규분포: 통계적 추론에서 매우 중요하게 취급되는 연속 확률 분포

정의: 임의의 실수 m과 양의 실수 s에 대해 다음 확률 밀도 함수를 가지는 확률 분포이며, X~N(m,s²)으로 나타낸다.
f(x) = { 1/ √(2π)*s }*e^{-(x-m)^2 / 2s^2} , -∞<x<∞ | 평균:m, 분산:s²

표준 정규 분포: 평균이 0이고 분산이 1인 정규 분포
z~N(0,1), Φ(z) = { 1/ √(2π) }*e^{-z^2/2}, -∞<z<∞

정규분포의 일차 결합
X+Y ~ N(m₁+m₂, σ₁²+σ₂²), X-Y ~ N(m₁-m₂, σ₁²+σ₂²)
E(ax+by)= am₁+bm₂, Var(ax+by)= a²σ₁²+b²σ₂² -> ax+by=U, U~N(E(ax+by), Var(ax+by))

표본 평균 (¯x)는 정규 분포를 따른다: ¯x~N(μ,σ²/n)
이유: X_i~N(μ_i,σ₁²), i=1,2,…,n에 대해 Y= a₁x₁ +…+a_nx_n이라 하면 확률 변수 Y도 정규 분포를 따른다.
a_i=1/n, i=1,2,…,n일 때 Y는 1/n(x₁+…+x_n)이므로 표본평균(¯x)와 같다. 따라서 표본 평균은 정규분포를 따른다.

중심 극한 정리: x라는 확률 변수가 어떤 분포를 가지고 있는지 모르는 상태에서 표본을 n개 뽑았을 때, x가 어떤 분포 모양인지 상관없이 표본 평균은 정규 분포에 근사한다. ¯x~N(μ,σ²/n)

연속성 수정 정규근사: 이항분포의 정규근사를 구할 때, 그냥 정규근사를 한 것에 비해 (연속성 수정+정규 근사)를 한 것이 원래 이항 분포 확률과 비슷하다.

정규 분포와 다르지만 많이 쓰이는 분포

카이제곱 분포: 모수가 a=r/2, b=2인 감마분포로 자유도가 r이며, X~𝒳²(r)로 나타낸다.
평균:r,분산:2r | 표준 정규 확률 변수 Z에 대해 Z²~ 𝒳²(1)이다. | V= Z₁²+…+ Z_n² ~ 𝒳²(n)을 만족한다.

T-분포: Z~N(0,1)에 대해 자유도가 r인 카이제곱 확률 변수 V~𝒳²(n)에 대해 z가 v와 독립일 때, 확률 변수 T를 다음과 같이 정의한다.
T= Z/ √(v/r) | 평균:0,분산:r/r-2(r>2) | 자유도 r이 증가하면 t-분포는 표준 정규 분포에 근접한다.

F-분포: 독립인 카이제곱 분포 U~𝒳²(m)과 U~𝒳²(n)에 대해 확률 변수 F를 [ F=(U/m) / (U/n)]이라고 정의할 때, 확률 변수 F의 확률 분포를 분자와 분모의 자유도가 각각 m과 n인 F-분포라고 한다.

표본 분포: 표본 평균의 분포, 표본 분산의 분포 등을 의미

<표본 평균의 분포 개념>
표본을 잘 뽑아서 모집단을 대표할 수 있다면 표본만으로 모집단 추정이 가능하다는 의미이다.
그러나 어떻게 표본을 뽑느냐에 따라 모집단을 대표하지 못 할 수도 있다. 이 때 ‘표본 평균을 계산했을 때, 표본 평균도 분포를 이루지 않을까’ 라는 아이디어가 나왔다. 그렇게 해서 구한 표본 평균의 분포는 정규분포를 따랐고 n이 커질수록 모평균에 집중하는 형태를 만족했다. 즉 표본 평균으로 모평균을 추론할 수 있게 된 것이다. (모집단의 모수 추론이 가능해짐)

모집단이 알려진 정규 모집단인 경우: ¯x~N(μ,σ²/n), Z~(¯x-μ)/(σ/√n)

모집단이 알려지지 않은 정규 모집단인 경우: 모표준편차(σ)를 표본 표준편차(s)로 바꾸면 다음과 같이 자유도가 n-1인 t-분포를 따른다. [ T=¯x-μ/(s/√n) ~ t(n-1) ]

표본 분산의 분포: 표본 분산 자체는 분포를 따르지 않지만 표본 분산을 변형하면 카이제곱 분포를 따른다.
V= (n-1)s²/σ² ~ 𝒳²(n-1), 자유도가 n-1인 카이제곱 분포

이변량 표본 분포: 두 모집단에 대한 모평균의 차를 추론하기 위한 표본 평균의 차에 대한 분포를 살펴봄

[두 표본평균 차의 분포]
정규 모집단 N(μ_1,σ₁²)과 N(μ_2,σ₂²)에서 각각 크기가 n과 m인 표본을 임의로 선정하여 표본 평균을 ¯x, ¯y라고 하자. 이 때 ¯x-¯y는 다음의 정규 분포를 따른다.
¯x-¯y ~ N(μ₁-μ₂, σ₁²/n+σ₂²/m), Z= (¯x-¯y)-(μ₁-μ₂) / √(σ₁²/n+σ₂²/m) ~ N(0,1)

두 모분산이 같지만 알려지지 않은 정규 모집단인 경우

1) 합동 표본 분산 식을 이용한다.
S_p²=1/n+m-2 * [(n-1)S₁² + (m-1)S₂²]

2) 모분산이 같으니 ¯x-¯y의 표준화 확률변수 z는 다음과 같다.
Z= (¯x-¯y)-(μ₁-μ₂) / √(1/n+1/m)*σ ~ N(0,1)

3) 모표준편차를 합동 표본 표준편차로 교체하면 ¯x-¯y는 t-분포를 따른다.
T= (¯x-¯y)-(μ₁-μ₂) / √(1/n+1/m)*S_p ~ t(n+m-2)

두 모분산이 다르고 알려지지 않은 정규 모집단인 경우

표본 평균의 차 ¯x-¯y에 대해 통계량 U를 다음과 같이 정의한다.
U= (¯x-¯y)-(μ₁-μ₂) / √(S₁²/n+S₂²/m)

통계량 U는 다음과 같이 정의되는 자유도 r인 t-분포에 근사한다.
r=[ S₁²/ S₂²/m]²/ {(S₁²/n)²/n-1} + {(S₂²/m)²/m-1}

[합동 표본 분산의 분포]
합동 표본 분산 S_p²은 다음과 같이 자유도가 n+m-2인 카이제곱 분포를 따른다.
V=n+m-2/σ² * S_p²~ 𝒳²(n+m-2)

추정

점 추정
추정: 표본으로부터 얻은 추정량을 이용해서 모수를 추론하는 과정
점 추정: 모수 θ의 참값에 대해 최선의 추정 값을 구하는 과정
점 추정량(^θ): 모수 θ의 참값인 수치를 추정하기 위해 표본에 기초하여 얻은 통계량

불편추정량: 모수 θ에 대한 점 추정량^θ의 기댓값이 모수θ와 일치하는 추정량
E(^θ)=θ <-> 일치하지 않으면 편의 추정량이라고 한다.

유료추정량: 모수 θ에 대한 점 추정량^θ의 분산이 가장 작은 추정량 (표본 크기와 유효성 비례)
Var(^θ) = min{var(^θ₁),var(^θ₂),…,var(^θ_k)}

일치성: 표본의 크기를 크게 하면 모수에 수렴한다는 성질, 표본의 크기가 커질수록 추정량의 분산은 작아지고 (유효성은 커지고) 결국 추정량은 모수치에 일치하게 된다.

<표본 분산 s²을 구할 때 (n-1)로 나누는 이유>
표본 분산 s²을 (x_i-¯x)²의 평균으로 정의하면 s²은 σ²의 불편추정량이 아니다. (x_i-¯x)²을 (n-1)로 나눈 값으로 정의하면 σ²의 불편추정량이 되므로 s²으로 σ²을 추정 가능하다.

구간 추정: 아무리 좋은 추정량을 선택하더라도 모수의 참값을 정확하게 추정하기 쉽지 않으므로 나온 방법
신뢰 구간(모수 θ의 참값이 포함될 것이라 믿어지는 구간)을 측정하는 방법

신뢰 구간: ^θ₁< θ < ^θ₂, ^θ₁= θ-e, ^θ₂= θ+e | e=오차한계 | 신뢰구간은 점 추정량을 기준으로 동일한 값(e)만큼 떨어진 구간으로 결정하는 것이 바람직하다.

신뢰도: 모수의 참값이 신뢰구간에 포함될 것이라고 믿어지는 확신의 정도

<신뢰도 90%의 의미>
동일한 크기의 표본 10개를 임의 추출했을 때, 이 표본으로부터 얻는 신뢰구간들 중에서 90%에 해당하는 9개의 신뢰구간이 모수의 참값을 포함하고 10%에 해당하는 1개의 신뢰 구간은 모수의 참값을 포함하지 않는다.

M	T	W	T	F	S	S
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

SHA Computing

How Sunghyun handles computer

통계학 – 심화 용어 모음

Leave a Reply Cancel reply