가능도(Likelihood)

vs 확률(Probability)

Kunhee Lee

HEADLINE

기억해 두자.

셀 수 있는 사건 : 확률 = 가능도

셀 수 없는 사건 中 특정 사건이 일어날 확률 = 0

셀 수 없는 사건 : PDF값 = 가능도

진실을 찾는 방법 : 최대가능도 추정량(Maximum Likelihood Estimator, MLE)

Intro
셀 수 있는 사건(이산사건)의 확률
셀 수 없는 사건(연속사건)의 확률
가능도(Likelihood) : 연속사건 中 특정 사건이 일어날 가능성
사건이 여러번 일어날 경우의 가능도
최대가능도 추정량(Maximum Likelihood Estimator, MLE) : 모양이 일그러진 동전
최대가능도 추정량(Maximum Likelihood Estimator, MLE) : 나의 실제 키
Conclusion

1. Intro

본 챕터에서는 가능도(Likelihood) 가 무엇인지 직관적으로 이해하는 것을 목표로 한다.
가능도는 통계학에서 빠질 수 없는 개념이지만 이상하게도 의학/보건학을 다루는 통계학 책에서는 잘 등장하지 않는다.
이번 기회에 우리에게 익숙한 확률(Probability)과의 비교를 통해 대략적인 느낌을 파악하도록 하자.
강의 말미에 등장하는 최대가능도 추정량(Maximum Likelihood Estimator)은 통계적 추론에서 가장 중요한 개념 중 하나이므로 이 또한 반드시 이해하고 넘어가자.

2. 셀 수 있는 사건(이산사건)의 확률(1)

주사위를 예로 들어 보자.
주사위를 던져서 나올 수 있는 숫자는 1,2,3,4,5,6이고 각 숫자가 나올 확률은 \(\frac{1}{6}\)로 모두 같다.

2. 셀 수 있는 사건(이산사건)의 확률(2)

동전을 예로 들어 보자.
동전을 10번 던져서 나올 수 있는 앞면의 횟수는 0~10번이고 각 확률은 \(p = _{10}C_{n}\frac{1}{2}^n\frac{1}{2}^{10-n} = _{10}C_{n}\frac{1}{2}^{10}=\frac{_{10}C_{n}}{1024}\)로 구할 수 있다.

2. 셀 수 있는 사건(이산사건)의 확률(3)

앞의 두 경우는 모두 일어날 수 있는 사건의 개수가 6개, 11개로 정해져 있다. -> 이산사건
따라서 각각의 확률을 구할 수 있고, 구한 확률의 총합은 1이 된다.
즉 이산사건에서의 확률 = 가능성 이다.

3. 셀 수 없는 사건(연속사건)의 확률(1)

이번에는 1 ~ 6의 숫자 중 랜덤으로 아무 숫자나 뽑는다고 하자.
이때 숫자 5가 뽑힐 확률은 얼마일까?
1과 6 사이에는 무수히 많은 숫자가 있으니 정확히 5가 뽑힐 확률은 \(\frac{1}{\infty}=0\)이다.
즉 특정 사건의 확률은 모두 0이다.
따라서, 이러한 연속사건의 경우 특정 사건이 일어날 확률이 아닌 특정 구간에 속할 확률을 말하는 것이 의미있다.

3. 셀 수 없는 사건(연속사건)의 확률(2)

앞의 예시에서 5가 뽑힐 확률은 0이지만, 4에서 5 사이의 숫자가 뽑힐 확률은 \(\frac{1}{5}=0.2\)이다.
이처럼 우리는 특정 구간에 속할 확률을 구함으로써 간접적으로 특정 사건의 확률에 대한 감을 잡을 수 있다.
이것을 설명하는 곡선이 바로 확률밀도함수(Probability Density Function: PDF)이다.
확률밀도함수 그래프에서 특정 구간에 속한 넓이 = 특정 구간에 속할 확률임을 기억하고 넘어가자.

3. 셀 수 없는 사건(연속사건)의 확률(3)

확률밀도함수(Probability Density Function, PDF)로 특정 구간에 속할 확률을 살펴보자.
PDF 값이 1에서 6사이에서는 전부 0.2이고 나머지 구간에서는 전부 0이다.
확률의 총합은 1이므로 전체 직사각형의 넓이 역시 1이고 \(y\)값은 전부 0.2가 된다.
이를 바탕으로 2에서 4사이의 숫자가 뽑힐 확률은 \(2\times 0.2 = 0.4\) 이다.

1 ~ 6의 숫자 뽑기

3. 셀 수 없는 사건(연속사건)의 확률(4)

우리에게 익숙한 표준정규분포(Standard normal distribution)의 확률밀도함수를 살펴보자.
표준정규분포의 PDF는 다들 알고 있는대로(?) \(\frac{1}{\sqrt{2\pi}}e^{-z^2/2}\)이며,
\(z\)가 특정 값일 확률은 0이지만 -1.96 ~ 1.96에 속할 확률은 0.95이다.

표준정규분포의 확률밀도함수

3. 셀 수 없는 사건(연속사건)의 확률(5)

표준정규분포에서 \(z\)가 정확히 -2,0,…999일 확률은 모두 0이므로 각 사건이 일어날 가능성에 차이가 없다고 말해야 한다.
but 우리는 가장 솟아 있는 0 근처일 경우의 가능성이 가장 높고, 0에서 멀어질수록 낮아짐을 직관적으로 알 수 있다.
즉 확률 로는 연속사건 간의 가능성 차이를 나타낼 수 없다는 한계가 있다.

표준정규분포의 확률밀도함수

4. 가능도 : 연속사건 中 특정 사건이 일어날 가능성

가능도의 직관적인 정의 : 확률밀도함수의 \(y\)값 (PDF값)
- 이산사건: 확률 = 가능도
- 연속사건: 확률 \(\neq\) 가능도 => PDF값 = 가능도

5. 이산사건이 여러번 일어날 경우의 가능도

주사위를 3번 던져 각각 1,3,6이 나올 확률은 얼마일까?

=> \(\frac{1}{6}\times\frac{1}{6}\times\frac{1}{6}=\frac{1}{216}\)
동전 10번 던지는 행위를 3회 시행하여 앞면이 각각 2,5,7번 나올 확률은 얼마일까?

=> 0.044 \(\times\) 0.246 \(\times\) 0.117\(=\) 0.001
셀 수 있는 사건(이산사건)에서 확률 = 가능도이므로 각각의 가능도 역시 \(\frac{1}{216}\)과 0.001이다.

5. 연속사건이 여러번 일어날 경우의 가능도

표준정규분포에서 숫자를 3번 뽑았을 때 차례대로 -1, 0, 1이 나올 확률과 가능도는 얼마일까?
확률 : 각 사건이 일어날 확률이 모두 0이므로 0
가능도 : 각 사건의 가능도가 0.24, 0.4, 0.24이므로 0.24 \(\times\) 0.4 \(\times\) 0.24 \(=\) 0.02
연속사건에서 확률과 가능도는 다른 값임을 확인할 수 있다.

최대가능도 추정량(Maximum Likelihood Estimator, MLE)

6. 모양이 일그러진 동전 - MLE

1000번 던져 앞면이 400번 나올 가능성을 최대로 하는 \(p\)값(MLE)을 구해보자.
\(L=_{1000} C_{400}p^{400}(1-p)^{600}\)이 최대가 되려면 \(\frac{3}{2}p=1-p\), 즉 \(p=0.4\)이 된다.
따라서 동전을 던져 앞면이 나올 확률 \(p\)를 0.4로 추정할 수 있다.

동전 앞면이 나올 확률 \(p\)에 따른 가능도 \(L\)

7. 나의 실제 키 - MLE

5번 측정해서 178, 179, 180, 181, 182(cm)가 나왔다면 나의 실제 키와 MLE는 얼마일까?
키의 측정값이 \(x\)일때의 가능도, 즉 정규분포의 \(y\)값은 \(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)이다.
\(L\) \(=\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(178-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(179-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(180-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(181-\mu)^2}{2\sigma^2}}\times\frac{1}{\sqrt{2\pi}\sigma^2}e^{-\frac{(182-\mu)^2}{2\sigma^2}}\)이 최대가 되려면
\((178-\mu)^2+(179-\mu)^2+(180-\mu)^2+(181-\mu)^2+(182-\mu)^2\)이 최소가 되도록 하는 \(\mu=180\)이 된다.

실제 키에 따른 가능도 \(L\)

8. Conclusion

이산사건과 연속사건에서의 확률 예시를 살펴봄으로써 가능도(Likelihood)와 최대가능도 추정량(MLE)에 대한 이야기를 나눴다.
다시 한 번 아래 내용을 되새기며 가능도에 대한 개념을 짚고 넘어가기를 바란다.

셀 수 있는 사건 : 확률 = 가능도

셀 수 없는 사건 中 특정 사건이 일어날 확률 = 0

셀 수 없는 사건 : PDF값 = 가능도

진실을 찾는 방법 : 최대가능도 추정량(Maximum Likelihood Estimator, MLE)

가능도(Likelihood)

HEADLINE

Contents

1. Intro

2. 셀 수 있는 사건(이산사건)의 확률(1)

2. 셀 수 있는 사건(이산사건)의 확률(2)

2. 셀 수 있는 사건(이산사건)의 확률(3)

3. 셀 수 없는 사건(연속사건)의 확률(1)

3. 셀 수 없는 사건(연속사건)의 확률(2)

3. 셀 수 없는 사건(연속사건)의 확률(3)

3. 셀 수 없는 사건(연속사건)의 확률(4)

3. 셀 수 없는 사건(연속사건)의 확률(5)

4. 가능도 : 연속사건 中 특정 사건이 일어날 가능성

5. 이산사건이 여러번 일어날 경우의 가능도

5. 연속사건이 여러번 일어날 경우의 가능도

최대가능도 추정량(Maximum Likelihood Estimator, MLE)

6. 모양이 일그러진 동전 - MLE

7. 나의 실제 키 - MLE

8. Conclusion