🔢

가능도(Likelihood)와 최대 가능도 추정(Maximum Likelihood Estimation)

Probability 확률

먼저 고등학교 때 배우는 확률과 확률분포의 정의를 되짚어보자.
확률(Probability)이란 어떤 사건 AA가 발생할 수 있는 가능성이고, 수학적 의미에서의 확률은 표본 공간 SS에 대해 P(A)=n(A)n(S)P(A) = \cfrac{n(A)}{n(S)} 로 정의된다.
확률 변수(Random Variable)란 표본 공간의 원소를 실수에 대응한 것으로서, SRS \rightarrow \mathbb{R}의 함수이다. 여담이지만 진짜 Random Variable → 확률 변수 번역은 진짜 최악이다...
확률 분포(Probability Distribution)란 확률 변수 XX의 원소에 대해 해당 사건이 일어날 확률을 치역으로 하는 함수이다.

Likelihood 가능도

가능도는 확률과 조금 다르다. 확률이 확률 분포의 치역이라면, 가능도는 어떠한 관측 결과가 주어졌을 때 해당 관측 결과가 해당 분포에서 기인했을 확률을 나타낸다.
말이 어려우니 확률과의 차이점을 바탕으로 다시 정리하면,

확률 분포 → 어떤 사건이 일어날 가능성

을 알아내는 것이 곧 확률이라고 할 수 있고,

어떤 사건의 관측 결과 → 확률 분포

를 알아내는 것이 가능도라고 할 수 있다.
동전 던지기를 예로 들어보자.
동전을 n번 던진다고 했을 때 동전의 앞면이 나오는 확률 분포는 이항 분포로,
P12(X=x)=C(n,x)12x12nx=C(n,x)2nP_{\frac{1}{2}}(X=x)= C(n,x) \cfrac{1}{2}^x \cfrac{1}{2}^{n-x} = \cfrac{C(n,x)}{2^n} 이다.
우리는 이 분포를 알고 있기 때문에 동전을 10번 던졌을 때 3번 앞면이 나올 확률을 C(10,3)210\cfrac{C(10,3)}{2^{10}}으로 쉽게 대답할 수 있다.
하지만 실제로 동전을 던졌을 때 앞면이 나올 확률이 12\cfrac{1}{2} 라고 확실하게 말할 수 있을까? 실제로 500원짜리 동전은 무게 분포가 고르지 않아 학쪽이 앞으로 나올 확률이 뒤로 나올 확률보다 유의미하게 큰 통계적 확률을 갖는다.
가능도는 이러한 상황에서 관측을 통해 500원짜리 동전이 앞면이 나올 확률을 추정하는 방법이다.
가능 함수라는 것을 정의하자.
가능 함수는 확률 변수 XX가 모수(θ)(\theta)에 대한 확률 분포 Pθ(X)P_{\theta}(X)를 갖고, XX에 해당하는 값(x)x)들을 관측 했을 때, L(θx)L(\theta|x)라 하고 해당 xxPθ(X)P_{\theta}(X)의 분포로부터 왔을 가능성 의미한다.
관측값이 1개일리가 없으니까 nn개를 관측했다고 하면 L(θx1,x2...,xn)L(\theta|x_1,x_2...,x_n) 과 같이 표기한다.
관측은 독립적으로 일어난다고 가정하기 때문에 독립의 조건부 확률 공식 P(BA)=P(A)P(B)P(B|A) = P(A)P(B)를 곰곰히(혹은 곰곰이) 생각해보면,
L(θx1,x2...,xn)=L(θx1)×L(θx2)×...×L(θxn)L(\theta|x_1,x_2...,x_n) = L(\theta|x_1) \times L(\theta|x_2) \times...\times L(\theta|x_n) 가 성립함을 어렵지 않게 알 수 있다. (어떤 값에 대해서 분포를 추정하는 것을 응용한다고 하면, 여러 값을 뽑았다는 것 자체를 하나의 값이라고 생각해보자~)

Maximum Likelihood Estimation 최대 가능도 추정

GAN과 같은 비지도 학습에서 많이 등장하는 최대 가능도 추정이다.
위를 잘 이해했다면 MLE 자체는 매우 쉽다.
MLE는 여러 측정값들에 대해서 가능도가 최대가 되도록 하는 하는 모수 θ\theta를 찾는 것이다. 당연히 가능 함수를 θ\theta 에 대해서 편미분 하고 0이 되는 θ\theta를 찾으면 되지 않겠는가?
MLE는 Likelihood를 잘 이해했고 고등학교를 나왔으면 대단한 것이 아니다.