Probability 확률
먼저 고등학교 때 배우는 확률과 확률분포의 정의를 되짚어보자.
확률(Probability)이란 어떤 사건 가 발생할 수 있는 가능성이고, 수학적 의미에서의 확률은 표본 공간 에 대해 로 정의된다.
확률 변수(Random Variable)란 표본 공간의 원소를 실수에 대응한 것으로서, 의 함수이다. 여담이지만 진짜 Random Variable → 확률 변수 번역은 진짜 최악이다...
확률 분포(Probability Distribution)란 확률 변수 의 원소에 대해 해당 사건이 일어날 확률을 치역으로 하는 함수이다.
Likelihood 가능도
가능도는 확률과 조금 다르다. 확률이 확률 분포의 치역이라면, 가능도는 어떠한 관측 결과가 주어졌을 때 해당 관측 결과가 해당 분포에서 기인했을 확률을 나타낸다.
말이 어려우니 확률과의 차이점을 바탕으로 다시 정리하면,
확률 분포 → 어떤 사건이 일어날 가능성
을 알아내는 것이 곧 확률이라고 할 수 있고,
어떤 사건의 관측 결과 → 확률 분포
를 알아내는 것이 가능도라고 할 수 있다.
동전 던지기를 예로 들어보자.
동전을 n번 던진다고 했을 때 동전의 앞면이 나오는 확률 분포는 이항 분포로,
이다.
우리는 이 분포를 알고 있기 때문에 동전을 10번 던졌을 때 3번 앞면이 나올 확률을 으로 쉽게 대답할 수 있다.
하지만 실제로 동전을 던졌을 때 앞면이 나올 확률이 라고 확실하게 말할 수 있을까? 실제로 500원짜리 동전은 무게 분포가 고르지 않아 학쪽이 앞으로 나올 확률이 뒤로 나올 확률보다 유의미하게 큰 통계적 확률을 갖는다.
가능도는 이러한 상황에서 관측을 통해 500원짜리 동전이 앞면이 나올 확률을 추정하는 방법이다.
가능 함수라는 것을 정의하자.
가능 함수는 확률 변수 가 모수에 대한 확률 분포 를 갖고, 에 해당하는 값(들을 관측 했을 때, 라 하고 해당 가 의 분포로부터 왔을 가능성 의미한다.
관측값이 1개일리가 없으니까 개를 관측했다고 하면 과 같이 표기한다.
관측은 독립적으로 일어난다고 가정하기 때문에 독립의 조건부 확률 공식 를 곰곰히(혹은 곰곰이) 생각해보면,
가 성립함을 어렵지 않게 알 수 있다. (어떤 값에 대해서 분포를 추정하는 것을 응용한다고 하면, 여러 값을 뽑았다는 것 자체를 하나의 값이라고 생각해보자~)
Maximum Likelihood Estimation 최대 가능도 추정
GAN과 같은 비지도 학습에서 많이 등장하는 최대 가능도 추정이다.
위를 잘 이해했다면 MLE 자체는 매우 쉽다.
MLE는 여러 측정값들에 대해서 가능도가 최대가 되도록 하는 하는 모수 를 찾는 것이다. 당연히 가능 함수를 에 대해서 편미분 하고 0이 되는 를 찾으면 되지 않겠는가?
MLE는 Likelihood를 잘 이해했고 고등학교를 나왔으면 대단한 것이 아니다.