본문 바로가기
인공지능/머신 러닝

MLE

by spaul 2024. 2. 14.

MLE(Maximum Likelihood Estimation, 최대우도법)란  어떤 확률변수에서 추출(sampling)한 값들을 토대로 그 확률변수의 모수(parameter)를 구하는 방법이다. 어떤 모수가 주어졌을 때, 원하는 값들이 나올 가능도(likelihood)를 최대로 만드는 모수를 선택하는 방법이다. (출처 - 위키백과)

 

예를 들어, 우리가 윷을 던져 앞면 또는 뒷면이 나오는 확률을 구하는 실험을 한다고 해보자. 윷을 던져 앞면(납작한 면)이 나오는 경우를 H, 뒷면(볼록한 면)이 나오는 경우를 T라고 해보자. 동전 대신 윷을 예시로 선택한 이유는 동전의 경우 앞, 뒤가 나올 확률을 자명하게 50:50으로 예측 가능 하지만, 윷은 앞 뒷면의 모양이 다르므로 단순하게 확률을 50:50으로 단정지을 수 없을 것이기 때문이다. 따라서 앞면이 나오는 경우를 X라고 하고 그 확률을 p라고 한다면, 확률 변수 X는 아래와 같은 binomial distribution을 따른다.

 

$X \sim Binomial(n, p)$

 

n은 시행횟수이므로 조절 가능한 파라미터이고, 우리의 목표는 p를 찾아내는 것이다. 즉, MLE의 목적은 표본집합의 결합확률밀도 함수(likelihood function) $P(x|\theta)$의 값을 최대로 만드는 $\theta$를 찾아내는 것이다. likelihood function은 아래와 같이 정의된다.

 

$P(x|\theta) = \prod_{k=1}^{n}P(x_k|\theta)$

 

윷의 앞면이 나오는 확률을 구하는 예시에서 우리가 찾고자 하는 $\theta = p$이다. 그리고 $P(x|\theta)$의 값을 최대로 만드는 그때의 $\theta$를 $\hat{\theta}$이라 하자. 그럼 어떻게 $\hat{\theta}$를 찾아낼 수 있을까? 답은 간단하다. 표본 추출, 즉 윷을 던져보면 된다. $\theta$가 given일 때 윷을 n번 던져 k번 앞면이 나올 확률은 아래와 같다.

 

$P(x|\theta) = \theta^{k}(1-\theta)^{n-k}$

 

그리고 우리의 목표는 likelihood function을 최대로 만드는 $\hat{\theta}$를 찾는 것이라고 하였다. 식으로 표현하면 아래와 같다.

 

$\hat{\theta} = argmax_{\theta}P(x|\theta)$

 

$P(x|\theta)는 미분 가능한 함수이고 미분 가능한 함수는 극대값에서 미분계수의 값이 0된다는 것을 이용하여 $\hat{\theta}$을 찾는다. $argmax_{\theta}P(x|\theta)$를 $\theta$에 대해 미분하는데, $argmax_{\theta}P(x|\theta)$는 미분하기 복잡한 함수이므로 계산의 편의를 위하여 $log$를 취할 것이다. $log$는 단조 증가 함수이기 때문에 $log$를 취해도 $\hat{\theta}$를 구하는 데에는 영향이 없다. 따라서 아래와 같은 식 변형하여 $\hat{\theta}$를 계산한다.

 

$\hat{\theta} = argmax_{\theta}lnP(x|\theta)$

$= argmax_{\theta}ln\{\theta^{k}(1-\theta)^{n-k}\}$

$= argmax_{\theta}\{kln\theta+(n-k)ln(1-\theta)\}$

 

로그의 성질에 의해 위와 같이 변환된다. 이제 위 식을 $\theta$에 대해 미분하여 0이 되는 값을 구하면 된다. 

 

$ \frac{\partial }{\partial \theta}(kln\theta + (n-k)ln(1-\theta)) $

$= \frac{k}{\theta} - \frac{n-k}{1-\theta} = 0$

 

위 식을 $\theta$에 대해 정리하면 $\theta = \frac{k}{n}$가 된다. 즉, 우리가 찾으려 했던 앞면이 나올 확률 $p = \theta$의 값을 최대로 만드는 $\hat{\theta}$는 단순히 앞면이 나온 횟수 k를 전체 시행 횟수 k로 나누면 되는 것이었다. 여기서는 예시로 이항 분포를 따르는 확률 변수 X를 가정하였지만, X는 꼭 이항 분포 뿐만 아니라 정규 분포, 포아송 분포, 지수 분포 등 어떤 분포여도 MLE를 통하여 최적의 파라미터 $\hat{\theta}$를 계산해 낼 수 있다. 물론 시행횟수(표본의 수)가 클수록 우리가 추정한 $\hat{\theta}$가 실제 파라미터 $\theta$와 유사해지게 될 것이다. 

 

References

1. KAIST 인공지능 및 기계학습 개론1, 문일철

2. 공돌이의 수학정리노트 - 최대우도법(MLE) https://angeloyeo.github.io/2020/07/17/MLE.html

 

 

 

 

 

 

 

 

'인공지능 > 머신 러닝' 카테고리의 다른 글

MAP  (0) 2024.02.15