본문 바로가기
인공지능/머신 러닝

MAP

by spaul 2024. 2. 15.

MLE에 이어 MAP에 대해 정리해보자. 사실 MLE를 이해했다면 MAP 또한 어렵지 않게 이해할 수 있을 것이다.

 

MAP(Maximum A Posterior, 최대 사후 확률)는 베이즈 통계학에서 사후 확률의 최빈값(mode)을 가리킨다. 최대 사후 확률에 대응하는 모수(Parameter)는 MLE와 마찬가지로 모수의 점 추정으로 사용할 수 있지만, 최대우도에서는 어떤 사건이 일어날 확률을 가장 높이는 모수를 찾는 것에 비해, 최대 사후 확률 모수는 모수의 사전 확률과 결합된 확률을 고려한다는 점이 다르다. (출처 - 위키백과)

 

위 정의를 다시 설명해보자면, MAP 또한 MLE와 거의 비슷한 방식으로 파라미터를 추정하는데, MAP에는 MLE와 다르게 Parameter의 사전 확률과 결합된 확률을 함께 고려하여 파라미터를 추정한다는 것이다.

 

 MAP를 이해하기 위해서는 우선 용어부터 이해하고 넘어가야 한다. 아래 식을 살펴보자.

 

$P(\theta|x) = \frac{P(x|\theta)P(\theta)}{P(x)}$ · · · (1)

 

위 식을 베이즈 정리라고 부르며, 여기서 $P(x|\theta)$는 likelihood,  $P(\theta)$는 prior knowledge(이하 prior), $P(\theta|x)$는 posterior라고 한다. $P(x)$는 조건부 확률의 공식에 따른 normalizing constant이다(베이즈 정리가 어떻게 유도되는지 모른다면 조건부 확률의 정의를 다시 보고 오면 이해가 될 것이다).  즉, 표본 x가 주어졌을 때의 $\theta$를 구하는 것은 MLE와 동일하지만, 차이점은 시행자의 사전 지식인 prior를 추가할 수 있다는 것이다.

 

사전 확률(prior)을 추가할 수 있다는 것이 매우 중요한데, 우리가 앞서 MLE에서 예시로 들었던 윷 던지기를 생각해보자. 윷을 던지는 실험을 100번 했는데, 우연의 일치로 90번 앞면이 나오고 10번 뒷면이 나왔다고 해보자. 그럼 MLE에서 추정했던 것과 같이 앞면이 나올 확률 p는 $\frac{k}{n}$이므로 p = 0.9라고 할 수 있을까? 그렇게 말할 수도 있겠지만, 뭔가 이상한 기분을 지울 수 없을 것이다(실제로 윷의 앞면이 나올 확률은 0.6 정도로 알려져 있다).

 

물론 윷 던지기에서는 시행 횟수 n을 무한대에 가깝게 늘리면 true parameter $\theta$에 가까워 지겠지만, 현실의 상황에선 표본의 개수가 제한되어 있는 경우가 대부분일 것이다. 이럴 때 prior를 추가하여 $\theta$를 추정하면 더 정확한 값을 얻을 수 있을 것이다.

 

(1)의 $P(x)$는 어떤 상수이므로 $P(\theta|x) \propto P(x|\theta)P(\theta)$와 같은 비례관계가 성립된다. 따라서 MAP로 $\theta$를 추정할 때 분모의 normalizing constant term은 무시하고 값을 구할 수 있다(최대 값을 구할 때 상수 term은 무시될 수 있기 때문이다).

 

즉, MLE에서 (2)와 같이 true prameter $\theta$의 추정치인 $\hat{\theta}$를 구했다면

 

$\hat{\theta}_{MLE} = argmax_{\theta}P(x|\theta)$ · · · (2)

 

MAP에서 $\hat{\theta}$를 구하는 공식은 아래의 (3)과 같다.

 

$\hat{\theta}_{MAP} = argmax_{\theta}P(\theta|x)$ · · · (3) 

 

그럼 $\theta$의 사전 확률 분포 $P(\theta)$는 어떻게 결정해야 할까? 사실 이는 연구자의 수 많은 지식과 경험을 토대로 $\theta$에 대한 확률 분포를 결정해야 하기 때문에, 단순히 결정할 수 있는 문제가 아니다. 다양한 확률 분포의 특성에 대한 이해, 그리고 도메인에 대한 지식도 필요하다. 필자도 이제 공부를 시작하는 단계이므로, 이 부분은 우선 넘어가려고 한다.

 

MLE와 MAP, 그리고 베이즈 정리에 대한 개념은 향후 머신러닝 이론을 이해하는데 중요한 바탕이 되므로 꼭 이해하고 넘어가야겠다.

 

References

1. KAIST 인공지능 및 기계학습 개론1, 문일철

2. https://www.probabilitycourse.com/chapter9/9_1_2_MAP_estimation.php

 

'인공지능 > 머신 러닝' 카테고리의 다른 글

MLE  (0) 2024.02.14