2025/09/24 3

[정보 이론] Estimator - MLE, MAP, 수학적 추정

딥러닝을 공부하며 자연스레 최대 우도 추정(MLE)에 대해서 듣지만, 대부분 "최대 우도"까지만 엄밀한 정의를 설명하고 "추정"에 관해서는 다소 직관적인 방식으로 설명을 한다. 사실 Estimate, 특히 static estimation problem은 다음과 같이 "측정 벡터의 집합 z"를 함수로 하는 상수벡터 x의 추정기(estimator)를 설계하는 문제로 표현된다.이는 미지의 상수벡터 x를 어떤 성격으로 규정하느냐에 따라 다음과 같은 분류로 나뉜다.빈도주의(frequentist, non-bayesian) 접근 방법MLE베이지안(bayesian) 접근MAP둘은 상호 배타적이지 않으면, 둘을 모두 사용한 방법 또한 있지만, 둘의 개념을 명확히 잡기 위해서 보통 MLE와 MAP 개념을 자주 설명한다. ..

[정보 이론] KL Divergence (KL 발산) - 크로스 엔트로피를 쓰는 이유

어떤 데이터의 확률밀도함수 p(x)가 있다고 하자.이 함수를 정확히 알 수 없어서 이 함수를 근사적으로 추정한 확률밀도함수 q(x)를 사용한다고 가정하자.그러면 실제 분포인 p(x)로 얻을 수 있는 정보량과 근사적 분포인 q(x)로 얻을 수 있는 정보량은 다를 것이다.이때 둘 사이의 평균 정보량이 얼마나 차이가 나는지 계산한 것을 상대 엔트로피(relative entropy) 또는 KL 발산(Kullback-Leibler divergence)이라고 하며, 다음과 같이 정의한다.여기서 p(x)||q(x)는 p(x)를 기준으로 q(x)를 비교한다는 뜻이다.첫 번째 항은 근사 분포인 q(x)의 정보량을 실제 분포를 사용해 기댓값을 계산한 것(크로스 엔트로피)이다.두번째 항은 실제 분포 p(x)의 평균 정보량(..

[정보 이론] 정보량, 엔트로피와 Cross Entropy의 정의

딥러닝을 학습하며 "크로스 엔트로피 오차"를 아무렇지 않게 사용하고 있었다.그런데 최근 논문을 탐색하면서, "크로스 엔트로피"라는 용어의 정의를 생각보다 엄밀하게 규정해두지 않아 개념들이 잘 이해가 가지 않았다.따라서 다음과 같이 엔트로피의 엄밀한 정의에 대해 서술한다. 항상 일어나는 사건은 새로울 것이 없으므로 여기에서 얻을 수 있는 정보의 양은 매우 적다고 봐도 된다.또한 잘 일어날 것 같지 않는 사건에서는 빈번하게 일어나는 사건에서보다 얻을 수 있는 정보의 양이 더 많다고 봐도 될 것이다. 따라서 정보량은 사건의 발생 빈도의 영향을 받으므로, 확률적인 속성을 가지고 있고, 확률함수로 나타내는 것이 자연스러워진다. 이를 반영해 랜덤벡터 x의 정보량 h(x)를 다음과 같이 정의한다.여기서 p(x)는 x..