본문 바로가기

Statistic

[정보이론] KL-divergence의 비대칭성과 Cross Entropy

Entropy

엔트로피는 특정 확률분포가 갖는 불확실성, 무질서 정도를 정보량의 기댓값으로 수치화한 값이다. 엔트로피가 큰 분포는 분산이 큰 정규분포, 엔트로피가 작은 분포는 분산이 작아 특정 영역에 확률값들이 모여 있는 분포다. 아래의 녹색 strong prior가 엔트로피가 작은 분포, 파란색 weak prior가 엔트로피가 큰 분포이다.

녹색 : low entropy,  파랑 : high entorpy

$X$ : event point

$P(X=x)$ : event 확률

$-logP(X)$ : X의 정보량(self-information)

$E_{X\sim P} [-logP(X)]$ : 확률분포 P(X)의 entropy(정보량 기댓값) 

 

KL-divergence

KL-divergence는 확률분포간 정보량 차이로 확률분포 P(x)와 Q(x)의 차이를 측정한다. 이를 P 분포를 추정하는데 Q 분포가 얼마나 적합한지로 해석할 수 있다. 확률분포 P, Q가 같은 domain x를 갖는 경우에 KL-divergence 수식은 다음과 같다. 

 

Properties

- KL divergence는 symmetric 하지 않다. 즉, $D_{KL}(P||Q) != D_{KL}(Q||P)$ 이고 distance metric 으로 역할을 하지 못한다.

- KL divergence는 $[0, \infty ]$ 범위의 값을 갖고, $D_{KL}(P||Q) = 0$ 이면 반대도 0이고, P, Q는 동일한 분포다.

- KL divergence가 유한한 값을 갖기 위해선 P, Q의 support가 겹치는 영역이 있어야 한다.  

 

cross entropy

다음과 같이 KL-divergence 식을 변형하면 확률분포 P, Q 사이의 cross-entropy가 유도된다.

즉, cross entropy는 KL에 P의 entropy를 더한 값이다. 이때 $H(P)$는 Q와 무관한 term이므로, Q에 대해 KL을 최소화하는 것과 cross entropy를 최소화하는 것은 같다.  

 

KL-divergence optimization

정답 분포 $P(x)$를 $Q_\theta(x)$로 근사하는 $\theta$를 추정하는 과정을 다음과 같은 최적화 과정으로 수식화 할 수 있다. 

$\arg min_\theta D_{KL}(P||Q_\theta)$

$\arg min_\theta D_{KL}(Q_\theta ||P)$

근데, KL-divergence는 비대칭이라 두 목적식이 달라, 두 최적화 식이 다른 방향으로 추정과 분포 근사가 이뤄진다. P(x)를 아래와 같은 bimodal 분포로, Q(x)를 정규분포 가정하고 추정 해보자.

정답 분포, P(x)

1. $\arg min_\theta D_{KL}(P||Q_\theta)$

목적식을 전개하면, MLE 목적식과 동일하게 할 수 있다.

즉, P 분포의 sample point로 Q(x) 확률이 최대가 되는 $\theta$를 찾는 문제다. 따라서 Q(x)는 아래와 같이 정답분포 전 영역에 걸쳐 평균적인 coverage가 좋게 근사하는 분포가 된다. 다시말해, 어떤 정규분포 Q(x)가 정답분포 P(x)를 가장 잘 설명할 수 있을까를 구한 것이다.

fig.1

 

2. $\arg min_\theta D_{KL}(Q_\theta ||P)$

MLE로 해석을 위해 아래와 같이 목적식을 바꿔준다.

최종 목적식은 Q(x)의 sample point에서 P(x) 확률이 최대가 되는 $\theta$를 찾는 문제다. 뒤에 entropy term은 penalize term으로 Q(x)가 가능한 엔트로피가 큰 = 분산이 큰 = 넓게 퍼진 분포를 갖게 한다. 아래와 같이 Q(x)가 추정된다.

fig.2

$\arg min_\theta D_{KL}(P||Q_\theta)$를 만족하는 Q 분포에 대해 확률을 할당해서 직관과 수식이 동일한지 확인해보자. 계산 편의를 위해 이산확률분포를 가정하고, log0은 -100으로 생각한다.

<1번 - fig.1의 Q 분포>

X

1

2

3

4

5

6

7

Q(X)

1/8

1/8

2/8

2/8

1/8

1/8

0

logQ(X)

-3

-3

-2

-2

-3

-3

-100

 기댓값은 -15

<2번 - fig.2의 Q 분포>

X

1

2

3

4

5

6

7

Q(X)

0

0

0

0

2/8

4/8

2/8

logQ(X)

-100

-100

-100

-100

-2

-1

-2

기댓값은 -53.75

1번 분포의 기댓값이 2번보다 크므로, $\arg min_\theta D_{KL}(P||Q_\theta)$ 경우에 fig.1 처럼 Q 분포가 최적화 되는 것이 자연스럽다. 확률이 0인 점에서 log likelihood가 매우 작은 값을 갖게 되어 기댓값에 dominant한 영향을 준다. 즉 Q 확률이 0에 가까운 점에서는 기댓값의 domain 확률이 작을수록 목적식을 최대화(MLE)한다.