본문 바로가기

Statistic

Hessian 행렬의 고윳값과 definite

Definite

정의

$f(x) = X^TAX = a_{11}x_1^2 + 2a_{12}x_1x_2 + \cdot \cdot +a_{nn}x_n^2, \ X\in \mathbb{R}^n$

위와 같이, n개 변수를 갖는 quadratic form 함수 f(x)가 있을 때, 극점 x = 0을 제외한 모든 x에 대해

$X^TAX > 0$이면 positive definite 하고 f(x)가 해당 구간에서 convex 하며 극소값을 갖는다.

$X^TAX < 0$이면 negative definite하고 f(x)가 해당 구간에서 concave 하며 극대값을 갖는다.

정리

이때, 행렬 A의 모든 eigenvalue가 0보다 크면 f(x)가 positve definite, 작으면 negative definite이고, 이 행렬 A를 각각 positive-definite matrix, negative-definite matrix라고 부른다.

증명

fig.1

반대쪽도 동일한 논리로 증명 가능하다.

 


Hessian

헤시안 행렬은 다변수 함수 $f$를 각 변수로 2차 편미분 한 값들을 모아둔 행렬이다.

hessian matrix

함수 $f$의 극점이 존재할 때, 그 점에서 헤시안의 eigenvalue가 양수면 극소값, 음수면 극대값, 섞이면 saddle point를 갖게 된다. 만약, f가 특정 지점에서 2차 미분 가능하고 연속이라면, 2차 편미분 값이 미분 순서에 invariant 하므로 헤시안은 대칭 행렬이 된다.

$\frac{\partial^2 f} {\partial x_1\partial x_2}=\frac{\partial^2 f} {\partial x_2\partial x_1}$

대칭 행렬은 항상 orthogonal 한 eigenvector를 갖는 decomposition이 가능하고, 이때, 헤시안은 eigenvalue 부호에 따라 positve definite, negative definite 행렬이 된다(0을 포함하면 semi).

hessian의 eigenvalue

단변수 함수에서 극점의 극소, 극대 판정은 해당 점에서 이차 미분값을 보면 된다. 이를 다변수 함수로 확장하면, 각 변수에 대한 2차 편미분이 모여있는 hessian을 생각해볼 수 있다. hessian은 각 변수의 값 변화에 따른 gradient 변화율인데, 각 변수가 영향을 미치는 정도가 섞여있다. 따라서 이를 eigendecompostion 해서 gradient 변화율(곡률)이 가장 잘 나타나는 방향(eigenvector)과 크기(eigenvalue)를 찾아 함수의 dominant 한 구부러진 방향과 정도를 파악한다. 예를 들어보자.

fig.2

$x_1, x_2$를 변수로 갖는 함수의 단면이다. $f(x_1,x_2)$의 hessian과 eigenvalue, eigenvector를 구해보면 다음과 같다.

$H = \begin{pmatrix} 
2 & 1\\  
1 & 2 
\end{pmatrix}$

$\lambda = 1, 3$

$v_1 = \begin{pmatrix} 
1\\-1  
\end{pmatrix} 

v_2 = \begin{pmatrix} 
1\\1 
\end{pmatrix}$

fig.2에 파란색 벡터가 eigenvalue를 반영한 eigenvector이다. eigenvalue가 큰 방향으로 함수가 급하게 증가하고, 작은 방향은 상대적으로 완만함을 알 수 있다. 즉, eigenvalue가 양수이고 클수록 해당 eigenvector 방향으로 위로 급하게 접히는 형태(convex) 음수면 아래로 접히는 형태(concave)를 갖는다.

fig.3

fig.3을 보면 우리가 다룬 함수의 전체 개형이 보인다. 2 변수 함수일 때는 hessian으로 어느 정도 접힌 방향과 정도를 추측할 수 있겠으나, 고차원으로 갈수록 각 변수 간의 상관이 많아지고 hessian만으로는 판단하기 어렵다. Hessian의 eigenvector과 eigenvalue는 함수가 갖는 dominant 한 곡률 방향과 정도를 수치화하므로 유용하게 활용할 수 있다.