Softmax
소프트 맥스 함수는 입력 벡터를 합이 1이 되는 확률 값으로 변환하는 함수다. 다항 분포의 posterior 추정으로 유도 가능하다. 이를 통해 자연스럽게 multi-class 문제에 적합하다는 것을 알 수 있다.
자연상수 e를 쓰는 이유는 두 가지
1. 미분이 용이 -> gradient를 발생시켜 역전파~
2. 입력 벡터가 더 잘 구분되게(큰 값은 더 크게, 작은 값은 더 작게)
자연상수는 2.7 정도 값을 갖고, 이를 밑으로 하는 자연 지수 함수는 다음과 같다.
입력 값 x에 변화량에 비해 출력 값 y의 변화량이 더 크다, 즉 입력 벡터에서 차이가 k만큼 난다면 softmax 확률에서는 e^k만큼 차이가 난다. 따라서 입력 벡터 값을 더 잘 구분되는 확률 값으로 mapping 한다고 볼 수 있다. 예를 들어보자
(3, 1, 1, 1) → ( 0.7, 0.1, 0.1, 0.1)
3이 전체에서 차지하는 비중은 0.5 정도지만, softmax를 통해 0.7의 값을 갖게 되었다.
Attention
2021/02/10 - [ML & DL] - [NLP] Language Model, Seq2Seq, Attention
'Statistic' 카테고리의 다른 글
[정보이론] KL-divergence의 비대칭성과 Cross Entropy (0) | 2021.02.04 |
---|---|
Hessian 행렬의 고윳값과 definite (0) | 2021.01.15 |
독립과 직교(orthogonal) (2) | 2021.01.09 |
[머신러닝] Logistic Regression(MLE와 Bayesian inference를 통한 확률론적 접근) (8) | 2019.11.08 |