본문 바로가기

Statistic

[TIL] Softmax에서 왜 e를 쓸까

Softmax

소프트 맥스 함수는 입력 벡터를 합이 1이 되는 확률 값으로 변환하는 함수다. 다항 분포의 posterior 추정으로 유도 가능하다. 이를 통해 자연스럽게 multi-class 문제에 적합하다는 것을 알 수 있다.

자연상수 e를 쓰는 이유는 두 가지

1. 미분이 용이 -> gradient를 발생시켜 역전파~

2. 입력 벡터가 더 잘 구분되게(큰 값은 더 크게, 작은 값은 더 작게)

자연상수는 2.7 정도 값을 갖고, 이를 밑으로 하는 자연 지수 함수는 다음과 같다.

입력 값 x에 변화량에 비해 출력 값 y의 변화량이 더 크다, 즉 입력 벡터에서 차이가 k만큼 난다면 softmax 확률에서는 e^k만큼 차이가 난다. 따라서 입력 벡터 값을 더 잘 구분되는 확률 값으로 mapping 한다고 볼 수 있다. 예를 들어보자

(3, 1, 1, 1) → ( 0.7, 0.1, 0.1, 0.1)

3이 전체에서 차지하는 비중은 0.5 정도지만, softmax를 통해 0.7의 값을 갖게 되었다.

 

Attention

2021/02/10 - [ML & DL] - [NLP] Language Model, Seq2Seq, Attention

 

[NLP] Language Model, Seq2Seq, Attention

Stanford Univ. cs224n(2019) 강의를 듣고 정리한 내용입니다. Language Model(LM) 현재까지 주어진 문장의 다음 단어를 예측하는 모델, eg) 인터넷 검색 자동완성. 수식으로 보면 다음과 같다. $P(x^{(t+1)} | x^..

hyunlee103.tistory.com