본문 바로가기

카테고리 없음

카운트 기반 단어표현 (NLP 2팀)(작성중..)

language representation

 

단어를 숫자로 재표현해 컴퓨터가 연산할 수 있게 해주는 것

 

국소 표현(one-hot vector)

Bag of words(BOW)

 

문장이 들어왔을때 토근화 정제화 시킨 뒤 각 토큰들을 빈도에 따라 숫자로 mapping 시키는 것

 

문서 단어행렬(DTM)

 

BOW를 여러 문장에 대해 실행하여 행렬로 만들어 주는 것

 

DTM 한계

 

1. 희소 표현

 

 

2. 단어 빈도 수 기반 접근

 

 

 

TF-IDF

 

 

 

tf : 하나의 문장에 어떤 단어가 얼마나 등장했는지(DTM)

df : 문서에서 어떤 단어의 등장 빈도 수

Idf : df 역수 여러 문서에서 반복적으로 등장한 단어의 가중치를 낮추는 역할