language representation
단어를 숫자로 재표현해 컴퓨터가 연산할 수 있게 해주는 것
국소 표현(one-hot vector)

Bag of words(BOW)
문장이 들어왔을때 토근화 정제화 시킨 뒤 각 토큰들을 빈도에 따라 숫자로 mapping 시키는 것
문서 단어행렬(DTM)
BOW를 여러 문장에 대해 실행하여 행렬로 만들어 주는 것
DTM 한계
1. 희소 표현
2. 단어 빈도 수 기반 접근
TF-IDF
tf : 하나의 문장에 어떤 단어가 얼마나 등장했는지(DTM)
df : 문서에서 어떤 단어의 등장 빈도 수
Idf : df 역수 여러 문서에서 반복적으로 등장한 단어의 가중치를 낮추는 역할