ML & DL
2019. 10. 31.
텍스트 전처리(Boaz NLP 1팀)
Boaz 세션에서 다룬 발표 내용을 정리한 것 입니다 텍스트 데이터는 일반적인 데이터와 다르게 수치형이나 테이블형으로 표현되어 있지 않기에 분석을 위해 전처리를 해주어야 합니다. 그 전처리 방법에 대해 공부해 보겠습니다 1. 토큰화(Tokenization) 글을 단어나 문장 기준으로 나누어 토큰(token, 작은 덩어리)으로 바꾸는 과정 corpus : 자연어 데이터 모음(단락형태), corpora(corpus 복수형) 구두점 특수문자 띄어쓰기 (ph.d, New York) 등 주의를 해야함 영어보다 한국어가 어려움 > 교착어라서 & 띄어쓰기가 영어만큼 엄격하지 않음 품사 태깅 : 토큰화 시킨 단어가 어떤 품사로 쓰였는지 보여주는 기능 2. 정제/정규화(Cleaning & Normalization) 정제..