Audio & Speech
2020. 2. 17.
음성 데이터의 활용
한국 인공지능아카데미 [딥러닝] 오디오 처리 세션에서 공부한 내용을 정리한 글 입니다. 간단한 음성 데이터의 활용 방안과, 음성인식 tool 종류와 그 과정에 대해 알아보자 보이스 피싱 탐색기 STT(음성 데이터를 문자로 변환하는 기술) 쪽은 음성을 텍스트로 바꾸고 NLP를 이용한 서비스 모델링을 한다. 상용화 STT API 사용 cost가 높아서, 전처리에서 최대한 중요한 부분만 빼서 넘기는 식으로 한다. 샘플링 > 양자화 후 pca를 통해 잘 모여있는 걸 확인하는 작업을 거치기도 한다(약간 실전 꿀팁 느낌?, 이 task 말고도 음성 데이터를 다루는 여러 분야에서 쓰이는 기술인 듯 하다.) 음성인식 toolkits HTK - 근본. 소스파일이 5메가 밖에 안되고 빠르고 가볍지만, 친절하지 않고 튜닝을..