ctc Paper 2020. 3. 18. [논문] Lexicon-Free Conversational Speech Recognition with Neural Networks 스탠퍼드에서 2015년에 발표한 Lexicon-Free Conversational Speech Recognition with Neural Networks 논문(http://ai.stanford.edu/~amaas/papers/ctc_clm_naacl_2015.pdf)을 공부하고 정리한 글입니다. CTC 관련 내용은 CMU의 딥러닝 강의(https://www.youtube.com/watch?v=c86gfVGcvh4&t=4205s)를 참고했고 DBRNN 부분은 Team AI 블로그를 참고 했습니다.(https://aikorea.org/blog/rnn-tutorial-1/) Abstract 다음과 같은 3가지 구조만 사용한다. 1. NN : map acoustic input to characters 2. Ch.. Audio & Speech 2020. 1. 11. [음성인식] Lec.1 OT - 음성인식 개론 모두의 연구소에서 진행되는 음성인식 부트캠프 풀잎스쿨에서 공부한 내용을 토대로 정리하였습니다. 음성인식? - 공기의 진동인 파형(음성) -> 텍스트 (STT) 근데 컴퓨터는 숫자만 인식하니까 - 음성 파일의 sequential 벡터(소리의 압축/수축 정도 값(음압)을 가지게 됨) -> 텍스트로 sequential 벡터로! - sequence input > sequence output (인풋 아웃풋의 길이가 가변적이라는게 challangeble한 task) 음성과 단어는 일대일 관계가 아니다 → 단어를 좀 더 추상화된 표현으로 바꾸자 - 음성에서 바로 단어로 가지말고, 음성에서 Phonemes(발음)으로 가고 그 다음에 단어로 가자! Acoustic features - 발성기관과 듣는기관은 같이 발달되었다.. 이전 1 다음