본문 바로가기

Audio & Speech

[음성인식] Lec.2 Phonetics & Signal process 기본 개념

모두의 연구소 음성인식 부트캠프 풀잎스쿨에서 공부한 내용을 토대로 정리하였습니다!

 


 

1. Speech Sounds and Phonetic Transcription(발음표기)

 > 음성학(phonetics)

   -음성이나 분절음 등 speech sound에 대한 연구

 

음성을 표현하는 두가지 표기체계(발음 기호)

 1. ARPAbet Symbol  > 영어 특화

 2. IPA Symbol > 국제적으로 적용하기 위해 1번보다 넓은 범위의 음성을 포괄

이 중 1번 ARPAbet Symbol 방식이 ascill 코드로 reprensetation 가능하여 선호된다고 한다.

 

 


2. Articulatory Phonetics(조음 음성학; 조음 기관의 관점에서 본 음성학)

소리를 낼 때 관여하는 조음 기관

입술 이 입천장(경구개, 연구개) 혀, 등등 

성문(성대 사이 공간)이 울리면서 소리가 나면 유성음(울림소리 : 노란양말) 아니면 무성음

 

Phones(음소)의 분류 > 자음과 모음, semivowels, such as [y] [w] < 모음이지만 자음 특성을 가지는,  간섭을 좀 받는 모음 

 

consonants(자음) - 소리가 나는 airflow를 간섭하고 막음으로써 만들어지는 소리. 단독으로는 소리 낼 수 없다 모음과 함께 소리를 낸다.

 

vowels(모음) - 자음에 비해 간섭이 적고 자연스럽게 소리가 나며, 크고 길게 유지된다.

  > 혀의 위치에 따라 - 전설 중설 후설

  > 혀의 높이에 따라 - 고 반고 반저 저

syllables(음절)

 > 모/두/연/사/용/설/명/서 (한글)

 

 > 위 그림은 영어 음절의 분할 - onset, nycleus, coda는 각각 한글의 초성 중성 종성에 feature mapping 가능하다.

 

 


 

4. Acoustic Phonetics and Signals

 

 " 앞서 다룬 음성을 어떻게 컴퓨터 데이터로 다룰 수 있을까? "

 

 1) Waves

    > wavelength : 특정 지점 부터 다음 그 특정 지점까지의 거리

    > Amplitude : origin 부터 최고(저)점 까지의 거리

   음성의 acoustic 분석은 기본적으로 sine, cosine function에 기반한다 

 

   

  wave(파형)는 frequency(빈도)와 amplitude(진폭)으로 이뤄진다. 

  초당 반복된 사이클 수를 Hertz(Hz)로 정의한다. 위 그래프의 경우 1초에 10번 사이클이 반복되므로

  10 Hz.

  이를 주파수라고 하며 고 주파수 즉, 높은 반복 수를 가진다면 높은 음이 나게 된다.

  한번의 사이클이 끝나는데 걸리는 시간을 period 라고 정의한다 

 

 2) Speech Sound Waves

  Speech sound는 시간에 따른 음압(air pressure)의 변화를 wave로 나타낸다

  밑에 그림은 [iy]를 발음할때의 wave(analog 파형), y축이 0인 것은 평시 기압.

 

음성 신호 처리의 시작은 analog signal > digital signal로 바꾸는 것 

이 과정은 2-steps으로 이뤄진다.

 

 1. sampling

    > signal의 특정시간대에 진폭을 측정하는 것을 통해 data를 샘플링한다.

    > 초당 샘플링 수를 sampling rate로 정의하는데, 최소 각 사이클 당 positive(max) & negative(min), 두개는 뽑아야 정확성을 보장할 수 있다(Nyquist Theorem) : max, min이 best지만 항상 가능한건 아니다.

    > 사람의 가청 주파수는 20~20000 Hertz 이므로 이 주파수의 두배인 4만개 sample이 필요하다.

    > bit deapth : y축, 즉 음압을 얼마나 잘게 segment 시킬지 

 

 2. quantization

    > 1번에서 뽑힌 amplitude measurements samples는 엄청난 양이므로 효율적으로 저장하는 것이 중요하다

    > 이를 위해 해당 data를 정수로 변환하는 작업이 quantiztioin이다. 이후 0과 1로 encoding

    > quantization이 끝나고 나면, sample rate, sample size, channels(stereo, 5.1돌비 채널..), 저장 유형등의 parameters를 가지고 저장이된다. 

    > 저장 유형은 linear PCM과 compression format(u-law)이 있다.

 

3. u-law algorithm

  > 사람이 잘 구분하는 부분은 조밀하게 encoding, 아닌 부분은 rough하게 encoding

  > sample data를 0~255의 integer로 mapping

 

 

> amplitude(진폭)이 크면 power가 크다

> log (power) 해주면 Intensity level : 소리의 크기!