Web Analytics Made Easy - Statcounter

용어집

음파-스펙트럼-스펙트로그램 (직관적 이해)

sleepy_wug 2025. 8. 20. 03:24

0. 요약 

스펙트로그램(spectrogram)이 뭔지 학부생들에게 직관적 개념을 주기 위해 사용했던 자료를 공유합니다. 음파-스펙트럼(스펙트라)-스펙트로그램으로 이어지는 추출과정을 보여줍니다.

스펙트로그램이 뭔지, 음향음성학적 분석에서 스펙트로그램이 어떻게 사용되는지는 다른분의 수업자료(슬라이드)에 더 잘 설명되어 있어서 그것을 공유합니다. [링크]

또한 제가 구독하는 김아다만티움 님의 '저는 딥러닝을 모릅니다' 블로그에도 관련 포스팅이 있습니다. [링크]

 

Module 2 - Spectrogram

Courses Speech Processing Module 2 – Acoustics of Consonants and Vowels Videos Spectrogram https://speech.zone/courses/speech-processing/module-2-acoustics-of-consonants-and-vowels/videos-2/spectrogram/ Spectrogram speech.zone 이전 시간에 소리(sou

beammeup1229.tistory.com

 

 

 

목차

     

    1. 음파 → 단순파 여러개

    음성학에서 분석하는 말소리는 '음파'(waveform)에서 시작합니다. 음파는 '성'의 '도'라고 생각하면 됩니다. (실제 수업에서 사용한 표현임.ㅋㅋㅋ 'wave'를 바다에 있는 파도에 비유) 위 그림에서 좌상단이 있는 게 음파입니다.

     

    음파는 이렇게 포착됩니다: 말소리는 공기 압력 변화의 아날로그 신호입니다. 이 공기 압력 변화가 인간의 고막을 진동시키면 그것을 소리로 받아들입니다. 마이크의 트랜스듀서(transducer)가 인간의 고막에 해당합니다. 공기 압력 변화를 고막이 감지하듯 트랜스듀서도 공기압력 변화를 감지하여 디지털적으로 표상합니다. 이렇게 디지털적으로 표상된 말소리는 음파는 위 그림의 좌상단과 같습니다.

     

    음파 그래프의 x축에는 시간, y축에는 소리의 크기(intensity)가 있습니다.

     

    음파는 다양한 단순파(sine wave)의 구성으로 분석됩니다. 음파로부터 여러개의 단순파를 뽑아내는 과정을 '푸리에변환'(Fourier transform)이라고 하는데 푸리에변환은 praat 등 컴퓨터 프로그램에 내장되어서 자동으로 이루어집니다. 푸리에변환이 궁금하다면 아래 영상을 추천합니다. 그러나 음운론을 위한 기초적인 음향음성학을 위해서는 푸리에 변환의 디테일은 몰라도 괜찮습니다.

     

     

     

     

    푸리에변환을 거치면 음파가 어떤 단순파로 구성되어 있는지 알 수 있습니다. 이 섹션 처음에 있는 그림을 다시 가져오자면...

     

     

    우측 하단에 푸리에분석을 거쳐 음파가 3개의 단순파로 분석된 것을 볼 수 있습니다. 250Hz 단순파, 2700Hz 단순파, 그리고 3500Hz 단순파 이렇게 3개입니다. 250Hz는 똑같은 주기(period)가 1초당 몇 번 반복되느냐입니다. 250Hz는 똑같은 주기가 250번 반복되고, 2700Hz는 똑같은 주기가 2700번 반복되는 것 등입니다.

    단순파의 그래프에서도 x축은 시간, y축은 소리의 크기(intensity)입니다. 

     

    2. 구성 단순파의 정보 압축: 스펙트럼

     

    그런데 문제는 음파를 구성하는 단순파 여러개를 한 눈에 뙇 보고 싶다는 겁니다. 저렇게 단순파 그래프들 여러개를 나열하면 직관적이지 않습니다. 단순파가 3개일 때는 보기 쉬울지 몰라도 수십개의 단순파 그래프가 위아래로 나열되어있다면 이해하기 힘들 것입니다. 그래서 단순파들의 집합을 압축해서 하나의 그래프로 표현한 것이 스펙트럼(spectrum)입니다. 스펙트럼의 복수형이 스펙트라(spectra)입니다.

     

    위 그림에서 보면 좌상단에 단순파 3개가 각각 그래프로 표상되어 있고, 그것으로부터 우하단에 스펙트럼 하나가 표시되어 있습니다. 보기 편하라고 단순파 3개만 표시되어 있지만, 실제로 스펙트럼으로 압축되는 단순파 그래프는 수백개 수천개에 이릅니다. 우측 하단 그래프에는 세로 직선이 엄청 많이 그어져 있는데 (마구 색칠한 거 아닙니다. 각각의 세로직선입니다), 그 세로 직선 하나 하나가 단순파의 좌상단의 단순파 그래프에 해당합니다. 

     

    스펙트럼을 보면 어떤 한 순간의 단순파 구성이 어떻게 되는지 쉽게 알 수 있습니다. 스펙트럼 그래프 상의 세로 직선 하나는 해당 주파수 단순파의 크기를 나타냅니다. 예를 들어 750Hz 정도의 주파수를 갖는 단순파는 크기가 큽니다. 2000Hz 주파수를 갖는 단순파는 크기가 작습니다. 스펙트럼 그래프의 x축은 Hz, y축은 크기(intensity)입니다.

     

    3. 스펙트럼 + 시간정보 = 스펙트로그램

    스펙트럼을 그렸더니 음파를 구성하는 단순파들 사이에 어떤 단순파가 크고 어떤 단순파가 작은지 알 수 있게 되었습니다. 그런데 문제가 생겼습니다. 시간정보를 잃어버렸습니다. 스펙트럼은 단순파의 주파수(x축) 그리고 해당 단순파의 크기(y축) 정보는 있지만, 어느 한 순간의 단순파 구성만 표상하기 때문에 시간 경과에 따라 단순파 구성이 어떻게 바뀌는지는 알 수 없습니다. 시간 정보는 음운론에서 아주 중요합니다. 그래서 시간 정보는 꼭 있어야 합니다.

     

    그래서 매 순간의 스펙트럼을 뽑아낸 다음 그걸 시간순으로 나열하기로 했습니다. 셔터 스피드를 빨리해서 연속사진을 여러장 찍은 다음에 순서대로 나열하는 것을 생각하면 좋습니다.

     

    이렇게 스펙트럼을 여러장(?) 시간순서로 쫙 나열해서 표상하는 것을 스펙트로그램이라고 합니다. 

    위 그림에 보면 좌상단의 스펙트럼 1장이 있고, 그걸 여러장 겹치면 우측 하단과 같이 스펙트로그램이 됩니다. 

     

    우하단 그래프는 시간이 z축, 주파수(Hz)가 x축, 소리의 세기(indensity)가 y축인 것처럼 보입니다. 그런데 우리가 praat에서 보는 스펙트로그램은 저런 모습을 하고 있지 않습니다. 통상적인 스펙트로그램은 x축이 시간(s), y축이 주파수(Hz)를 나타냅니다. 즉, 위 그림에서 우하단의 그림을 3차원적으로 돌린 모습인 것입니다.

     

    아래 동영상을 보면 개념을 다소 쉽게 이해할 수 있을지도 모릅니다.

    https://youtu.be/bdr_XKUon2M

     

    편의상 아주 안정적으로 모음을 발화했다고 합시다. (모든 순간에 스펙트럼 동일, 즉 구성 단순파가 동일)

    위에서 언급했다시피 스펙트럼은 x축이 Hz입니다. 그걸 싹 돌려서 y축에 Hz가 오도록 했습니다. 그리고 약 10ms마다 추출해서 스펙트럼을 만듭니다. 구성 단순파가 동일하므로 똑같은 스펙트럼이 나옵니다. 그리고 왼쪽에서 오른쪽으로 쭉쭉 이어붙입니다. 이렇게 하면 x축은 시간이 됩니다. 왼쪽에서 오른쪽으로 갈수록 나중에 만들어진 스펙트럼이 있습니다.

    이렇게 스펙트럼을 다 이어붙이고 보면, '튀어나온' 부분과 '들어간' 부분이 분명히 보입니다. 튀어나온 부분은 색이 진하고 들어간 부분은 색인 연합니다.

     

    아래 그림은 실제 praat에서 볼 수 있는 스펙트럼의 예시입니다.

    상단 절반에는 음파가, 하단 절반에는 스펙트로그램이 나와있습니다. 검은색 벨트가 좌우로 쫙 보이는 게 스펙트로그램입니다. 앞서 설명한 것처럼 x축에는 시간, y축에는 주파수(hz), 그리고 어떤 주파수의 단순파가 크기가 크냐는 스펙트로그램 상의 색깔로 표시됩니다.

     

     

     

     


    이어서 어떤 글을 읽을 건가요?

     

     

    갑자기 praat으로 모음 분석

    0. 요약 드라마에서 남주가 핸드폰 앱을 이용해서 즉석에서 여성의 모음 분석을 해주는데, 우리도 따라해봅시다. 남주는 크기(dB)랑 음높이(pitch, Hz)만 분석하는데, 우리는 praat을 이용해서 포먼트

    linguisting.tistory.com

     

     


    • 글이 유익했다면 후원해주세요 (최소100원). 투네이션 || BuyMeACoffee (해외카드필요)
    • 아래 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
    • 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
    • 반박이나 오류 수정을 특히 환영합니다.
    • 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.

     

     

     

    '용어집' 카테고리의 다른 글

    변별자질  (4) 2025.08.12
    말소리의 음운론적 관계  (0) 2025.08.10
    이론 음운론  (0) 2024.03.04
    채록 elicitation  (2) 2024.02.09
    P-side 와 S-side  (3) 2024.02.07