Web Analytics Made Easy - Statcounter

생각나는대로

[실험은 어려워] 8. 수집된 녹음을 분절하자

sleepy_wug 2024. 11. 17. 06:29
반응형

 

(지난이야기: 한국어 유음화 실험에서 한국어 화자들의 발화 녹음 데이터를 수집하였다. ['실험은어려워' 시리즈 보기])

 

단순히 한국어 화자들의 목소리를 녹음했다고 해서 모든 실험과정이 끝나는 것은 아니다. 방음부스 대여기간이 끝나고 이제 수집한 데이터를 분석할 시간이 되었지만, 각각의 피실험자들로부터 수집한 것은 5분에서 10분정도의 긴 wav 파일 3개. 한 명의 피실험자마다 세션 3개를 진행하였는데, 한 세션 동안 녹음이 끊임없이 이어져서, 긴 wav 파일 안에 단어 여러개 발화 데이터가 들어가있는 것이다.

 

문제가 있었던 피실험자들의 데이터는 아예 이 수준에서 파기해버렸고, 나머지 wav파일들에 대해서는 하나하나 Praat에서 직접 들으면서 어떤 stimulus를 발음한 것인지 textgrid에 태깅하였다. 즉, 5분에서 10분정도 길게 되어있는 wav 파일에 단어 수준의 태깅을 한 것이다. 그리고 praatscript를 돌려서 textgrid 기록에 따라 각각의 wav파일로 export했다.

 

나는 음성실험에 대해 전혀 몰라서 이런식으로 진행하였는데,[각주:1] 사실 psychopy 같은 툴을 이용하면 아예 실험 데이터 수집 단계에서 단어별 wav 파일로 정리할 수 있다. 음성실험은 정말 경험이 중요하다는 걸 깨달았던 순간이었음.

 

어쨌든 2초 3초 정도 길이의 단어 수준 wav 파일들로 정리된 후에, 각각의 파일에서 ㄴㄹ 연쇄 부분만 표시를 하였다. 이것 역시 하나하나 들어가면서 수작업으로 표기했다. 수작업으로 하는 게 굳이 나쁠 건 없는데, 지금은 왠만해서는 forced aligner를 사용한다. 일단 수작업 태깅은 귀찮고, 내가 음성학자가 아니라서 내가 태깅하는 원칙이 그닥 타당하지 않을 수도 있기 때문이다. 그럼에도 불구하고 forced aligner 안 쓰고 수작업으로 태깅을 할 것이라면 어떠한 원칙으로 태깅을 했는지를 확실히 명시해주는 것이 좋다. 내 경우, 모음 포먼트를 기준으로 하였다. 모든 실험단어가 VNLV 연쇄를 가지고 있었기 때문에 앞 모음 포먼트가 끝나는 부분을 ㄴㄹ연쇄의 시작으로 마킹했고, 뒷 모음의 포먼트가 시작되는 순간을 연쇄의 끝으로 보았다.

 

기계적으로 작업을 했기 때문에 소리를 들으면서 하지는 않았지만, 모음이 끝나는 지점이 애매할 때는 소리를 들으면서 태깅했다.

 

기저 ㄴㄹ 연쇄들의 실현 데이터를 모두 정리했으면 이제 CU Nasality Automeasure 알고리즘을 이용해 유음화가 일어났는지를 판단할 일만 남았다.

 

아래의 그림을 통해 예시하고자 한다. 이 그림은 윤리심사때 제출했던 그림 중 일부인데, 공개코퍼스인 '서울말 낭독체 발화 말뭉치'의 데이터 중 하나다.

 

"하늘나라"를 발화한 부분인데, L, N 으로 태깅되어 있는 부분이 바로 유음화 규칙 적용 가능 부분이다. 이 영역에서 시간차를 두고 알고리즘을 이용해 Nasality score를 측정한다. (아마 window 5개를 두고 측정했던 것 같다) Nasality score는 비음의 정도를 수치화하여 보여준다.

 

ㄴㄹ (혹은 ㄹㄴ) 연쇄가 실현되는 방식은 3가지인데 각각 유음화 비음화 그리고 규칙적용안함 정도일 것이다. 그리고 각각의 경우에, 측정된 Nasality의 양상이 다를 것이다.

규칙적용 Nasality
유음화 계속 낮음
비음화 계속 높음
규칙적용안함 변화함
(ㄴㄹ 라면 수치가 내려갈 것이고,
ㄹㄴ 라면 수치가 올라갈 것이다)

 



(실험은 어려워 시리즈 모아보기)

 

 

 

 


  • 글이 유익했다면 후원해주세요 (최소100원). 투네이션 || BuyMeACoffee (해외카드필요)
  • 아래 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
  • 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
  • 반박이나 오류 수정을 특히 환영합니다.
  • 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.

 

  1. PI도 "고생좀 해라"라는 심보였는지 전혀 도움을 주지 않았음 [본문으로]
반응형