Web Analytics Made Easy - Statcounter

생각나는대로

[실험은 어려워] 7. 데이터를 수집하자

sleepy_wug 2024. 11. 15. 11:00
반응형


(지난이야기: 한국어 유음화 실험을 하게 되었다.['실험은어려워' 시리즈 보기])

 

홍보를 열심히 했는지 2일차부터 한 두명씩 데이터를 수집할 수 있게 되었다. 사실 실험을 위해 방음부스를 1주일 정도 정해진 시간(오후1시에서 5시) 빌렸는데, 실험 첫날에는 아무도 오지 않아서 하루를 그냥 날렸다. 둘째날 가장 처음 피실험자를 맞이했는데, 특별해서 아직도 기억난다. 대학교 2학년 여성이었는데, 불어불문학과 재학중이라고 했다.

 

실험설명을 하고, 동의서를 받고, 방음부스에 같이 들어가서 연습세션 해보고, 그 뒤엔 나는 방음부스를 나온다. 최대한 자연스럽게 데이터를 뽑아내기 위해서 방음부스에 피실험자를 가두는 홀로 두는 것이다. 눈치보지 말고 최대한 자연스럽게 할 수 있도록 도와주는 것일뿐더러, 실험 진행자(본인)에게는 다른 실험참가자와 연락할 수 있는 시간을 벌어다 주는 것이다.

 

한 사람으로부터 데이터를 뽑아내는 데 짧게는 30분, 길게는 50분정도 걸렸고, 그 시간을 원샷으로 다 하는 게 아니라 중간에 쉬는 시간이 두번정도 있었다. 대부분 쉬는 시간에 쉬지 않고 이어서 참여했다. 

 

데이터를 뽑아내는 과정 중에는 제대로 녹음이 되고 있는지 알 턱이 없었다. 유음화 실험했던 당시에는 녹음기에 SD카드를 넣고 음성파일이 그 SD카드에 저장이 되는 방식이었기 때문. 실험이 다 끝나고 SD카드를 뽑아내서 컴퓨터로 읽어야 비로소 수집한 데이터에 접근할 수 있었다. 여담으로, 얼마전까지 박사논문 프로젝트의 일환으로 진행했던 ㄹ경음화 실험에서는 녹음이 되는대로 자동으로 실시간 클라우드 연동되게 했기 때문에, 비록 완전히 실시간은 아니더라도 중간중간 확인할 수 있었다. 물론, 클라우드를 사용하게 되면 윤리심사 과정에서 더 복잡해진다. 녹음은 민감데이터이기 때문에 원칙적으로 데이터 유출(더 심각하게는 인공지능 학습)을 막기 위해 클라우드 사용을 금지한다.

 

아 그리고, 아직도 기억에 남는 그 피실험자가 있다. 20대 남성이었고, 학과는 기억이 나지 않는다. 그런데 이 사람은 방음부스에 들어가서 답답했는지 심심했는지, 책상을 두드리며 박자를 맞추면서 녹음을 했다. 

 

반응형

 

앞서 적었듯이, 녹음 퀄리티에 대해 내가 컨트롤할 수 있는 건 없다. 연습세션때 옆에서 직접 들으면서 "조금 크게 말씀해주세요", "조금 작게 말씀해주세요" 정도만 가능할 뿐이다. 일단 본 세션 녹음이 시작되고 나면, 방음부스 안에서 뭔짓을 하든지 내가 통제할 수 있는 건 없다.

 

이 피실험자가 녹음도중 규칙적으로 책상을 두드렸다는 사실은 음향분석을 하는 도중에야 깨달았다. 실험 진행자로서 데이터 퀄리티에 대해 내가 통제할 수 있는 건 녹음 진행중에도 없었고, 음향분석 과정에도 없었다.  

 

결국 이 사람로부터 수집한 데이터는 모두 파기할 수밖에 없었다.

 

또 다른 사례들도 있었다. 빨리 읽어도 좋으니 자연스럽게 읽어달라고 부탁을 했고, 실제 존재하는 단어를 가지고 연습했던 세션에서는 다들 아주 자연스럽게 읽었다. 그러나 본 세션에 들어가자, 방음부스 안에서 심심했던 건지, 노래를 부르듯 발음한 사람들도 있었고, 긴장한 것인지 한글자 한글자 또.박.또.박. 읽어주신 분들도 있었다. 실험의 목적은 음운규칙의 적용을 확인하는 것이었기 때문에 한음절 한음절씩 읽으면 규칙을 적용하나 안하나 알 길이 없다. 이런 사례들에 대해서는 예전에 한번 블로그 포스팅을 쓴 적도 있었다.

2024.04.02 - [Bouncing ideas 생각 작업실/exp sharing 경험.실험 나누기] - Never assume anything

 

Never assume anything

실험데이터를 기계에 넣고 다 돌려버리는 것과 별개로, human touch가 들어가는 것이 필요하다. 예상치도 못한 변수가 있을 수 있기 때문이고 그 부분에서 이름 걸고 연구하는 사람이 확인을 하고

linguisting.tistory.com

 

 

이 실험에서는 20명도 모으지 못했기 때문에 한명한명이 소중했다. 그래서 녹음 퀄리티가 좋지 않는 피실험자로부터도 최대한 많은 데이터를 건지려고 했는데, 이럴 땐 특정 피실험자가 녹음한 데이터 전체를 파기하는 게 옳은 방향이라고 했다.

 

실험을 하면서 경험치가 쌓이는가보다. 어쨌든 내가 유음화 실험을 하면서 깨달은 교훈이 두 개있다.

 

  1. 절대 피실험자를 방에 혼자두지 말 것: 같은 방안에 있으면서 "아 저는 그냥 가만히 있을테니 신경쓰지 마세요"해도 좋고, 방에 칸막이를 두고 칸막이 뒤에 있는 것도 효과적임. 
  2. 가능할 때 최대한 많이 진행할 것: 수집한 후 온갖 이유로 데이터를 많이 버릴 것이기 때문에, 무리를 해서라도 실험을 최대한 많이 해야한다. 

 

앞서 윤리심사받는 과정 포스팅하면서, 실험진행자의 자질/자격? 적어내는 부분이 있었다고 했는데, 아마도 이런 경험치를 얼마나 가지고 있는지를 확인하고자 하는 게 아닐까 생각한다.

 

어쨌든 데이터를 다 수집했다. 방음부스 대여 기간이 다 지났고, 그래서 더 수집하고 싶어도 수집할 수 없게 되었다. 

 

이제는 더 큰 산이 남았다. 바로 음향분석. 당시에 나는 Forced aligner를 몰랐고, PI도 그런 얘길 안해줬다. 그래서 Praat TextGrid 위에다가 음향분석할 시간대가 어디인지 일일이 다 마킹을 했었더랬다.

 


(실험은 어려워 시리즈 모아보기)

 

 

 


  • 글이 유익했다면 후원해주세요 (최소100원). 투네이션 || BuyMeACoffee (해외카드필요)
  • 아래 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
  • 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
  • 반박이나 오류 수정을 특히 환영합니다.
  • 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.

 

 

 

반응형