만약 한국어 어종이 화석화되어서, 한자어든 고유어든 한 어종이 고착되어 있다면 그 고착된 어종에 관여된 음운작용은 생산적이지 않을 것이 예상된다.
비단어를 이용해서 시행한 음운작용의 생산성 실험결과를 드디어 정리하고 있다.
신경망학습의 결과는 비교적 선명하게 나왔다. 기계는 한 기반단어의 어종간 최소대립쌍 차이보다 랜덤하게 한국어 trigram에 충실하게 만든 비단어 간 랜덤한 차이에 더 민감했다. 왜 그런지를 attention weight matrix를 통해 보려고 하는데, 만만하지 않다.
한편 인간실험의 결과는 미묘하다. 모든 음성실험이 그렇듯 결과는 매우 회색이다. 음성학적 자료는 형태론적 자료보다 늘 '해석의 여지'가 크다. 원로 음운론 교수님이 학부 3학년 수업 하실 때 TA를 했었는데, 그때 교수님이 하셨던 말씀이 생각난다. 음성학적 결과는 다만 논증을 위한 '추가정보'일 뿐이고, 정보가 더해지는 건 좋지만 문제는 잡음도 더해진다는 것.
애초에 실험 디자인할 때, 어종에 관한 선행연구가 보고하는, 어종을 특징짓는 일반화를 이용해서 실험비단어를 구성했는데, 문제는 선행연구에서 기반을 두고 있는 "어원에 기반한 어종 개념" 자체가 내가 도전하는 테제라는 것이다. 애초에 원어민 직관에서 어종이 어원에 기존하지 않는다면, 실제 원어민의 어종구분은 선행연구에서 상정한 어원기반 어종과 다소 다를 것이다.
결국 내가 원하는 것은, 나는 선행연구가 보고한 일반화를 비단어 생성기제로 사용하되, 이 비단어를 통한 실험이 선행연구의 일반화를 기각한다는 걸 보여주는 것이다. "봐라 선행연구가 상정한 '어종'이 맞으면 실험이 성공해야 하는데 틀렸지 않냐. '어종'은 그렇게(어원적으로) 상정될 수 없기 때문이다" 라는 결론이다. 뉘앙스를 전달하는 게 관건이다.
오늘 미팅에서 지도교수님은 이 지점을 조금 걱정하시는 듯했다. 아마도 선행연구에 따라주면 가장 안전하고 논증도 쉬울 것이기 때문에. 난 이렇게 대답했다. "이건 선행연구에게 bad news죠. 전 어떻게 되든 좋아요. 다만 기계랑 인간이랑 결과가 같은 패턴이면 됩니다."
하지만 내가 아무리 확신을 가져도 데이터가 서포트해주지 않으면 여전히 "망상"이지 이론이 아니다. 그래서 인간 실험결과를 어떻게든 범주적으로 해석해내야 한다. 실험결과의 소숫점 자리들이 점점 토나올 것 같고 어서 n-level categories로 레이블링하고 싶은 걸 보니 난 음운론자로구나 싶다.
- 글이 유익하셨다면 후원해주세요. Toss (국내결제) || BuyMeACoffee(해외결제카드필요)
- 아래에 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
- 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
- 반박이나 오류 수정을 특히 환영합니다.
- 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.
'Bouncing ideas 생각 작업실 > lexical subclassing' 카테고리의 다른 글
규칙과 예외의 전복 (0) | 2024.09.23 |
---|---|
transformer model attention weights 비교분석 (0) | 2024.06.14 |
음운론 연구자가 Mac에서 fairseq 쓰려고 도전 (2) | 2023.12.11 |
몰타어에 대한 접근과 관찰지점 (0) | 2023.02.09 |
Maltese 역사 스케치 (0) | 2023.02.08 |