실험 단어군을 만들다가 실수한 걸 1년 반이 지나서야 깨달았다.
IPA로 전사된 한국어 명사들의 tri-gram probability를 학습하고 이에 따라 랜덤하게 가짜단어 (이하, 단어)를 만들어내서 실험단어로 썼었다. 실제 분석할 단어들 외에도 distractor라고 해서 실험의 목적을 들키지(?) 않기 위해서 분석 목적의 단어 외에도 하등 관련 없는 단어들을 생성했다.
distractor는 가짜단어들인데 분석목적 단어들이랑 일부러 음절구조가 같도록 만들었다.
가짜단어 생성은 IPA로 이루어졌지만, 한국인 화자를 대상으로 IPA를 보여주고 실험할 수가 없기에, 한글 철자로 이를 표현하였다.
바보같이 과거의 나는 수작업으로 '철자화'를 했다. 그리고 당연하게도 실수했다.
tɕʰ ɑ k tʰ ɑ m tɕ ʌ p 은 탁탄접이 아니라 착탐접이다.
tɕ i p tʰ ɑ m tɕʰ u ŋ도 침탐충이 아니라 집탐충이다.
tʰ ɯ k t ɑ k k ɑ m도 특탁감이 아니라 특닥감이다.
신기하게도 실수가 여기 다 몰려있다. 아마도 분석 목적 단어가 아니라 긴장을 안 했고, 솔직히 좀 졸린 상태에서 수작업으로 했나보다.
이걸 발견하게 된 것은, transformer model이 목표 단어 아닌 distractor에 대해서는 어떻게 inference했는지 attention weight 분석하려고 하다가 attention matrix가 발견되지 않은 걸 보고 알았다. 논문에는 이 단어들을 아예 분석을 안했기에 굳이 "이런 실수를 저질렀습니다"라고 적을 일이 없고, 그냥 여기에 적는다.
IPA를 한글로 옮기는 이런 일은 기계를 시켰어야 했다. 이런 일은 실수가 잦을 수밖에 없다. 솔직히 publish된 논문 중에서도 한글문장의 Yale표기나 IPA표기에 이런 자잘한 실수가 있는 경우가 왕왕 있다. 인간이기에 실수한다.
내가 만든 Hangul-to-IPA는 한글을 IPA로 전사를 하지만 그 반대로는 구현하지 않았었다.
Convert Korean orthography into IPA transcriptions
Use 'Hangul to IPA' with the interface below하단 인터페이스를 통해 'Hangul to IPA'를 이용해봐요 See [readme] for more information. Scroll down a bit, and you'll find a cool web interface that converts your '한글' input into IPA [hɑŋ
linguisting.tistory.com
엄청난 노력이 필요한 것도 아닌데, 한글로 재조립하는 프로그램을 짜서 철자형으로 만들 수는 없었을까? 여러모로 나는 수작업하지 말아야겠다.ㅋㅋ
- 글이 유익했다면 후원해주세요 (최소100원). 투네이션 || BuyMeACoffee (해외카드필요)
- 아래 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
- 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
- 반박이나 오류 수정을 특히 환영합니다.
- 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.
'Bouncing ideas 생각 작업실 > exp sharing 경험.실험 나누기' 카테고리의 다른 글
2020년대 말뭉치에서 졸리다 의 품사 (2) | 2025.05.11 |
---|---|
Twitter 대신 Bluesky 수집하기 (0) | 2025.04.26 |
Yale → 한글 (0) | 2024.12.24 |
깡통 노트북에 가벼운 LLM 올려서 계엄사태 대비하기 (12) | 2024.12.20 |
[jaɪks]: Just Another IPA Keyboard - Simplified (2) | 2024.11.30 |