Muradoglu & Hulden (2023). Do transformer models do phonology like a linguist? In Findings of the Association for Computational Linguistics: ACL 2023, pages 8529–8537, Toronto, Canada. Association for Computational Linguistics.[논문링크]

아니 이 동네는 요즘 논문 제목에 물음표 달린 게 왤케 많음? Is Attention Interpretable? 그리고 더 최근엔 Can a phonetically-blind machine learn sublexical groups in Korean like us? 등등.. 이번 논문도 제목이 'Transformer model은 언어학자처럼 음운론을 할까요?'이다. 이건 뭐 수수께끼도 아니고.ㅋㅋㅋ
사실 이런 물음표의 사용은 다소 이해가 간다. 어떤 분야가 막 적극적으로 탐구되고 있고 부상하고 있고 연구자들이 막 호기심에 가득해서 그런가보다. 하도 궁금하다 못해 궁금증이 넘쳐서 논문 제목에까지 물음표가 달리는 현상.ㅋㅋㅋㅋㅋㅋ
논문이라는 매체 자체가 궁금한 걸 탐구한 과정 그리고 그 탐구의 결과를 소개하는 채널인데, 궁금하다 못해 넘쳐서 제목에 까지 물음표가 달리는 게 아닐까? (농담)
촘스키 30-40대 시절부터 음운규칙은 기호의 연쇄(sequence) ABCDEFG를 변형하여 다른 기호의 연쇄 ABCEEFG 로 체계적으로 바꾸는 것으로 모델링되어 왔다. 거칠게 연쇄-연쇄 변환 (sequence to sequence transformation)이라고 할 수 있다. 연쇄가 다른 연쇄가 되고 그 과정이 변환과정이니 그러하다. 지금도 변함없다.1 사실 그렇지 않은 게 상상되지도 않는다. 막 입력형이 꿈속에서 느낌적으로 어찌저찌되어서 출력형이 나온다 이렇게 주장할건가?ㅋㅋㅋ 아니면 선형적인 입력형을 상정하지 않고 '자 머리속에 강아지 이미지를 떠올려요. 그리고 떠오른 걸 말해봐요.' 이런ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 이건 유사과학.
하나의 sequence를 다른 sequence로 옮기려면 input에 대한 classification도 필요하고, 변환 알고리즘도 필요하고 그렇다. 기계학습의 도래 전부터 NLP에서 열심히 다루는 토픽들이다. 그러니 자연스레 음운론자들은 NLP 방법론을 가져와서 음운론을 해보고 싶은 것이다.
Muradoglu & Hulden (2023)은 음운론과 형태론에서 각종 신경망모델 쓰는 상황에서 신경망모델이 정말 음운론자와 비슷하게 언어데이터를 분석하는지 대답하려는 논문이다.
다소 메타적인데, 이 논문이 나온 맥락을 좀더 설명하자면 이렇게 말할 수 있다.
언어학이고 뭐고 실증적 연구는 '데이터'를 '분석'하여 '일반화'하고 '형식화' (이론화) 하는 걸 말한다. 형식화된 결과는 예측🤩이라는 걸 할 수 있다.
여긴 '언어학하고 있네'니까 언어 데이터 예를 들어보자.
막 영어 동사형들을 보니까 walk, walked, walks, ran, run, runs, sleeps, 막 이렇게 나오더라. 이 동사형들이 데이터다.
그리고 데이터를 놓고 아하! 주어가 3인칭단수이고 시제가 현재면 walks, runs, sleeps 가 출현하고, 1인칭이나 2인칭이면 walk, run 이런게 출현하고.... 이렇게 일반화한다. 형식화는 더 추상적으로 들어가서, '어간'(stem)이라는 개념과 활용(inflection) 개념을 써서 "주어가 3인칭 단수이고 시제가 현재일 때에는 동사 어간에 -(e)s를 붙인다" 이렇게 이론화한다.
그리고 이제 "주어가 3인칭 단수이고 시제가 현재일 때에는 동사 어간에 -(e)s를 붙인다" 라는 이론이 있으니 예측을 할 수 있다. 예를 들어 처음보는 동사 stoor 같은 걸 만나도 주어가 3인칭 단수 "He" 이러면 "He stoors" 라고 예측할 수 있는 것이다. 물론 예측은 틀릴 수 있다. stoor가 불규칙활용을 하는 동사일 가능성도 있으니까.
자 사람이 언어학을 하면 이런 과정으로 한다. 사실 우리는(언어학에서는) 언어를 습득하는 아이들도 이렇게 분석적으로 언어습득을 한다고 전제한다. 이 블로그 캐릭터이기도 한 wug test가 바로 이 전제의 근거 중 하나다.
그런데 사람이 언어학을 하는 과정에서 1인칭이니 2인칭이니 어간이니 활용이니 등등의 개념이 발생했다. 언어학자들은 문법용어를 써서 명명하지만, 언어학자가 아니라고 해서 1인칭과 2인칭을 구별하지 못한다고 말할 수 없다. 언어를 구사하는 사람이라면 언어학자가 아니더라도 직관적으로 구별한다. 자 이제, Muradoglu & Hulden (2023)이 제기하는 문제는 Transformer model도 사람처럼 그렇게 할까? 이다.
'기계가 사람처럼 언어학할까?' 라는 질문은 사실 Fry (2020) UBC dissertation에서도 제기된 바 있으니 아주 새로운 건 아니다. '기계가 사람처럼 생각할까?'라는 질문의 자매품이다. 일례로 '물리학적 프레임워크를 가지지 않는 기계학습은 어떻게 물리학할까?' 라는 연구도 있었다. (그 연구의 결과는 '기계는 물리학자랑 다르게 물리학을 하더라, 그리고 잘못 하더라' 였다. )
다시 Muradoglu & Hulden (2023)로 돌아와서, M&H는 이렇게 3가지 질문을 한다.
- 음운 규칙 중에 transformer model이 학습하기 더 쉽거나 어려운 게 있을까? (난이도 차이 여부)
- Transformer model은 분절음을 초월하는 중간 수준의 범주를 학습하고 범주에 규칙을 적용할까? (위에서 얘기한 것처럼 사람은 '개념'을 상정하는데, transformer model도 그렇게 하나?
- 단어 중간 단위를 학습하나? (특히 음절)
그 질문에 대답하기 위해 가상의 언어 데이터(입력-출력쌍) 여러 군집을 만들고 transformer model을 훈련한다. 이 데이터들 중 어떤 건 '유성음' '무성음' 같은 개념 (범주)이 있어야 정확한 inference를 할 수 있는 것들이고, 다른것들은 여러 규칙들의 중첩이고2 그래서 더 어렵다. 그리고 위 3가지 질문 상정에는 안 나왔는데, 서로서로 유사한 규칙A, B가 있을 때 A를 학습한 모델이 B를 더 쉽게 학습하나 뭐 이런 실험도 나온다.
[방법론과 실제 실험 부분 소개는 나중에 여기에 추가해 넣을 것이다.]
결론은 음운 규칙 중에 transformer에게 어려운 규칙은 딱히 없었고, 중간 개념 상정 하더라 정도였다. 즉, transformer model도 언어학자처럼 언어학하더라. 사실 약간 '어유 우리애는 가르치지 않아도 다 알더라고요'와 '하나를 가르치면 열을 알더라' 사이 느낌이다. 무슨 말이냐면, transformer model은 입출력쌍을 충분히 학습한다면 딱히 음절경계 그런거 상정하지 않고 또 뭐가 자음인지 뭐가 모음인지 그런거 안 알려주지 않아도 데이터로부터 그런 개념적/추상적 범주를 도출해서 그 범주를 기반으로 규칙을 적용할줄 알더라 이렇게 보고한다.
여기서부터는 다시 Muradoglu & Hulden (2023) 밖으로 나와서, 맥락...
그런데 자연언어에는 규칙이 선택적으로 적용되는 사례들이 있다. 이 블로그의 저자의 연구주제라 이 블로그에는 아예 그것만을 위해 마련된 카테고리도 있다. 물론 그 안에 있는 포스팅들은 재미가 없지만....
어쨌든! 이렇게 선택적인 규칙을 적용할 때에는 낄끼빠빠가 중요하다. 한국어에서는 ㄹ뒤에 경음화 해서 질소를 [질쏘], 불도를 [불또] 라고 발음하는데, 이걸 보고 노스텔지어도 [노스텔찌어] 라고 하지 않는다. 모국어화자는 낄끼빠빠가 된다.
Muradoglu & Hulden (2023)에 따르면 transformer 모델은 막 이것도 잘하고 저것도 잘하고 그렇다는데, 그럼 선택적 규칙 적용 낄끼빠빠도 잘할까?
Can a phonetically-blind machine learn sublexical groups in Korean like us? 에 따르면 transformer model은 낄끼빠빠가 안 된다. 낄 때 빠지고, 빠질 때 끼고, 하여튼 좀 독특한 친구다. 여담으로 영어로는 이런걸 to have a mind of its own. 이런식으로 표현한다. 물론 논문이나 발표슬라이드에 쓸 수 있는 막 고상한 표현은 아니라서 입말로만 한다ㅋㅋㅋ
- 글이 유익했다면 후원해주세요 (최소100원). 투네이션 || BuyMeACoffee (해외카드필요)
- 아래 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
- 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
- 반박이나 오류 수정을 특히 환영합니다.
- 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.
- Prickett (2021) UMass Amhert dissertation을 인용해야 할 지점인 것 같다. '자연어 음운론은 seq2seq로 모델링할 수 있다'라는 한 문장을 위해 200페이지의 잉크가 흘려졌다. [본문으로]
- 흔히 opacity라고 한다. 고전OT의 무덤이다. [본문으로]
'Bouncing ideas 생각 작업실 > 선행연구 보다가 갑자기' 카테고리의 다른 글
| Lupyan (2010) 언어사용자 수와 형태론적 복잡도가 역의 상관관계 (0) | 2025.10.06 |
|---|---|
| Byun (2025) 평음유성음화는 음운작용 (2) | 2025.09.26 |
| 김미령 (2025) 활음 이중모음 논문 훑어보기 (0) | 2025.07.02 |
| 일본어 무성연구개음의 깡총 비음화(Saltation) (0) | 2025.06.12 |
| 평음-격음이 VOT만으로 구분되던 시절? (2) | 2025.02.26 |