Web Analytics Made Easy - Statcounter

Bouncing ideas 생각 작업실/lexical subclassing

다시 몰타어의 시간 Time for Maltese, again

sleepy_wug 2024. 12. 10. 01:27
반응형

한국어 챕터가 어느정도 정리되었다. 한국어는 층위가 어원에 따르지 않고 음소배열적으로 결정되고, 층위따른 선택적 규칙적용이 생산성 있다는 잠정결론. 이제 "어원"이라고 형태론한테 덤핑했던 팩터를 음운론으로 가져와야 한단 건 확실한데 그 형식이 고민이다. 예전 Ito and Mester나 그 논문에 따른 한국어 literature 중 층위별 음소배열제약서열 core-periphery 하던거를 전용(appropriation)할 수는 없을까? 아직 불확정이고, 결국 그 논의는 못할 가능성이 높다 (연구자의 지능이슈😿).

 

어쨌든 다시 몰타어의 시간이다.

Mifsud, M. (1995). Loan verbs in Maltese: A descriptive and comparative study. Leiden, The Netherlands: Brill.

 

Frisch, S. A., Pierrehumbert, J. B., & Broe, M. B. (2004). Similarity avoidance and the OCP. Natural Language & Linguistic Theory, 22(1), 179-228. doi:10.1023/B:NALA.0000005557.78535.3c

 

Mustafawi, E. (2011). The OCP as a synchronic constraint in Arabic. The Canadian Journal of Linguistics / La revue canadienne de linguistique, 56(2), 229-246. doi:10.1353/cjl.2011.0022

 

생각을 정리하기 위해 생각나는대로 쓴다.

 

태초에 Mifsud1995가 있었다. 몰타어에 차용된 동사들을, 형태론적 패턴에 따라 typology 나눴다. 모두 어원적으로는 차용어인데 어떤 동사들은 고유어(아랍어)랑 비슷하게 root-template의 non-concatenative pattern을 보이고, 어떤 동사들은 얼추 비슷하게 패턴하고 또 다른 동사들은 덜 소화된 것마냥 suffix 붙인다.

 

그리고 Frisch와 친구들2004이 나와서 "그거 혹시 OCP-Place랑 연관있는거 아닐까?" 했다. 이분들의 방법론은 시칠리아어의 OCP-place 효과 정도와 몰타어 차용어A (Mifsud가 말한 '가장 아랍어화된 차용어들) 그룹의 OCP-place효과 정도를 비교한 것이었다. 그런데 아마도 방법론적 한계때문인지, 시칠리아어 population의 OCP효과 구하고 몰타어 차용어A의 OCP효과를 따로 구하고 "봐봐 몰타어 차용어A군의 OCP-place효과가 크잖아. 그니까 OCP-Place 효과 따라서 차용된거야" 라고 한다. 

 

마치 현대 한국어의 한자어 층위를 연구한답시고 현대 중국어와 비교한 꼴이라고 생각이 들었음.

 

내 thesis의 시작이 바로 이 지점이었다. 정말 OCP효과 맞나? 

 

그러나 내 주제가 차츰 '층위는 어원이 아니라 음소배열로 결정'으로 전환되면서, 몰타어 동사 데이터도 "어원 vs 음소배열, 누가누가 더 패턴 잘 설명하나" 경연대회가 되었다. (한국어 명사 데이터 갖고 했던 "어원 vs 음소배열, 누가누가 ㄹ경음화 더 잘 설명하나" 경연대회의 연장선)

 

Wiktionary에 있는 몰타어 동사들을 Transformer 모델을 통해 훈련했다. Mifsud는 외래어라는 어원 레이블을 절대적으로 받아들이고 그 안에서 패턴차이가 난다는 걸 '발견'했지만, 나는 철저히 패턴만 가지고 "외래어처럼", "아랍어처럼" 이렇게 gold standard를 정하고 훈련을 했다. 

 

구체적으론 동사 base form과 파생형을 비교했을 때 어떤건 외래어처럼 접사가 붙고 다른건 아랍어처럼 non-concatenative pattern 보이는데, 나는 인간이니까 파생형 보고 "외래어처럼", "아랍어처럼" 이런식으로 정답지를 작성한다. 그리고 기계한테 base form만 보고 그게 "외래어처럼"인지 "아랍어처럼"인지 맞춰야 한다. 기계는 인간이 아니니까 파생형 안보여준다. base form만 보고 맞춰야 한다.

 

😲: (base form만 보여주며) 오빠 나 뭐 바뀐 거 없어? 
🤖: ??????

 

오빠 나 뭐 바뀐 거 없어? 맞춰봐! 오빠 나 뭐 바뀐 거 없어? 맞춰봐! 오빠 나 뭐 바뀐 거 없어? 맞춰봐! 이거 여러번하면 결국엔 오빠도 맞출 수 있게 된다. 어디를 집중해서 봐야 하는지 학습하기 때문이다. 

 

마찬가지로, transformer model도 어느정도 정확하게 맞출 수 있게 된다. 이때 model이 어떻게 "외래어처럼", "아랍어처럼"을 예측하는지를 보는 게 관건이다. 사람처럼 transformer model도 "어디를 집중해서 봐야 하는지"를 학습한다. 그래서 attention 어디에 주나를 보고, 그걸 통해 그 부분이 아랍어처럼/외래어처럼 패턴보이게 하는 중요 요인이구나 하고 결론내리는 것이다.

 

 

야속하게도 자음들에만 관심을 주진 않는 듯하다. OCP-place 효과를 직접적으로 파악하긴 어렵다.

 

대신 positional distribution에 대한 관심은 있다. 어두, 어말에 나오는 분절음에 관심 많이 주고, 특정 분절음에는 더 많이 관심가진다. 

 

이건 "아랍어처럼 행동할 단어"라는 결론을 내릴 때 model이 각 분절음에 얼마나 관심 가졌는지다. 예를들어 모음 중 e가 출현하면 "오 e가 있다고?" 하고 관심갖고 결국 아랍어로 분류. n은 나오던 말던 관심이 없다. 층위 결정에 중요하지 않다고 생각하기 때문.

 

 

한편 아래는 외래어 패턴 보일 것으로 분류할 때 model이 어느 분절음에 관심 가졌는지다. "e"에 대한 관심이 낮다. 대신 "a"는 압도적이다. 마찬가지로 n에는 관심이 없다. 따라서 단어가 n을 가지는지 안가지는지는 층위결정에 영향을 안 주지만 a모음이 있는지, e모음이 있는지는 중요 요인이다. 

 

안타깝게도 자음에는 관심이 없어서 원래 내 목표였던 OCP-Place 효과 검증에는 부적합하다. 애초에 몰타어 모델 훈련에 들어간 단어들을 보면 OCP-Place 검증할만큼 모음 쌍이 풍부하지 않다. 

 

그래서 별개로 비단어 실험을 돌릴 예정이다. 훈련된 모델한테 가짜단어들을 던져주고 이 단어가 아랍어처럼 파생할지 외래어처럼 파생할지를 물어보는 것이다. 실제로 바뀐 게 있는지 없는지 모르면서 "오빠 나 어디 바뀐 거 없어?" 물어보는 것.

 

이때 가짜단어에 OCP-Place 효과 있는 단어와 없는 단어를 막 섞는다. 만약 OCP-Place 직격탄 맞은 단어가 아랍어처럼 행동하면, 간접적 증거로 삼는다. 

 

일단 OCP-Place가 화석화되지는 않은 게 확실하다고 전제한다(Mustafawi 2011). 그렇다면 OCP-Place에 따라 패턴이 결정될 것이다. 

 

가장 좋은 시나리오는 자음에 관심 덜 주고 그냥 쓰윽 보고도 "아 자음 OCP-Place 위반하네. 너 외래어" 이래버릴 수 있다는 것이다. 만약 이렇다면 정말 놀라운 결과일 것이다. 왜냐면 나는 모델에게 place feature를 가르친 적이 없기 때문이다.

 

 

 


  • 글이 유익했다면 후원해주세요 (최소100원). 투네이션 || BuyMeACoffee (해외카드필요)
  • 아래 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
  • 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
  • 반박이나 오류 수정을 특히 환영합니다.
  • 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.

 

 

 

 

반응형