Web Analytics Made Easy - Statcounter
반응형

Bouncing ideas 생각 작업실/lexical subclassing 19

다시 몰타어의 시간 Time for Maltese, again

한국어 챕터가 어느정도 정리되었다. 한국어는 층위가 어원에 따르지 않고 음소배열적으로 결정되고, 층위따른 선택적 규칙적용이 생산성 있다는 잠정결론. 이제 "어원"이라고 형태론한테 덤핑했던 팩터를 음운론으로 가져와야 한단 건 확실한데 그 형식이 고민이다. 예전 Ito and Mester나 그 논문에 따른 한국어 literature 중 층위별 음소배열제약서열 core-periphery 하던거를 전용(appropriation)할 수는 없을까? 아직 불확정이고, 결국 그 논의는 못할 가능성이 높다 (연구자의 지능이슈😿). 어쨌든 다시 몰타어의 시간이다.Mifsud, M. (1995). Loan verbs in Maltese: A descriptive and comparative study. Leiden, Th..

규칙과 예외의 전복

전복죽 만드는 재료 전복 아님. 뒤바뀜을 말하는 전복(顚覆). 나는 L-Tensification (ㄹ경음화)를 예외로 전제하고 모든 과정을 진행했는데, 처음 실험 디자인 할때부터 교수님이랑 미팅할 때 나온 이야기가 바로 "정말 예외가 맞을까?"였다. 선행연구를 정리해서 전반적인 그림을 그려놓고나니, ㄹ뒤에 경음화를 하지 않을 것이 일반상태이다(other things being equal, Tensification is not expected after /L/.) 라는 결론은 그저 자연부류와 형태론적 논증에서 나온 논리적인 추상에 불과했다. 실증적으로 정말 화자들의 언어가 그렇게 구성되어 있을지는 뚜껑을 까보기 전에는 모르는 것. Prescient하게도 (선구안적으로? 앞을 내다보는 각으로? 우리말로 뭐라..

transformer model attention weights 비교분석

목차 - 우당탕탕 이론언어학 연구자가 fairseq 입문한다- cross-attention 쉽게 접근하기- 신경망 이용한 음운론 연구 프로그램에서 이어지는 글입니다. 1. heatmap은 보기만 좋을 뿐Attention weights를 다 구하면 일단 아래와 같이 encoder-decoder cross attention weights 전체를, 각 layer와 각 head에 대해 heatmap으로 시각화할 수 있다.   위 그림은 의미가 없는 한국어 단어 "음월장"에 대하여 기계가 L-Tensification (ㄹ경음화)을 적용시켜 발음형을 "[음월짱]"이라고 도출해낸 이유를 설명하기 위한 heatmap이다. Output token 중 ㅉ에 해당하는 cc 부분을 보면, (c가 아니라) cc를 생성할 때 앞..

어종 관여 작용의 생산성(productivity) 실험 정리하기

만약 한국어 어종이 화석화되어서, 한자어든 고유어든 한 어종이 고착되어 있다면 그 고착된 어종에 관여된 음운작용은 생산적이지 않을 것이 예상된다. 비단어를 이용해서 시행한 음운작용의 생산성 실험결과를 드디어 정리하고 있다.  신경망학습의 결과는 비교적 선명하게 나왔다. 기계는 한 기반단어의 어종간 최소대립쌍 차이보다 랜덤하게 한국어 trigram에 충실하게 만든 비단어 간 랜덤한 차이에 더 민감했다. 왜 그런지를 attention weight matrix를 통해 보려고 하는데, 만만하지 않다. 한편 인간실험의 결과는 미묘하다. 모든 음성실험이 그렇듯 결과는 매우 회색이다. 음성학적 자료는 형태론적 자료보다 늘 '해석의 여지'가 크다. 원로 음운론 교수님이 학부 3학년 수업 하실 때 TA를 했었는데, 그때..

음운론 연구자가 Mac에서 fairseq 쓰려고 도전

0. 이 글은 무슨 글? 이 글은 이론 음운론 연구자가 음운론적 논증을 하기 위한 과정에서 fairseq에 입문하는 과정을 묘사한다. 이 글의 교훈을 간단히 요약하자면, fairseq 모델 train하는 건 Google colab에서 하는 게 더 빠르지만, training 끝난 모델을 이용하는 데에는 M3 base Macbook Pro가 충분하다는 것. 로컬로 training하는 것보다 Google colab에서 무료로 제공하는 T4 쓰는 게 더 빠르다. 주로 실패한 과정을 기록한다. 이렇게 실패한 기록을 하는 것은 다른 사람(e.g., 미래의 나)이 실패하지 않게 하기 위함이다. 배경이 되는 간단한 하드웨어 스펙을 적어놓고 시작한다. Macbook Pro 2023 / M3 (base model) / 1..

몰타어에 대한 접근과 관찰지점

0. 프리퀄 몰타어의 층위 구성에 대한 프로필은 여기 몰타어에 대한 역사적 개괄은 여기 1. Mifsud 1995 Mifsud 1995는 몰타어 외래어를 4가지로 분류한 박사논문이다. 한국어에서와 마찬가지로 몰타에서도 소위 '순혈주의' 언어관이 팽배한 것 같은데, 그런 측면에서 고유어화된 정도에 따라 외래어를 분류하는 것은 상당히 신선한 시도라고 (스스로) 자평한다. 어쨌든, 프리퀄에서 검토했듯, 몰타어에 들어온 유럽어 계열 외래어는 얼마나 오래전에 들어왔냐에 따라 형태론적 패턴이 다르다. 오래전에 들어온 외래어들은 아랍어와 유사한 패턴을 보이고, 최근에 들어온 외래어 (콜록 콜록) 영어 (콜록 콜록) 일수록 원어와 같이 접두사/접미사 붙이는 패턴을 따른다. 그런데 Mifsud 1995는 단순히 분류학적..

Maltese 역사 스케치

0. 요약 Maltese는 한국어와 비슷하게 층위언어다. 아랍어 계통을 기반으로 하고 그 위에 로망스어군 (시칠리아어, 이탈리아어)가 덧입혀지고 그 위에 영어가 덧붙여있다. 한국어에서 한자어가 가지는 지위가 Maltese에서는 로망스어군에 해당하고, 한국어에서 20세기 이후 외래어의 대부분이 영어로부터의 외래어인 것과 마찬가지로 Maltese에서도 20세기 이후 영어로부터의 차용이 절대적. 렉시콘에서 각 층위의 비율은 이글 참조 이 언어의 층위구조는 언어의 형성과정이 반영된 것으로 보인다. 즉, 기반언어가 먼저 있었고 이후 로망스 언어들이 사용되던 시기가 출현하였고, 20세기 이후 영어가 덧입혀진 것. 영어의 경우 영국의 영향과 이후 미국 패권 하에 링구아 프랑카로서의 영어가 공용어로 사용됨. 본 포스팅..

Maltese profile

1. 층위별 비율 어종 비율 (%) Semitic 32.41 Sicilian/Italian 54.46 English 6.12 비율 출처: Spagnol 2011에서 인용 (12쪽)↓ According to Brincat (1996, 2000, 2004), the etymological sources of Aquilina’s (1987-­1990) dictionary entries are distributed as follows: Semitic 32.41%, Siculo-Italian 52.46%, and English 6.12%. Local formations and items with obscure etymology make up the remaining percentage. Type vs. token..

인도 반도에서 쓰이는 언어들의 subclassing

1. 요약 인도 반도는 다양한 언어가 서로 영향을 주고받으며 발전했기 때문에 lexical subclassing이 일어날 가능성이 매우 높다. 따라서 그러한 현상이 나타날 법한 언어들의 프로필을 본 포스팅에 정리한다. 2. Rationale Lexical subclassing 측면에서 일본어 한국어 공히 고대 한자문화권에 속한다. 그래서 언어보편적인 subclassing 알고리즘을 논의하는 데 있어서 두 언어를 모두 보는 것은 별로 유효하지 않다. 사실 나는 베트남어를 볼까 생각했었다. 베트남어는 통사-형태론적 측면에서 한국어는 물론 중국어와도 다르고 또한 중국어 이외에도 프랑스 식민지배 시절을 거치면서 프랑스어의 영향도 받았기 때문이다. 그러나 베트남어와 한국어는 여전히 동아시아언어권에 속하기 때문에 ..

lexical subclassing 일단 쓰면서 생각하기.

현상적으로, 음운규칙의 선택적 적용 문제가 관찰됨. Schematically speaking, 언어 L에 속하는 음운형태적 환경이 동일한 단어 w1, w2이 있을 때, Grammar G의 일부인 특정 Phonological process P는 w1에만 적용되고 w2에는 적용되지 않는다. For example, 한국어의 층위 의존 작용들 그리고 다른 언어들에서의 사례(Michif 등)가 이 글의 하단부에 제시됨. 통상적으로 이것은 co-phonology, lexical strata, split-phonology 등으로 불렸음. SPE 이후 이 현상을 모델링하는 표준(?)적인 방식은 다음과 같음 (이 글의 첫 단락): Phonological process P에 대하여, morpheme μ 가 lexical ..

반응형