Web Analytics Made Easy - Statcounter
반응형

Bouncing ideas 생각 작업실/lexical subclassing 15

음운론 연구자가 Mac에서 fairseq 쓰려고 도전

0. 이 글은 무슨 글? 이 글은 이론 음운론 연구자가 음운론적 논증을 하기 위한 과정에서 fairseq에 입문하는 과정을 묘사한다. 이 글의 교훈을 간단히 요약하자면, fairseq 모델 train하는 건 Google colab에서 하는 게 더 빠르지만, training 끝난 모델을 이용하는 데에는 M3 base Macbook Pro가 충분하다는 것. 로컬로 training하는 것보다 Google colab에서 무료로 제공하는 T4 쓰는 게 더 빠르다. 주로 실패한 과정을 기록한다. 이렇게 실패한 기록을 하는 것은 다른 사람(e.g., 미래의 나)이 실패하지 않게 하기 위함이다. 배경이 되는 간단한 하드웨어 스펙을 적어놓고 시작한다. Macbook Pro 2023 / M3 (base model) / 1..

몰타어에 대한 접근과 관찰지점

0. 프리퀄 몰타어의 층위 구성에 대한 프로필은 여기 몰타어에 대한 역사적 개괄은 여기 1. Mifsud 1995 Mifsud 1995는 몰타어 외래어를 4가지로 분류한 박사논문이다. 한국어에서와 마찬가지로 몰타에서도 소위 '순혈주의' 언어관이 팽배한 것 같은데, 그런 측면에서 고유어화된 정도에 따라 외래어를 분류하는 것은 상당히 신선한 시도라고 (스스로) 자평한다. 어쨌든, 프리퀄에서 검토했듯, 몰타어에 들어온 유럽어 계열 외래어는 얼마나 오래전에 들어왔냐에 따라 형태론적 패턴이 다르다. 오래전에 들어온 외래어들은 아랍어와 유사한 패턴을 보이고, 최근에 들어온 외래어 (콜록 콜록) 영어 (콜록 콜록) 일수록 원어와 같이 접두사/접미사 붙이는 패턴을 따른다. 그런데 Mifsud 1995는 단순히 분류학적..

Maltese 역사 스케치

0. 요약 Maltese는 한국어와 비슷하게 층위언어다. 아랍어 계통을 기반으로 하고 그 위에 로망스어군 (시칠리아어, 이탈리아어)가 덧입혀지고 그 위에 영어가 덧붙여있다. 한국어에서 한자어가 가지는 지위가 Maltese에서는 로망스어군에 해당하고, 한국어에서 20세기 이후 외래어의 대부분이 영어로부터의 외래어인 것과 마찬가지로 Maltese에서도 20세기 이후 영어로부터의 차용이 절대적. 렉시콘에서 각 층위의 비율은 이글 참조 이 언어의 층위구조는 언어의 형성과정이 반영된 것으로 보인다. 즉, 기반언어가 먼저 있었고 이후 로망스 언어들이 사용되던 시기가 출현하였고, 20세기 이후 영어가 덧입혀진 것. 영어의 경우 영국의 영향과 이후 미국 패권 하에 링구아 프랑카로서의 영어가 공용어로 사용됨. 본 포스팅..

Maltese profile

1. 층위별 비율 어종 비율 (%) Semitic 32.41 Sicilian/Italian 54.46 English 6.12 비율 출처: Spagnol 2011에서 인용 (12쪽)↓ According to Brincat (1996, 2000, 2004), the etymological sources of Aquilina’s (1987-­1990) dictionary entries are distributed as follows: Semitic 32.41%, Siculo-Italian 52.46%, and English 6.12%. Local formations and items with obscure etymology make up the remaining percentage. Type vs. token..

인도 반도에서 쓰이는 언어들의 subclassing

1. 요약 인도 반도는 다양한 언어가 서로 영향을 주고받으며 발전했기 때문에 lexical subclassing이 일어날 가능성이 매우 높다. 따라서 그러한 현상이 나타날 법한 언어들의 프로필을 본 포스팅에 정리한다. 2. Rationale Lexical subclassing 측면에서 일본어 한국어 공히 고대 한자문화권에 속한다. 그래서 언어보편적인 subclassing 알고리즘을 논의하는 데 있어서 두 언어를 모두 보는 것은 별로 유효하지 않다. 사실 나는 베트남어를 볼까 생각했었다. 베트남어는 통사-형태론적 측면에서 한국어는 물론 중국어와도 다르고 또한 중국어 이외에도 프랑스 식민지배 시절을 거치면서 프랑스어의 영향도 받았기 때문이다. 그러나 베트남어와 한국어는 여전히 동아시아언어권에 속하기 때문에 ..

lexical subclassing 일단 쓰면서 생각하기.

현상적으로, 음운규칙의 선택적 적용 문제가 관찰됨. Schematically speaking, 언어 L에 속하는 음운형태적 환경이 동일한 단어 w1, w2이 있을 때, Grammar G의 일부인 특정 Phonological process P는 w1에만 적용되고 w2에는 적용되지 않는다. For example, 한국어의 층위 의존 작용들 그리고 다른 언어들에서의 사례(Michif 등)가 이 글의 하단부에 제시됨. 통상적으로 이것은 co-phonology, lexical strata, split-phonology 등으로 불렸음. SPE 이후 이 현상을 모델링하는 표준(?)적인 방식은 다음과 같음 (이 글의 첫 단락): Phonological process P에 대하여, morpheme μ 가 lexical ..

Different contrastiveness by strata?

인식되는 층위에 따라 절대적 음향정보(모음지속시간)이 다른 모음길이로 인식된다. (Moreton and Amano 1999) 왜 일본어에서는 층위에 따라 모음길이 인식 차이가 나타나지? → 기존 층위가 activate되고 난 후, 그 층위라면 기대될 모음길이. (조건부확률) 한국어에서도 층위에 따라 contrastiveness가 다른 사례가 존재하나? 그렇다면 실험을 할 수 있을 것이다.

음운이웃의 층위효과?

실증적으로 음운이웃개수가 어원적 층위에 따라 다르다 (Nam 2018). 그런데 어떠한 방식으로든 하위분류를 한다면 하위분류별로 음운이웃 개수는 다를 가능성이 높다. 지금 나에게는 소규모 어휘로 기계학습한 층위 (이하 subclass) 데이터가 있다. 이 subclass들은 어원적 층위와는 다르다. 그렇다면 subclass별로 음운이웃 개수를 구해서 음운이웃효과가 관측되는지 알 수 있지 않을까? 이것은 실험이 가능할지도 모른다. 왜냐하면, 이웃 많으면 retrieve 느리고 이웃 적으면 retrieve 빠르다. (이논문) (이 논문과 여기에 인용된 논문들) (참고로 그 유명한 Neighbourhood Activation Model은 perception에 관한 모델이다.) 이 관찰에 의존하여 다음과 같은 ..

subclassing 학습 2 어떻게 평가할 것인가

Subclassing에 대해서는 여기 저기 참고 subclassing이 가능하게 만드는 학습 2가지 학습으로 나누는 것에 대해서는 여기 참고 Artificial grammar learning experiment를 이용해서 층위 한정된 음운 작용의 학습이 가능하다고 말할 것이다. Artificial grammar learning experiments Coetzee 2009 Learning lexical indexation 논문에 나온 실험방법 James White의 2017년 논문에 나온 Saltation 실험방법, 그리고 Begus의 2019년 논문에 나온 실험방법 (p15부터) 참고할 수 있지 않을까?

lexical subclassing은 사실 '범주분류'와 '선택적(규칙)적용'의 두단계 학습

Moreton and Amano (1999)에 따르면 일본어에서는 같은 음향 신호가 있을때라도, 그것이 음소배열 상 '외래어 같은' 단어 속에 있으면 장모음으로 인식하고, 반대로 그것이 고유어나 한자어로 생각되는 단어 속에 있으면 단모음으로 인식한다. (Moreton, E., & Amano, S. (1999). Phonotactics in the perception of Japanese vowel length: evidence for long-distance dependencies.) 한국어에서도 어떤 단어가 한자어처럼 보이면 ㄹ뒤에 나오는 치경음을 경음화하고 그렇지 않으면 경음화하지 않는다. (그리고 내 블로그에 적었든 다른 작용들도 층위 의존적인 것들이 있다.) 이 언어현상을 곰곰이 생각해보면 2가지..

반응형