Web Analytics Made Easy - Statcounter

Bouncing ideas 생각 작업실/lexical subclassing

lexical subclassing은 사실 '범주분류'와 '선택적(규칙)적용'의 두단계 학습

sleepy_wug 2022. 2. 8. 14:20

Moreton and Amano (1999)에 따르면 일본어에서는 같은 음향 신호가 있을때라도, 그것이 음소배열 상 '외래어 같은' 단어 속에 있으면 장모음으로 인식하고, 반대로 그것이 고유어나 한자어로 생각되는 단어 속에 있으면 단모음으로 인식한다.
(Moreton, E., & Amano, S. (1999). Phonotactics in the perception of Japanese vowel length: evidence for long-distance dependencies.)

 

한국어에서도 어떤 단어가 한자어처럼 보이면 ㄹ뒤에 나오는 치경음을 경음화하고 그렇지 않으면 경음화하지 않는다. (그리고 내 블로그에 적었든 다른 작용들도 층위 의존적인 것들이 있다.)

 

이 언어현상을 곰곰이 생각해보면 2가지 종류의 학습이 함께 영향을 미치는 것으로 보인다.

 

학습1. 층위에 대한 학습: 즉 지금 학습하고 있는 언어의 렉시콘이더라도 subclassing을 하는 것이다. 일본어나 한국어의 경우라면 한자어-고유어-외래어의 3분류가 될 것이고, 영어라면 Germanic vs Romance 로 나뉠 것이다. 어원에 따른 분류가 gold standard이지만, 앞서 많은 글에서 언급했듯이 어원은 학습이 불가능하기 때문에 어원이 아니라 음소배열에 따른 학습이 타당하다. default setting은 층위 없이 균등한 렉시콘이고, mixed model의 학습이 이루어지는 것.

 

학습2. 층위에 따른 선택적 적용 학습(co-phonology): 어떤 음운/형태적 작용이 있을 때, 그것을 어떤 층위에 적용하고 어떤 층위에 적용하지 않을 것인지에 대해 학습이 이루어질 것이다. 예를들어 한국어의 ㄹ-경음화. 한국어에서 /l/ 뒤에 나오는 모든 치경음을 경음화한다면 bold는 [볼~뽈] 로 발음되어야 할 것인데, 아무도 그렇게 발음하지 않는다. 반면 유사한 불도(佛道)는 반드시 [불]이다. 비단어라도 '볼도'는 [볼도]로 발음될 것을 예상하고, '불두'는 [불뚜]로 발음될 것을 예상한다.따라서 ㄹ-경음화는 층위 의존적으로 학습된다. 

 

Morita의 논문 1과 2에서와 같이 층위에 대한 음소배열학습은 HDP로 모델링이 가능하다. 그러니까 한국어에도 음소배열에 따라 비지도학습 분류가 가능하다라는 것을 보여주면 될 것 같다. (me too 논문의 양상??)

 

더 흥미로운 것은 층위에 따른 선택적 음운/형태 작용의 적용. 그것의 모델은 얼추 이럴 것이다.

 

첫째, 처음 한자어에서 ㄹ-경음화가 발생한다.

둘째, 다른 *한자어로 생각되는 어휘들*에도 ㄹ-경음화를 적용한다.

셋째, *한자어가 아닌 걸로 생각되는 어휘들*에는 ㄹ-경음화를 적용하지 않는다.

 

거칠게 말해서 음운화(phonologization)이 진행이 층위 바운더리에 막혀서 더 이상 진행되지 않는 것으로 보인다.

(근데, 진짜 뜬금없는 이야기지만, ㄹ-경음화는 비자연적음운작용(Unnatural phonological process)에 해당하는 것 같다. 아니, 김현 선생님 연구(링크) (링크2)에 따르면 장애음뒤경음화(POT) 까지도 unnatural process로 볼 여지가 있어보인다. Unnatural phonology에 대해서는 Beguš의 2018년 박사논문(링크)이나 James White가 연구하는 Saltation 관련 논문들을 볼 일이다. 2017년 Language 논문(링크) 등 )

 

(아래는 러프하게 메모했던 내용 그대로 가져와본다)

1. learning of subclassing  => machine learnable (unsupervised)

How to evaluate machine-learned subclasses?
  a. general shape e.g., ND??? as in Nam & Kim 2018 or Nam (2018)
  b. stratum-wise descriptions (word-initial fortis, certain phoneme not observed in a stratum, etc, etc)



2. learning of selective application by subclass => phonotactically distinguished classes. An "unnatural process" applies to one of the subclasses. preferably, evidence from empirical experiments? 
e.g., 
a. present with simple classes: (ab)ⁿ-generated Class A, and (aab)ⁿ-generated Class B.
b. and show an unnatural process P applies to  Class A only
c. nonce word test.

반응형