Web Analytics Made Easy - Statcounter

Bouncing ideas 생각 작업실/lexical subclassing

음운이웃의 층위효과?

sleepy_wug 2022. 5. 10. 07:28

실증적으로 음운이웃개수가 어원적 층위에 따라 다르다 (Nam 2018). 그런데 어떠한 방식으로든 하위분류를 한다면 하위분류별로 음운이웃 개수는 다를 가능성이 높다.

지금 나에게는 소규모 어휘로 기계학습한 층위 (이하 subclass) 데이터가 있다. 이 subclass들은 어원적 층위와는 다르다. 그렇다면 subclass별로 음운이웃 개수를 구해서 음운이웃효과가 관측되는지 알 수 있지 않을까?

이것은 실험이 가능할지도 모른다. 왜냐하면,

이웃 많으면 retrieve 느리고 이웃 적으면 retrieve 빠르다. (이논문) (이 논문과 여기에 인용된 논문들) (참고로 그 유명한 Neighbourhood Activation Model은 perception에 관한 모델이다.)

이 관찰에 의존하여 다음과 같은 통계적 검증을 할 수 있을 것이다.

 

독립변인: Seoul Corpus (링크) 에서 단어별 speech rate.

종속변인: 각 단어별로 1. subclass 내 이웃개수, 2. lexicon 단위 이웃개수 3. 기타 factors (예: 어휘빈도 etc) 

 

각 종속변인의 효과 크기를 볼 수 있다면 lexicon이 단일하지 않고 분열되어있다는 결론을 낼 수 있지 않을까?

 

그러나 언제나 그러하듯이 문제는 층위 간 동음이의어이다. 

마지막으로, 아래는 처음 이 생각을 했을 때의 메모. Wn 은 단어, Fn 은 출현빈도, Cn 은 subclass를 의미한다. Subclass #1에 1번단어와 2번단어가 속하고, Subclass #2에 3번과 4번단어, 마지막으로 Subclass #3에 5번 단어가 속한다. 

 

 

 

반응형