실증적으로 음운이웃개수가 어원적 층위에 따라 다르다 (Nam 2018). 그런데 어떠한 방식으로든 하위분류를 한다면 하위분류별로 음운이웃 개수는 다를 가능성이 높다.
지금 나에게는 소규모 어휘로 기계학습한 층위 (이하 subclass) 데이터가 있다. 이 subclass들은 어원적 층위와는 다르다. 그렇다면 subclass별로 음운이웃 개수를 구해서 음운이웃효과가 관측되는지 알 수 있지 않을까?
이것은 실험이 가능할지도 모른다. 왜냐하면,
이웃 많으면 retrieve 느리고 이웃 적으면 retrieve 빠르다. (이논문) (이 논문과 여기에 인용된 논문들) (참고로 그 유명한 Neighbourhood Activation Model은 perception에 관한 모델이다.)
이 관찰에 의존하여 다음과 같은 통계적 검증을 할 수 있을 것이다.
독립변인: Seoul Corpus (링크) 에서 단어별 speech rate.
종속변인: 각 단어별로 1. subclass 내 이웃개수, 2. lexicon 단위 이웃개수 3. 기타 factors (예: 어휘빈도 etc)
각 종속변인의 효과 크기를 볼 수 있다면 lexicon이 단일하지 않고 분열되어있다는 결론을 낼 수 있지 않을까?
그러나 언제나 그러하듯이 문제는 층위 간 동음이의어이다.
마지막으로, 아래는 처음 이 생각을 했을 때의 메모. Wn 은 단어, Fn 은 출현빈도, Cn 은 subclass를 의미한다. Subclass #1에 1번단어와 2번단어가 속하고, Subclass #2에 3번과 4번단어, 마지막으로 Subclass #3에 5번 단어가 속한다.
'Bouncing ideas 생각 작업실 > lexical subclassing' 카테고리의 다른 글
lexical subclassing 일단 쓰면서 생각하기. (0) | 2022.06.21 |
---|---|
Different contrastiveness by strata? (0) | 2022.05.11 |
subclassing 학습 2 어떻게 평가할 것인가 (0) | 2022.02.08 |
lexical subclassing은 사실 '범주분류'와 '선택적(규칙)적용'의 두단계 학습 (0) | 2022.02.08 |
한국어 발음형을 계층적 클러스터링 해보자 (1) | 2022.02.03 |