Split-phonology hypothesis 혹은 Stratified lexicon

Bouncing ideas 생각 작업실/lexical subclassing

Split-phonology hypothesis 혹은 Stratified lexicon

sleepy_wug 2021. 1. 14. 09:56

[SPE의 어휘 자질 접근. 프랑스어, foreign vs non-foreign, glide]

일단 음운론의 고전부터 시작해보자 SPE. 불어에서 어종별로 glide의 자연부류가 다르다. non-foreign이라면 vowel과 자연부류를 이루고 foreign일 경우 liquid와 자연부류를 이룬다. (SPE pp. 353-354)

[SPE의 어휘 자질 접근. 터키어 Turkish 러시아어 Russian]

영어 Germanic vs Latinate 문제도 그렇지만 터키어, 러시아어에서도 이런 층위문제가 나타난다. 궁극적으로 SPE가 취하는 입장은 [foreign] [native] 등의 lexical features를 상정하는 것이다. SPE p. 373

[SPE의 어휘 자질 접근으로 한국어 층위를 본다면?]

이 논리를 따르자면, 한국어의 층위는 기술적으로는

고유어: [-foreign] [-Sino]
한자어: [-foreign] [+Sino]
외래어: [+foreign] [-Sino]

이렇게 되는 것이고, 논리적으로
???: [+foreign] [+Sino]
이게 존재해야 하는 것이다. 그런데 *아무도 이걸 이야기하지 않았다* (AFAIK)

또한 음소배열론적 제약들과 층위 사이의 매칭도, 층위의 개념을 binary feature의 조합으로 바꾸어 인식할 수 있을 것이다.

예컨대, [#*C'] (어두 경음 노노해) 같은 제약이 [Sino]의 valuation factor가 아닐까? 다른 이야기지만 독립적으로 "ㅆ"는 음운론적 경음이 아니라는 주장이 있다. 만약 이 주장이 사실이라면 실타래 풀리듯이, 왜 "씨, 쌍"이 실질적으로 유일한 어두경음 한자음인지가 설명된다. (물론 끽연(喫煙)이 아주 유명한 예외인건 인정.)

[ba]가 한자어로 인식되는 것은, 기술적으로 [-Sino]로 valuation되어야 하는것이 [+Sino]로 valuation되었기 때문인 것이다.

*왜* 이렇게 valuation 이 이루어지는 것인지를 *아무도 이야기하지 않았다* (까지는 아니고, 단지 two-feature combination으로 층위를 재해석하지 않아서?)

와 재밌다아아!!😰😰😰

[SPE의 층위론은 기술적 타당성에서 멈춤]

촘스키의 '언어학의 철학'(philosophy of linguistics)을 본인에게 되돌려주자면, 이런식으로 lexical feature 기술로 dumping시켜버리는 것은 기술적 타당성(descriptive adequacy)은 만족하지만 설명적 타당성(explanatory adequacy)은 만족하지 못한다 --- 즉, 어떻게 이런 층위가 학습되며 왜 나타나는지 설명하지 못한다.

그렇다고 층위가 innate하다고 할건가?ㅋㅋㅋㅋ 그건 아니자나. 그렇다면 학습이 되어야 한단 말인데, 유일한 설명은 음소배열에 달려있다. 엄빠가 말배우는 애 앉혀놓고 뭐는 한자어고 뭐는 외래어고 뭐는 고유어라고 할 것이 아니라면.ㅋㅋㅋ

참고로 Hayes의 비교음소배열론(방법론 부분 참조)에서도 suffixation의 차이로 영어의 두 층위를 구분한다. 즉, 구분이 이미 주어진 상태에서 음소배열제약들을 '기술'하는 데에서 그침.

[Michif, Split-phonology hypothesis]

Michif 의 Cree계열, 불어계열 간 마치 다른 음운론이 존재하는 것처럼 음운적 행동이 다르다. Split-phonology hypothesis라는 terminology의 유래다. Michif는 흔히 Mixed language로 분류된다.

Rosen의 2007년 UT(토론토) 박사학위논문이 '종점'이었다. (Michif에는 층위가 없다는 결론, Mixed language가 아니라는 결론) [링크]

그러나 지금시점에서 보자면 사실 '종점'이라기보다는 '정류장' 정도임. 현재까지 Rosen <--> Papen 사이에서 활발한 논쟁이 이루어지고 있다.

아래 이미지들은 2020WT1 세미나 수업에서 내가 Rosen (2020)을 발제하기 위해 만든 슬라이드에서 가져왔다.

Rosen의 최근 연구들은 Michif의 자음, 모음 inventory를 확정하는 데 집중하는 것 같다. 마치 French-origin과 Cree-origin 층위가 반드시 다른 inventory를 가져야 한다는 듯이.

아래는 so-called split-phonology hypothesis에 대한 슬라이드다.

이때 발제하면서도 말했지만, Rosen이 inventory 상의 차이에 천착하는 것은 문제가 있어보인다는 게 내 생각이다. 층위의 문제는, 예컨대 블럭 조립 방식에서 나오는 것이다. 블럭의 종류자체가 문제는 아니다. 재료는 같은데 '층위'에 대한 정보가 주어졌을 때 조립을 다르게 한다고 하면 그것이 바로 층위다. 재료자체가 다르면 그건 bilingualism이다.

물론 Rosen의 사고방식이 완전히 이해되지 않는 건 아니다. (아래 [음소 차용과 특정 음소에 대한 편견(?)] 항목 참조)

만약 Michif도, 뭔가 바탕언어가 있고, 그 위에 다른언어가 덧입혀진 것이라면 다른 inventory를 가지겠지. 근데 애초에 Mixed language (두 구성언어가 동등한 지위)라는 점은 Rosen도 인정하는 바가 아닌가?

아마도 음운론적 층위에 따라 다른 현상이 나타나는 걸 자꾸 포착하고 싶어하는 나의 연구방향 때문인 것 같다. 연구주제와 관련있으니 강한 의견이 생기는 것이기도 하고.

Michif lexicon을 quantitative phonotactics 측면에서 접근한 사람은 없다. 아마도, 단어목록을 뽑아서 방법론 중 하나를 적용해서 분석하면 재밌을 것 같다.

[Split-phonology <--- stratification]

결국 split-phonology가 일본어 한국어 등의 lexical stratification일지도 모른다는 코멘트다. An Analysis of the Split-Phonology Hypothesis in Michif (Fitzsimmons et al)

게다가, The phonology of mixed languages (Rik van Gijn) 에서는 대놓고 stratified lexicon이라고 부른다,

물론 'each stratum with its own phonemic inventories' 부분은 Rosen 선생님께서 손수 깨부셨으므로 사실이라고 볼 수 없다. 하지만 phonotactics와 morphophonological rules는 여전히 적용.

[음소 차용과 특정 음소에 대한 편견(?)]

아래의 캡처는 Hayes 교과서 57쪽이다. 일본어의 [ɸ]가 차용어에만 쓰임. 영어의 /v/도 애초에 그랬는데, 지금은 음소의 지위를 갖게 됨.

실제로도 진행중인 재밌는 현상이 있다. 영어화자들이 명백히 외국어로 인식되는 단어들에 /dʒ/ 대신 근본없는 /ʒ/를 쓰는 것. Allison Shapp의 해답은 화자들이 음소빈도(frequency)에 민감하다는 사실에 근거해서 음소에 대한 편견(?)이 빈도차이라고 설명한다.

archive.is/ersdC#selection-2993.0-3000.0

영어의 [ʒ]와 [dʒ] 문제에 대해 하나 더...

www.facebook.com/groups/Armchair.Linguists/permalink/10158385224355660/

Gordon Gibbens

/dʒ/ versus /ʒ/: Making non-English words sound more non-English? I've noticed that foreign names with a /dʒ/ sound are often pronounced with a /ʒ/ sound by English speakers, at least in the news,...

www.facebook.com

만약 Michif의 음소 inventory가 다르다면 특정 음소의 출현을 기준으로 층위구분이 가능하겠다. 하지만 Rosen이 밝혔듯 그건 사실이 아니다.

또한 재밌는 것은, 이걸 반대로 돌리자면, (음소에 대한 편견이 존재하는 언어들의 경우) 특정 음소가 특정 위치에 출현하는 비단어는 외래어로 인식될 일.

[Moroccan Darija]

아랍어, Berber (Amazigh) 층위가 존재한다는 보고가 있음..... 을 봤는데, 출처를 잃어버렸다.ㅠㅠ

일단 언어 자체가 나에게 낯설기 때문에...

www.youtube.com/watch?v=v6x_6K0OR3w

많은 부분이 추가되어야 한다.

[Maltese: Arabic stratum, Romance superstratum, and English adstratum]

Brincat 2011^[각주:1]에서 나온 표현으로, Maltese lexicon을 An Aribic stratum, a Romance superstratum, and an English adstratum으로 묘사하였다. 이 책을 구하기가 어려운데 Maltese에 대한 전반적 reference로 사용할 수 있을 것으로 보인다.

Maltese 원자료 코퍼스는 Gabra [링크]와 국립코퍼스인 Korpus Malti [링크] 가 있다.

Gabra는 annotated라고 한다. datadump가 있는데 bson format으로 되어 있어서 mongoDB로 열 수 있다. (안 열어봤다는 뜻)

주목할 책+학위논문은

Brincat 2011 Maltese and Other Languages: A Linguistic History of Malta
Spagnol, Michael. 2011. A tale of two morphologies: Verb structure and argument alternations in
Maltese. PhD Thesis, University of Konstanz. [링크]
Camilleri, John J. 2013. A computational grammar and lexicon for Maltese. Master’s
thesis, Chalmers University of Technology. [링크]

Borg and Gatt (2014) 와 Borg and Gatt (2017)에서는 NLP적인 방법, 구체적으로 computational morphology에서 Maltese를 보았다. 특히 Borg and Gatt (2017)에서 아랍어계열(non-catenative group) vs. 로망스/영어계열(catenative group) 간의 형태론적 행동 차이를 기계학습하였다.

Borg and Gatt (2017)에서 기술된 두 그룹 간 차이는 아래와 같다. 아래의 Table 1에서 나와있듯이, 아랍어로부터 온 gideb은 non-catenative (templatic) 행동을 보이고, 영어(?)로 부터 온 ezamina는 catenative (affixation) 행동을 보인다.

www.fb10.uni-bremen.de/maltese/2007/programme.aspx

1st International Conference of Maltese Linguistic (Bremen 2007) – Conference Programme

Mike Rosner (Malta) Ray Fabri (Malta) Duncan Attard (Malta) Albert Gatt (Malta) Michael Spagnol (Malta) The Maltese Language Resource Server: building an electronic lexicon and corpus for Maltese

www.fb10.uni-bremen.de

이 학회에 발표된 논문중에 Alexander Borg (Beer Sheeva) - The Arabic lexicon at the periphery: lexical stratification in Maltese 가 관련 주제를 다루는 것 같다. (발표 자료를 찾을 수가 없다)

그런데 그 논문에서 사용된 데이터 상,

1. 어원에 따라 음소배열이 다른지 (즉, 음소배열만 보고 어원을 학습할 수 있는지)

2. 어원에 따라 다른 음운/형태론적 작용이 이루어지는지

두가지가 중점이 되어야한다.

[일본어 Japanese strata ]

현대적 의미의 음운론적 '어휘층위' (lexical strata)의 원조는 단연 일본어.

Ito & Mester의 연구 (Ito & Mester 1995, 1999) 가 고전이다.

층위별로 음소배열(Phonotactics)적 특징을 보인다. 아마도 층위에 대한 인식도 음소배열에 의존될 수 있다.

Ito & Mester의 연구 프레임워크가 제약 간 서열이 절대적인(즉, weighted제약이 아니라) OT이기 때문에 아래와 같은 제약들이 각 층위별로 묘사되었다. (나중에 타이핑해서 표로 만들 예정)

[한국어 고유어/한자어/차용어]

일본어의 어휘층위 개념의 연장선상으로 한국어에서도 어휘층위 나누는 연구들이 있다.

일본어의 층위이론이 OT에 기반을 두고있다는 측면에서, 한국 음운론계에서 OT 유행이 끝나면서, 어원 층위론도 시들시들해졌나.... 했는데 박나영의 2020년 서울대 논문이 두둥등장! [링크]

Hayes의 비교음소배열론을 한국어 층위에 적용한 (최초의?) 본격적인 연구다.

이전까지 OT제약에 기반한 연구들도 있는데, 층위에 따른 제약 재서열화(reranking of constraints)를 어찌할 것인가의 문제다.

신지영 교과서(한국어의 말소리)에서도 나오지만, 음절형태 (혹은 형태소구조제약MSC) 상의 차이로 접근하는 것도 있다.

신지영 교과서에 나열된 음절형태 목록은 아마도 아래 캡처된 논문(신지영. (1999). 이중모음 ㅢ 통시적 연구. 민족문화연구) [링크] 내용과 크게 다르지 않았던 듯.

남성현 (2017) [링크] 에서는 독특하게 층위에 따른 '음운이웃 개수' 차이를 보았다.

[한국어 층위의존 음운작용 stratum-sensitive phonological process]

(각 항목별로 상세한 서술은 별도의 포스팅으로 분리했음 [링크])

1. L-tensification

어떤 2음절어가 있는데 제1음절 종성이 /ㄹ/라고 하자.

그 2음절어가...

한자어로 인식되면: 2번째 음절 초성 stop sound를 경음화한다.

고유어로 인식된다면 경음화하지 않는다.

2. 사잇소리 (sai-sios) ... 그리고 렌다쿠(연탁)?

두 명사 N1 N2 합성에서, N2가 고유어면 사잇소리현상이 적용됨. 한자어면 적용 안됨.

3. 수량사 선택

명사의 층위에 따라 선택하는 수량사가 다르다.

번(番)과 회(回) 모두 반복횟수에 사용되는 수량사이지만,
고유어 층위의 "한, 두, 세, 네...."에는 "-번"을,
한자어 층위의 "일, 이, 삼, 사..."에는 "회"을 사용한다.

나는 중국에 {한번, 두번, 세번, 네번, ... } 가보았다.
나는 중국에 {*한회, *두회, *세회, *네회, ...} 가보았다.

나는 중국에 {일번, 이번, 삼번, 사번, ...} 가보았다.
나는 중국에 {일회, 이회, 삼회, 사회, ... } 가보았다.

Whitman & Cho 교과서 (Whitman & Cho, 2019) p. 175

3. ㄴ삽입 (n-insertion)

합성어의 ㄴ삽입현상에도 층위의존성이 발견된다고 한다. ㄴ삽입 자체가 사잇시옷현상과 관련이 있지 않나? 아마 환원될 수 있을지도 모르겠다.

[학습 매커니즘 - 층위를 어떻게 학습하지? 학습이 가능한가?]

1. OT 계열

- 층위별로 재서열화

- 이름표 달린 제약들이 층위에 따라 active / dormant 함.

2. MaxEnt 계열

- Hayes 비교음소배열론

3. 학습은 불가능하다

- 따라서 언어학의 연구대상이 되지 않는다는 주장.

[층위착각에 대한 episodic한 보고들]

대충, (사전 상) 기술/규정되는 층위 정보랑, 언중이 실제로 생각하는 층위 정보가 일치하지 않는 사례들 모아놓는 저장소

1. 한국어의 [ba] 한자어로 인식됨.

(Kang, Yongsoon. 1998. The Organization of Lexicon in Korean. Studies in Phonetics, Phonology and Morphology 4, 55- 67. 가운데, 61쪽)

2. 한국어에서 '시소' 고유어로 인식됨.

~~(나만그런가?)~~

3. 오키나와벤으로 건배를 의미하는 '카리 사비라'(かりーさびら)가 외래어로 인식됨

사전: https://hougen.ajima.jp/e420

그리고 일단 이 영상( https://youtu.be/4SCUirrrULM?t=215 )에 보면 뭔가 한자로도 쓰긴 하는가보다.

카리: 嘉例吉에서 왔다고 하므로 아마 한자가 嘉例일 것이다. ( archive.is/wip/o3nKm archive.is/wip/1vnmo )

사비라: ～します의 뜻이라고 한다 ( archive.is/wip/0TVdG )

Maltese and Other Languages: A Linguistic History of Malta [본문으로]

'Bouncing ideas 생각 작업실 > lexical subclassing' 카테고리의 다른 글

lexical subclassing은 사실 '범주분류'와 '선택적(규칙)적용'의 두단계 학습 (0)	2022.02.08
한국어 발음형을 계층적 클러스터링 해보자 (1)	2022.02.03
한국어 층위의존 음운작용 stratum-sensitive phonological process (2)	2021.03.29
Split-phonology 용어정리와 접근법 제안 (0)	2021.03.04
Split phonology 선행연구들 실타래 엮기 (0)	2021.02.19

현재글Split-phonology hypothesis 혹은 Stratified lexicon

언어학자 지망생이 '언어학하고 앉아있네!' 이론음운론 ABD(박사후보). 말소리를 어떻게 조립해서 단어가 되는지 연구해요.

언어학, 한국어, 영어, 음소, 이중모음, 통사론, ipa, 오블완, 화용론, 대학원, 티스토리챌린지, 음운론, 프로그램, 대화격률, 음성학, 한글, 모음, praat, 실험은어려워, 의미론,

Today :
Yesterday :

언어학하고 있네