Web Analytics Made Easy - Statcounter

생각나는대로

최적성이론 소논문 쓰는 법

sleepy_wug 2025. 7. 23. 10:45

0. 요약 

이 글은 제가 최적성이론(Optimality Theory) 입문 수업을 들었을 때 필기했던 것을 옮겨 적은 것입니다. 
 
학기말에 텀페이퍼를 제출해야 하는데, 최적성이론 수업이니만큼 제약기반 프레임워크로 음운론 논증을 해야 했습니다. 따라서 강의자가 최적성이론 진영에서는 논증 squib을 어떻게 쓰는지 구도를 잡아주었습니다. 그 내용을 공책에 손수 적었는데 (옛날 옛적임) 그 공책을 '유적발굴'했습니다. 다시 읽어보니 꽤나 유익한 것 같아서 아카이브 겸 소개 겸 하려고 적습니다.
 
위키피디아에서 squib을 찾아보니 "신문이나 잡지에 실리는 재치있는 짧은 글" 정도로 정의했는데, 언어학 squib은 재치가... 없습니다. 언어학에서 squib은 작은 언어현상을 아주 짧고 가볍게 다루는 글입니다. 소논문이라고도 부르는 것 같습니다. 자세한 내용이 궁금하시다면 [다른 글]을 읽어주세요.
 

 

목차

     
     

    1. OT 논증 구성

    1.1 Data 

    모든 논증 이전에 data와 generalization을 제시해야 한다.
     
    독자들에게 잘 알려진 언어가 아닐 경우 언어자체를 먼저 소개한다. 이때 언어가 사용되는 지역과 사용자수 그리고 (있을 경우) iso 나 glottolog code를 첨가한다. 
     
    언어현상을 소개한다. 이름이 있을 경우 이름부터 소개한다. 그리고 alternation 이나 rule-based description을 기술한다. 그 현상을 소개하는 reference grammar를 인용한다. Generalization은 반드시 reference grammar나 타 논문의 것을 인용해와야 한다.
    (OT 논증의 목적은 generalization을 제약기반으로 설명하는 것이기 때문에, 한 논문에서 Generalization과 analysis를 같이 하는 것은 마치 공을 찬 다음 공이 가는 곳에 골대를 그리는 것과 비슷함. 물론 publish되는 논문의 경우 data에서 시작하여 generalization과 analysis를 같이할 수 있으나 OT논증 그 자체를 목적으로 하는 논문에 해당하지 않음)
     
    예시:
    Wonderlandese (iso: wdl) is a language spoken in Wonderland by 3 people. Vowels in Wonderlandese may be devoiced or shortened before a voiceless obstruent in a process commonly referred to as Unstressed Vowel Deletion (Alice 2025).
     
    그 다음 아래와 같이 규칙 제시
     
    (1) Unstressed Vowel Deletion
          V → ∅  / ___[-son, -voi]
     
    혹은
     
    tam[o~∅]sa, mil[e~∅]ko
     
     이렇게 실제 언어표현 상 alternation으로 보여줄 수 있으면 그렇게 한다.
     
    더불어 표 등을 사용하면 더 좋음
     



     

    1.2 Assumptions

    이론적 논증을 할 때는 사용할 (망치와 톱같은) '연장'을 먼저 선명하게 보여주어야 한다.
     
    이 부분에서는 새로운 이야기가 아니라 논증의 배경을 이야기하는 것이기 때문에, 반드시 선행연구로부터 인용해오는 것이 좋다. 특히 프레임워크나 제약 부분.
     

    1.2.1 Framework

    어떤 버전/맛(version/flavour)의 OT를 사용할 것인지 사전에 분명히 말하라. 제약 간 절대적 서열이 있는 Classical OT 스타일의 분석인가? 제약에 weight 주는 Harmonic Grammar나 MaxEnt 쓸건가? 
     

    1.2.2 Constraints

    사용할 제약과 그 제약의 정의를 분명히 해야 한다. 같은 효과를 가진 제약이더라도 사람마다 쓰는 방식이 다를 수 있다. 따라서 아무리 당연하고 모두가 알고 있을 법한 제약이더라도 내가 이 논문에서 그 제약을 어떻게 표현할 것이고 (특히 Tableaux 상에서 어떻게 줄여쓸건지) 그게 무엇을 의미하는지를 써주어야 한다.
     
    (여기서부턴 예시)

    Constraint Definition On Tableaux
    Oɴsᴇᴛ A syllable must have an onset *[σV
    NᴏCᴏᴅᴀ A syllable must not have a coda *C]σ
    *CC-Oɴsᴇᴛ An onset must not have more than one consonant *[σCC
    *CC-Cᴏᴅᴀ A coda must not have more than one consonant *CC]σ

     

    그런데 실제로 현장에서 보면 실제 논문들에서는 "... must (not) ..." 이렇게 서술되는 게 아니라 'mark star...' 라든가 'penalize...' 이런식으로 나옴. 예컨대 "A syllable must have an onset"이 아니라 "Penalize an onsetless syllable" 이렇게 정의함.
    마침 지금 읽고 있는 논문에서 유표성제약 정의한 부분이 있는데 아래와 같이 "Assign a violation mark..."라고 씀

    Gouskova and Becker (2013) p. 740

     

    1.2.3 UR 혹은 input

    기저형(Unerlying Representations)이나 입력형(input form)을 무엇으로 상정한다는 걸 분명히해야 함. 
     
    기저형이나 입력형은 실제로 존재하지 않고 다만 언어학자가 만들어낸 가짜라는 걸 명심할 것. 만약 왜 이런 가짜를 진짜처럼 있다고 생각해야 하는지 를 논증할 수 있으면 좋으나, 그건 또다른 논증에 해당하므로 그 자체로 논문이고 항상 필요한 것은 아님. 실제로 오늘날 아주 정형화된 UR혹은 input의 설정은 지양되는 분위기(underspecification, richness of the base, inputless/UR-less analysis).
     
     

    1.3 Argumentation

    모든 준비가 끝났으면 논증을 시작한다.
     
    논증은 단계별로 이루어지고 각 세부단계별로 Tableau를 하나씩 포함하면 좋다. 논증의 결과물은 제약의 서열 이다. (언어현상을 예외 없이 모두 설명하는 게 목적이 아니고 그건 NLP가 함, 그 언어 데이터를 생성하는 제약군과 제약쌍 간의 서열을 도출해내는 것이 목적이다.)
     
    - 서열과 왜 반드시 그 서열인가 논증 (논증할 수 없으면 무조건 unranked)
    - 후보 선정의 이유 (진짜 중요한데 사람들이 많이 간과하는 부분)
     

    1.3.1 Ranking

    Ranking argument를 할 때는 두 제약씩 불러와서 pairwise comparison을 하는 것이 기본이다. 논리적인 이유로 서열이 정해질 수 없는 제약들도 있는데, 그런 제약들은 사전에 'rank할 수 없음'이라고 declare한 후 나머지에 대해 서열 논증을 해야함.
     
    Pairwise comparison은 제약 A 와 제약 B가 있을 때, A≫B, B≫A 두 ranking을 tableaux로 보여주고 두 ranking 중 무엇을 선택할 것인지를 판단해야 한다. 
     
    이걸 모든 제약 쌍에 대해서 하는 게 기본이다. (예를 고려하는 제약이 4개면 pairwise comparison 6번 하는 게 기본이다. tableaux 12개)
     
     

    1.3.2 Motivation for candidate selection

    Pairwise comparison할 때나 다른 tableau 그릴 때는 후보군을 잘 선정해야 한다.
     
    후보군은 아무렇게나 정하는 것이 아니라 특정 제약을 충족하고 다른 제약을 위배하는 조합을 보여주도록 구성하는 것이다.
     
    (실제로 학회에서 OT 연구 발표하시는 분들 받는 질문 중 상당수가 '이 후보는 어떻게 되느냐?' '이 후보는 왜 안 고려했느냐?' 같은 것이다)
     

    1.4 마무리와 test run

    제약군과 제약 서열을 만족스럽게 구성했다면 그 모든 것을 하나의 Tableau에 표현한다. 이때 후보군은 대상언어의 실제 존재하는 데이터로 한다. 
     
    지금까지 설정한 UR, 제약, 제약들의 서열 등등 모두 집어넣었을 때, 언어 데이터가 설명된다는 걸 보여주는 것이 목적이다. 
     
    만약 특정 데이터를 설명하지 못해도 괜찮다. 다만 인정하고 '예외' 등의 용어를 사용해서 flag하여야 한다. (이거 보니까 생각나는 일이 있음. 예전에 Harmonic Grammar 세미나에서 한국어의 영어 차용 이론 발표하는데, 무려 "바나나"가 예외처리되었다.ㅋㅋㅋㅋㅋ 그런데 예외처리되는 사례들은 '바나나' 처럼 아주아주아주 고빈도라서 문법화(grammaticalized)된 것이거나, 아주아주아주 저빈도라서 그런 것들이다.)
     

    1.5 Sign off

    (Sign off라고 하니까 뭐 거창한데, 그냥 논문의 마지막 문단 같은거?)
    - 이론적 함의(선행연구가 말한 것이랑 다르다 등)
    - 논문의 한계(예외처리한 데이터들)
    - 나중에 어떤 방향으로 연구가 진행될 수 있는지 방향제시(다른 언어에 있는 유사 패턴 소개) 
     

    1.6 Bibliography

    빼놓으면 안 됨.
     

    2. 논문으로 확장하기

    이렇게 squib을 완성해놓으면 논문으로 확장하기도 쉽다. 나중에 논문으로 확장하려면 아래와 같이 구성하면 된다.ㅋㅋㅋㅋ
     

     
     
     

    3. 후일담

    섹션 1과 2가 옛날 필기내용입니다. 빨간색은 옮겨적으며 제가 추가한 것들입니다. 딱 15페이지짜리 논증 squib의 구성이네요. 필기 내용엔 적혀있지 않은데 squib에서는 아주 작고 사소한(????) 현상을 분리해내서 그걸로 쓰는 게 중요한 것 같습니다. 예를들어 "영어 명사 복수형 중에서 규칙적인 패턴을 따르는 것들 중에서 fricative로 끝나는 base만을 다룬다" 뭐 이런거입니다.
     

     

     


    이어서 어떤 글을 읽을 건가요?

     


    • 글이 유익했다면 후원해주세요 (최소100원). 투네이션 || BuyMeACoffee (해외카드필요)
    • 아래 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
    • 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
    • 반박이나 오류 수정을 특히 환영합니다.
    • 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.