Web Analytics Made Easy - Statcounter

생각나는대로

컴퓨터로 한국어 음운 전사를 자동으로 하려면

sleepy_wug 2023. 4. 23. 11:25
반응형

 

0. 요약

한글 표기를 자동으로 음운 전사로 바꾸는 방법을 찾으신다면, 아래의 방법들을 추천합니다.

Hangul to IPA 를 사용하세요. [사이트 링크] [한글 설명서 링크]

 

다른 도구로는 다음과 같은 것들이 있습니다.

조커등여! (JKDY) [사이트 링크]
XPF (Cross-linguistic Phonological Frequencies)의 IPA 변환기 [사이트 링크]
부산대 '표준발음 변환기' [사이트 링크] [논문 링크]
Stony Brook 윤지원 교수님의 '한글-예일 시스템 변환' [사이트 링크]

 

컴퓨터는 친구에요. 음운전사같은 귀찮은 일은 친구한테 시키세요

목차

    1. 전사하기

    한글은 표음문자인데다가 심지어 표기심도[각주:1]가 얕은 편이라서 한글을 익힌다면 한글만 보고도 발음을 대충 유추할 수 있습니다.

     

    그러나 언어학을 연구하는 맥락에서 한국어를 다룰 때에는 한글을 사용하는 것은 곤란합니다. 한국인 독자들이 아랍어 표기를 위한 아랍 문자를 알 것이라고 전제하는 것이 이상하듯이, 모든 사람들이 한글을 알 것이라고 생각하는 것은 이상하기 때문입니다.

     

    따라서 언어학에서 사용하는 적당한 타협점이 바로 '알파벳을 이용해서 한국어를 표기하자' 입니다. 논문이 영어나 기타 유럽언어로 작성되고 있으면, 그 논문의 독자는 당연히 알파벳을 알 것이라고 전제할 수 있을 것이기 때문입니다. 그런데 말이 쉽지 알파벳으로 한국어 표기하기가 간단한 문제는 아닙니다. '무엇을' 표기할 것인지와 '어떻게' 표기할 것인지의 문제가 남아있기 때문입니다.

     

    • '무엇을'? Transcription vs. transliteration
    • '어떻게'? 다양한 표기법체계들 (e.g., IPA, Yale, 개정로마자표기법(RR), McCune–Reischauer 등등)

     

    '무엇을' 의 문제는, 한글의 기호를 알파벳으로 옮길 것인지 아니면 한글로 표기된 단어 등이 표상하는 소리를 알파벳으로 옮길 것인지의 문제입니다. 한글의 자모 각각을 그대로 알파벳으로 옮긴다면 (Yale 방식 등) 그것은 transliteration이라고 불립니다.

     

    '어떻게' 의 문제는, 어떠한 기호체계를 사용할지에 관한 문제입니다. Yale이나 RR은 영어에서 사용하는 A부터 Z까지의 알파벳만 사용하여 한국어를 표기합니다. 반면 IPA에는 각종 기타 기호들이 포함됩니다. 언어학에서는 Yale이 사실상 표준입니다. 왜냐하면 모든 언어학자들이 IPA에 완전히 익숙한 것은 아니기 때문이고, 또 통사론 의미론 등 말소리 자체가 관심이 아닌 경우, 굳이 IPA 기호를 사용할 이유가 없기 때문이기도 합니다.

     

     

    반응형

     

    이 글의 나머지 부분에서는 한국어를 전사하는 세 가지 툴을 '무엇을'과 '어떻게' 그리고 '단점'의 측면에서 살펴봅니다.

     

    2. 다양한 전사 도구 살펴보기

    2.1 Hangul-to-IPA

    Hangul-to-IPA는 한글을 [hɑŋɡɯl]로 바꾸어주는 지구상에서 가장 좋은 도구입니다. [링크]

     

    Convert Korean orthography into IPA transcriptions

    Use 'Hangul to IPA' with the interface below See [readme] for more information. 스크롤을 조금만 내리시면 나오는 인터페이스를 통해 '한글'을 [hɑŋɡɯl] 과 같이 IPA로 변환할 수 있습니다. 이러한 것을 전사하기(tra

    linguisting.tistory.com

    빨간 네모 위치 입력하면 파란 동그라미 위치에 결과가 나옵니다.

     

     

    무엇을? Hangul-to-IPA는 다양한 파라미터를 가지고 있기 때문에 한글 기호를 그대로 IPA에 대응시켜 변환할 수도 있고, 각종 음운규칙을 적용시켜 말소리의 표면형을 IPA로 쓸 수도 있습니다.

    어떻게? Yale을 선택할 경우 영어에서 사용하는 알파벳으로만 사용합니다. 물론, IPA 기호 시스템을 쓸 수도 있습니다.

    단점은? '국어의로마자표기법'을 지원하지 않습니다.  (굳이 지원해야 하나??) 형태론에 의존적인 전사를 할 수 없습니다.

     

     

    2.3. 조커등여! (JKDY)

    조커등여는 서울 자연발화 코퍼스 데이터를 이용해 훈련한 Transformer 모델입니다. [링크]

     

    Transformer[링크]를 이용한 Seq2seq 모델인데, 한글철자를 입력하면 긴장풀고 구어체로 말한 ipa 전사 결과를 출력합니다.

     

    이 앱이 좋거든요!

     

    무엇을? 한글 철자 그대로 입력하면 그것에 대응되는 구어체 발음을 IPA 기호 시스템을 이용해 출력합니다. 예를들면 "이렇게 하면 좋거든요"를 "이케 하면 조커등여" 라고 전사해줍니다.

    어떻게? 링크 에 들어가셔서 배포된 transformer 모델을 다운로드 하셔서 사용하시거나, 아주 원시적인 인터페이스를 이용하시면 됩니다. 이것을 사용하시려면 파이썬을 사용하실 줄 알거나, 파이썬을 모르시더라도 컴퓨터로 새로운 것을 하는 데 주저하시지 않으셔야 합니다.

    단점은? 실수가 잦습니다. 재미 위주로만 봐주세요. 또한 user interface가 형편없습니다. 그래서 불편합니다.

     

     

     

    2.2. XPF IPA converter

    만약 음운론자가 자기가 모르는 어떤 언어의 발음을 IPA로 바꾸고 싶다? 그럼 가장 먼저 시도하는 곳이 바로 XPF의 변환기입니다. 이곳은 상당히 많은 언어들의 G2P (철자→발음 변환)을 지원합니다. 그리고 한국어도 지원하는 많은 언어 중 하나입니다. [링크]

    한국어 변환관련 documentation [링크]

     

    Convert to IPA

    One or more orthographic characters were not translated. Make sure you are using the proper orthography for the language in question.

    cohenpr-xpf.github.io

     

    무엇을? XPF 변환기는 한글 음절 을 입력받아서 그것을 IPA로 변환합니다. 

    어떻게? 한글 음절을 입력하면 그것을 IPA로 변환합니다.

    단점은? 한국어의 음운규칙을 적용하지 않습니다. 예를들어 '신라'를 입력하면 [sinla]를 출력하고 '바보'는 [papo]로 출력합니다.

     

    2.3. 부산대 '표준발음변환기'

    부산대 표준발음변환기는 한글 맞춤법 규정의 표준 발음법 규칙에 따라 부산대학교 정보컴퓨터공학부 인공지능연구실과 (주)나라인포테크가 공동으로 개발하여 서비스하고 있습니다. [링크]

     

    표준발음 변환기

    표준발음 변환기는 한글 맞춤법 규정의 표준 발음법 규칙에 따라 부산대학교 정보컴퓨터공학부 인공지능연구실과 (주)나라인포테크가 공동으로 개발하여 서비스하고 있습니다. 이용하시면서

    pronunciation.cs.pusan.ac.kr

     

    무엇을? 한국어의 규범 발음을 충실하게 전사합니다.

    어떻게? IPA 기호를 사용해서 전사합니다.

    단점은? 사전에 올라와있지 않은 말은 분석할 수 없습니다. (e.g., "삼성당"을 IPA로 바꾸려고 하면 기계가 알아서 "심성당"으로 오류수정(?)을 저질러버립니다)

     

     

    2.4. '한글-예일 시스템 변환기'

    Stony Brook University의 윤지원 교수님께서 만드신 예일 시스템 변환기입니다. 한국어 문장을 입력하면 예일 시스템으로 바꿔줍니다. 인터페이스가 제 스타일입니다(미니멀리즘). 또한 "바꿔주세요~"도 맘에 들어요. [링크]

     

    한글-예일 시스템 변환기 by 윤지원

     

    www.stonybrook.edu

    바꿔주세요~

     

    무엇을? 한국어의 자모 기호를 충실하게 전사합니다.

    어떻게? Yale Romanization of Korean 을 사용합니다.

    단점은? 예일 방식의 specifications를 살펴보면 현대한국어에서 양순음 뒤의 ㅜ는 wu가 아닌 u로 적게 되어있는데, 그것이 반영되어있지 않습니다.[각주:2]

     

     

    1. 정서법(orthography)에서 사용하는 각 기호와 음소 사이의 대응을 나타내는 지표. 정서법 상의 기호가 하나의 음소로만 대응될수록 표기심도가 '얕다'고 한다. [본문으로]
    2. 양순음 뒤 고모음 중화인데, 그건 온라인 상의 다른 툴 역시 반영하지 않는다는 점에서 마찬가지입니다. 淺尾仁彦의 변환기[링크] 역시 옵션 상에는 'u (ㅡ) / wu (ㅜ) distinction after labials'라는 걸 넣어놨지만 작동하지 않았습니다. [본문으로]
    반응형