Web Analytics Made Easy - Statcounter
반응형

Bouncing ideas 생각 작업실 56

'JKDY' 테스트 돌리기 + 배포🎉

0. 들어가는 말 (이 글은 2024.02.19 - 좌충우돌 딥러닝을 이용한 한글IPA변환기 에서 이어지는 글입니다.) 구어체로 느슨하게 전사하는 프로그램을 완성하기는 했는데, 욕심이 나서 UI를 입혔다. 챗GPT 시키니 금세 되니 좋다. 비록 자잘한 오류가 많아서 '내가 못하는 새로운 일'을 시킬 수는 없지만, 할줄 아는데 귀찮은 것은 챗GPT 시켜서 초벌로 해놓고 나온 결과를 직접 수정하니 편리하다. 앱의 이름은 JKDY로 정했다. 이 프로그램이 "좋거든요"를 전사하면 조커등여 [tɕ o kh ʌ t ɯ ŋ jʌ] 라고 나오는데 약자를 따와 JKDY라고 한 것이다. 목차 1. 조커등여 새로 만든 장난감(?) 가지고 놀다가 대체 내가 무슨 괴물을 만든 건가 생각이 들었다.ㅋㅋㅋ 무슨일이냐 하면 바로 이..

좌충우돌 딥러닝을 이용한 한글IPA변환기

0. 들어가는 말한글을 입력하면 철자 그대로 충실히 IPA로 자동 전사하는 '기계'에 대해서는 다른 글에서 소개하였습니다. 본 글에서는 거기에서 한걸음 더 나아가 transformer 모델을 이용해서 한글 철자 입력하면 구어체 서울한국어 발화형을 예측하는 모델을 다룹니다. 혹시 그냥 "한글"을 쓰면 [hɑŋɡɯl]로 자동전사해주기 원하시면 아래 페이지를 참고해주세요.https://linguisting.tistory.com/84 Convert Korean orthography into IPA transcriptionsUse 'Hangul to IPA' with the interface belowSee [readme] for more information. Scroll down a bit, a..

통사론 지도 그리기

0. 요약 Cartography는 오늘날 최소주의 통사론의 경향 중의 하나로, 통상적인 통사분석보다 더더욱 세세한 분석을 하기 때문에 마치 '지도를 그리는 것 같다' 하여 cartography로 불립니다. 이 경향을 통해 한국어의 전통적인 문법 개념인 '어미'에 통사론적 지위를 부여하는 분석을 할 수 있기 때문에 많은 연구자들이 적극 수용하고 있습니다. 그러나 확실한 기반이 없으면 세세한 분석의 정당성을 찾기 어렵기 때문에 이 경향을 따르지 않는 연구자들도 있습니다. 목차 1. 대략적인 설명 및 정리 Cartography는 이탈리아의 언어학자인 Guglielmo Cinque와 Luigi Rizzi가 굴절이 발달한 로망스 언어들을 설명하기 위한 기제로 1980년대 주창한 통사 이론을 기반으로 합니다. 교착..

동일성에 대한 공포 horror aequi

0. 요약 겸 글 전체 선행연구를 읽다가 horror aequi라는 용어를 보았다. S-side 사람들이 왜 이렇게 라틴어를 좋아하나 모르겠는데, horror는 모두 알다시피 두려움, 공포를 의미하고, aequi는 영어의 equivalent, equal 등에서 확인할 수 있듯이 '같다'는 의미이다. horror aequi는 다시 말하면 '동일성에 대한 공포'라는 뜻이 되려나? 내가 언어학의 모든 것을 아는 것도 아니고 다만 일부를 공부하고 있을 따름이기 때문에, "뭐야 박사과정생이라면서 이거도 몰라?" 하면서 의아할 사람도 있을지 모르겠다. 어쨌든 나는 처음보는 개념어고 흥미를 느껴서 적어본다. 다만, 이 개념을 본격적으로 논의한 논문이 2022년에 나오고, Wikipedia 페이지조차 2023년 7월에..

Ladefoged는 왜 모음 기호를 잘못 썼나

0. 요약 음성음운론에 관심이 있는 사람이라면 Peter Ladefoged를 알 것입니다. 이 글에서는 Ladefoged가 책에서 음성기호를 잘못(?) 쓴 예시를 소개합니다. 음성학 발전의 한 단면을 소개하고 기호를 얼마나 신뢰해야 하는지 (혹은 하지 말아야 하는지)에 관한 교훈을 다루는 것이 목표입니다. 목차 1. Ladefoged의 실수? Ladefoged는 현대적 의미의 음성학의 기초를 마련한 훌륭한 선생님들 중 한 분이십니다. 1960년대에 UCLA에 phonetics labratory를 창립했는데, 이 랩 출신의 훌륭한 음성학자들이 많으십니다. 또한 Ladefoged가 쓴 (그리고 사후 Keith Johnson이 이어서 개정판을 내고 있는) 음성학 교과서 A Course in Phonetics는..

음운론 연구자가 Mac에서 fairseq 쓰려고 도전

0. 이 글은 무슨 글? 이 글은 이론 음운론 연구자가 음운론적 논증을 하기 위한 과정에서 fairseq에 입문하는 과정을 묘사한다. 이 글의 교훈을 간단히 요약하자면, fairseq 모델 train하는 건 Google colab에서 하는 게 더 빠르지만, training 끝난 모델을 이용하는 데에는 M3 base Macbook Pro가 충분하다는 것. 로컬로 training하는 것보다 Google colab에서 무료로 제공하는 T4 쓰는 게 더 빠르다. 주로 실패한 과정을 기록한다. 이렇게 실패한 기록을 하는 것은 다른 사람(e.g., 미래의 나)이 실패하지 않게 하기 위함이다. 배경이 되는 간단한 하드웨어 스펙을 적어놓고 시작한다. Macbook Pro 2023 / M3 (base model) / 1..

김경아 "한국어 음운론" 의 이중모음 활음 반모음

0. 요약 김경아 "한국어 음운론"에서는 이중모음을 구성하는 반모음(활음)과 핵모음 모두를 음소로 봅니다. 이 글의 나머지 부분에서는 이 교과서에서 이중모음과 반모음(활음)을 다룬 부분을 인용하며 또 잡다한 이야기도 하겠습니다. 1. 이중모음과 활음의 지위 서울여대 국문과 김경아 교수님의 교과서 '한국어 음운론'을 구했습니다. 아주 콤팩트하게 기본 개념들을 명확하게 설명해 주신 것 같고 도표와 표도 도움이 많이 되어서 좋네요. 교과서 읽는 것에는 독특한 재미가 있습니다. 그리고 교과서를 쓴다는 것은 정말 큰 그림을 본다는 것이므로 어떤 분야든 대학교 학부 교과서를 쓸 수 있는 저자들은 그 분야의 진정한 대가가 아닐까 생각합니다. https://kobic.net/book/bookInfo/view.do?is..

음운론 전공자가 공부해본 통사론

0. 요약 저는 음운론을 전공하는 박사과정생입니다. 그러나 통사론에도 호기심이 있습니다. 음운론에서는 선수 역할을 해야한다면 통사론에서는 관중의 입장이 되므로 흥미롭게 그리고 부담없이 공부할 수 있는 것 같습니다. 통사론은 정말 어렵고, 통사론자들 중에는 천재들이 많은 것 같습니다. (통사론자 여러분 정말 존경합니다.) 제가 통사론, 특히 한국어 통사론이 알고싶어서 읽었던 책들이 있습니다. 이 포스팅에서는 그 책들을 소개하려고 합니다. 한국 대학교 학부 3학년 통사론에서 B받을 정도의 수준에서, 박사과정 중 통사론으로 졸업자격논문을 쓰기 위해 최소주의 통사론 논문들을 읽는 수준에 이르기 까지, 제가 접한 책들과 자료들을, 그냥 책 목록과 간단한 설명을 나열하겠습니다. 읽은 순서대로입니다. 목차 1. 혼자..

Mac에서 받은 파일 한글 깨짐 해결

0. 요약Mac 시스템에서 한글로 쓴 파일이름이나 기타 텍스트를 다른 시스템에서 열었을 때 한글이 분해되어 보이는 경우가 있다. 아래의 스크린샷으로 예시한다. 골치아픈 문제이다. 이 포스팅에서 간단한 해결책을 제시한다. 그냥 결론부터 보고싶으면 [여기]를 클릭  이건 옛날 옛적 조합형-완성형 인코딩 논쟁을 떠오르게 하는데, 사실은 시스템 간 유니코드 정규화 방식 차이로 인한 것이고 해결은 어렵지 않다. 구체적으로 말했을 때 Darwin 계열 OS인 Mac은 한글 문자의 정규화 방식으로 NFD(Normalization Form Decomposition)를 사용하는데, Windows나 대부분의 Linux distribution에서는 NFC(Normalization Form Decomposition)를 사용하..

자동으로 한국어 praat textgrid 생성 - Montreal Forced Aligner 사용법

0. 들어가기에 앞서 사용한 Montreal Forced Aligner 버전: 2.2.16 사용한 Korean Acoustic Model: korean_mfa (Version 2.0.0rc4.dev19+ged818cb.d20220404 사용한 Korean pronunciation dictionary: korean_mfa 음성녹음이 있다. Praat에서 음향분석하려고 한다. 가장 처음 해야 하는 일은 annotation을 하는 것이다. 근데, 음운론자로서 음향분석 그 자체가 목적이 아니라면, 손으로 다 annotation하는 건 정말 귀찮고 골치아픈 일이다. 이제 손으로 다 하지말고 언어모델의 도움을 받아서 빨리빨리하자. 이건 Montreal Forced Alginer로 한국어 forced align하는 ..

반응형