Web Analytics Made Easy - Statcounter

Bouncing ideas 생각 작업실 71

Python으로 textgrid 생성했는데 왜 먹지를 못하니

0. 요약 Montreal Forced Aligner를 이용한 Forced alignment를 대규모로 하다가 문제에 봉착했다. 큰 소리로 생각한다는 개념으로 나의 생각 과정을 여기에 적는다. 목차 1. 이슈 각 wav 녹음파일에 대하여 stimulus (화면에 표시된 한국어 단어)의 내용 (한글철자)을 유일한 tier로 가지는 praat textgrid를 python script를 이용하여 생성했다. "[participant ID]_[base id]_[phonotactics]_[manipulation]_[repetition]_[group].wav" 형식의 wav 파일명을 parsing하여 base_id와 phonotactics 값에 따라 해당하는 단어의 철자형을 TSV 형식의 stimuli list 로..

ㄹ의 이형태

Crosby and Dalola. (2021). phonetic variation in Korean liquid phoneme. Proc Ling Soc Amer 6(1). 701-712 https://doi.org/10.3765/plsa.v6i1.5002 Phonetic variation in the Korean liquid phoneme | Proceedings of the Linguistic Society of America journals.linguisticsociety.org  40세 미만 표준어 화자 남6, 여6 음향분석. 통계처리는 linear mixed-effects regression models주로 formant analysis주된 쟁점은 2가지.1. 통상적으로..

수집데이터의 물리적 저장

연구를 위해 수집한 채록 데이터(음성파일 + 응답지 조사 결과)가 계륵이다. 다른 프로젝트에서 정해진 프로토콜에 따라 '수집자'의 자격으로 일만 하고 이후 과정을 신경쓰지 않았을 때에는 몰랐는데, 수집 후가 정말 골치아프다. 수집하는 과정보다 결과물들을 물리적으로 저장하는 방식이 더 골치아프다. 우선 피실험자 개개인별로 본인에게서 나온 데이터의 공개범위를 다르게 지정해놓았기 때문에, 아예 따로 저장해놓아야 한다. 또 이유는 모르겠지만, 수집 데이터가 캐나다 영토 내에 물리적으로 존재하는 서버에 저장되어야 한댄다. 진짜로 인터넷 연결 안된 학교 교내 서버에 박아놓고 옛날 도서관마냥 열람하는 방식을 심각하게 고민하고 있다. 진심으로 날것의 데이터를 사랑해야 하나보다. 근데 졸업하고 내가 학교를 떠나게 되면,..

Fairseq transformer model에서 attention 뽑아내기

0. 요약 이 포스팅은 Fairseq을 이용해 train한 transformer model에서 attention weights를 뽑아내기 위한 노력의 과정을 기술한다. 목차 1. 이슈 Fairseq이 attention weights를 순순히 내놓지 않는다. 선전포고다! 우선 왜 attention weights를 뽑아내야 하는지에 대한 맥락부터 서술하고 시도해본 해결책 + 과정을 섹션 4부터 설명한다. 3. 맥락 Fairseq model이 꽤나 괜찮은 성능을 보였다. (Fairseq입문) (IPA변환기) 이론가로서 나에게 중요한 건 모델의 성능 그자체는 아니다. 촘스키가 말했듯 언어학은 "engineered solution"이 아니라 "real solution"이 필요하다. 답은 나왔다. 엔지니어는 답을 ..

segment harmony 와 binding

아래 두 문장에서 it의 reference가 다르다. a.에서 it은 the street 이지만 b. 에서는 the cat이다. a. The cat did not cross the street because it was too busy. b. The cat did not cross the street because it was too tired. 통사론에서의 정확한 용어가 어떤지 모르겠지만, it이 문장 상 앞의 nominal 중 하나에 bound되기 때문에 가볍게 binding이라고 하자. segment harmony는 Consonant Harmony와 Vowel Harmony를 통칭하여 일컫는 말이다. Harmony는 매우 많이 연구되었는데, 서아프리카 언어들의 ATR 조화, 중세한국어의 양성/음성 ..

'JKDY' 테스트 돌리기 + 배포🎉

0. 들어가는 말(이 글은 2024.02.19 - 좌충우돌 딥러닝을 이용한 한글IPA변환기 에서 이어지는 글입니다.) 구어체로 느슨하게 전사하는 프로그램을 완성하기는 했는데, 욕심이 나서 UI를 입혔다. 챗GPT 시키니 금세 되니 좋다. 비록 자잘한 오류가 많아서 '내가 못하는 새로운 일'을 시킬 수는 없지만, 할줄 아는데 귀찮은 것은 챗GPT 시켜서 초벌로 해놓고 나온 결과를 직접 수정하니 편리하다. 앱의 이름은 JKDY로 정했다. 이 프로그램이 "좋거든요"를 전사하면 조커등여 [tɕ o kh ʌ t ɯ ŋ jʌ] 라고 나오는데 약자를 따와 JKDY라고 한 것이다.    목차 1. 조커등여새로 만든 장난감(?) 가지고 놀다가 대체 내가 무슨 괴물을 만든 건가 생각이 들었다.ㅋㅋㅋ 무슨일이냐 하면 바로 ..

좌충우돌 딥러닝을 이용한 한글IPA변환기

0. 들어가는 말한글을 입력하면 철자 그대로 충실히 IPA로 자동 전사하는 '기계'에 대해서는 다른 글에서 소개하였습니다. 본 글에서는 거기에서 한걸음 더 나아가 transformer 모델을 이용해서 한글 철자 입력하면 구어체 서울한국어 발화형을 예측하는 모델을 다룹니다. 혹시 그냥 "한글"을 쓰면 [hɑŋɡɯl]로 자동전사해주기 원하시면 아래 페이지를 참고해주세요.https://linguisting.tistory.com/84 Convert Korean orthography into IPA transcriptionsUse 'Hangul to IPA' with the interface belowSee [readme] for more information. Scroll down a bit, and you'l..

통사론 지도 그리기

0. 요약 Cartography는 오늘날 최소주의 통사론의 경향 중의 하나로, 통상적인 통사분석보다 더더욱 세세한 분석을 하기 때문에 마치 '지도를 그리는 것 같다' 하여 cartography로 불립니다. 이 경향을 통해 한국어의 전통적인 문법 개념인 '어미'에 통사론적 지위를 부여하는 분석을 할 수 있기 때문에 많은 연구자들이 적극 수용하고 있습니다. 그러나 확실한 기반이 없으면 세세한 분석의 정당성을 찾기 어렵기 때문에 이 경향을 따르지 않는 연구자들도 있습니다. 목차 1. 대략적인 설명 및 정리 Cartography는 이탈리아의 언어학자인 Guglielmo Cinque와 Luigi Rizzi가 굴절이 발달한 로망스 언어들을 설명하기 위한 기제로 1980년대 주창한 통사 이론을 기반으로 합니다. 교착..

동일성에 대한 공포 horror aequi

0. 요약 겸 글 전체 선행연구를 읽다가 horror aequi라는 용어를 보았다. S-side 사람들이 왜 이렇게 라틴어를 좋아하나 모르겠는데, horror는 모두 알다시피 두려움, 공포를 의미하고, aequi는 영어의 equivalent, equal 등에서 확인할 수 있듯이 '같다'는 의미이다. horror aequi는 다시 말하면 '동일성에 대한 공포'라는 뜻이 되려나? 내가 언어학의 모든 것을 아는 것도 아니고 다만 일부를 공부하고 있을 따름이기 때문에, "뭐야 박사과정생이라면서 이거도 몰라?" 하면서 의아할 사람도 있을지 모르겠다. 어쨌든 나는 처음보는 개념어고 흥미를 느껴서 적어본다. 다만, 이 개념을 본격적으로 논의한 논문이 2022년에 나오고, Wikipedia 페이지조차 2023년 7월에..

Ladefoged는 왜 모음 기호를 잘못 썼나

0. 요약 음성음운론에 관심이 있는 사람이라면 Peter Ladefoged를 알 것입니다. 이 글에서는 Ladefoged가 책에서 음성기호를 잘못(?) 쓴 예시를 소개합니다. 음성학 발전의 한 단면을 소개하고 기호를 얼마나 신뢰해야 하는지 (혹은 하지 말아야 하는지)에 관한 교훈을 다루는 것이 목표입니다. 목차 1. Ladefoged의 실수? Ladefoged는 현대적 의미의 음성학의 기초를 마련한 훌륭한 선생님들 중 한 분이십니다. 1960년대에 UCLA에 phonetics labratory를 창립했는데, 이 랩 출신의 훌륭한 음성학자들이 많으십니다. 또한 Ladefoged가 쓴 (그리고 사후 Keith Johnson이 이어서 개정판을 내고 있는) 음성학 교과서 A Course in Phonetics는..