Web Analytics Made Easy - Statcounter

Bouncing ideas 생각 작업실 71

한국어에 어휘강세가 존재한다면

목차 0. 도입어휘강세는 단어형 수준에서 결정되는 강세를 말한다. 영어는 어휘강세가 뚜렷하게 나타나는데, 규칙적으로 예측되는 경우도 있고, 기저형에서 결정되는 것으로 처리하는 어휘강세도 있다. 후자는 record (명사) vs. record (동사) 혹은 permit (명사) vs. permit(동사)의 차이처럼 품사에 따르기도 한다.  서울 한국어에는 어휘강세(lexical stress)가 없고 Accentual Phrase, Intonational Phrase 단위에서 실현되는 prosodic stress가 있다고 알고 있었는데, 선행연구에는 어휘강세가 있다는 보고들이 있었나보다. Lim (2001) 에서 어휘강세에 선행연구 두 건을 소개했고, 이어서 음성실험(발화/인식)이 나온다. Lim 2001에..

transformer model attention weights 비교분석

목차 - 우당탕탕 이론언어학 연구자가 fairseq 입문한다- cross-attention 쉽게 접근하기- 신경망 이용한 음운론 연구 프로그램에서 이어지는 글입니다. 1. heatmap은 보기만 좋을 뿐Attention weights를 다 구하면 일단 아래와 같이 encoder-decoder cross attention weights 전체를, 각 layer와 각 head에 대해 heatmap으로 시각화할 수 있다.   위 그림은 의미가 없는 한국어 단어 "음월장"에 대하여 기계가 L-Tensification (ㄹ경음화)을 적용시켜 발음형을 "[음월짱]"이라고 도출해낸 이유를 설명하기 위한 heatmap이다. Output token 중 ㅉ에 해당하는 cc 부분을 보면, (c가 아니라) cc를 생성할 때 앞..

Hangul to IPA 업데이트 중 (완료함)

Hangul to IPA github repo를 팔로우 하는 사람은 눈치챘을지도 모르지만, 주말사이에 Hangul to IPA 에 대한 대대적인 업데이트를 했다. 핵심 기능은 파이썬으로 포팅을 다 마쳤고, 웹앱 인터페이스 구현할 일만 남았다.수정 (2024-06-10): 지금 해치워버리지 않으면 주중에는 도무지 못할 듯해 그냥 무리해서 인터페이스 구현과 deploy까지 끝마쳤다. 도파민 러시 상태에서 이제 자려고 함 (지금 여기 새벽3시)물론 documentation을 다 새로 써야하지만 일단 그건 천천히할 생각이다. 뭐 엄청 어려운 앱도 아니고 그냥 슥 보면 감 잡을 수 없겠나?ㅋㅋㅋ  거두절미하고, 기존 기능 외에 추가된 기능은 음소별로 구분자를 넣을 수 있다는 것이다. 아래 예시는 구분자로 "." ..

어종 관여 작용의 생산성(productivity) 실험 정리하기

만약 한국어 어종이 화석화되어서, 한자어든 고유어든 한 어종이 고착되어 있다면 그 고착된 어종에 관여된 음운작용은 생산적이지 않을 것이 예상된다. 비단어를 이용해서 시행한 음운작용의 생산성 실험결과를 드디어 정리하고 있다.  신경망학습의 결과는 비교적 선명하게 나왔다. 기계는 한 기반단어의 어종간 최소대립쌍 차이보다 랜덤하게 한국어 trigram에 충실하게 만든 비단어 간 랜덤한 차이에 더 민감했다. 왜 그런지를 attention weight matrix를 통해 보려고 하는데, 만만하지 않다. 한편 인간실험의 결과는 미묘하다. 모든 음성실험이 그렇듯 결과는 매우 회색이다. 음성학적 자료는 형태론적 자료보다 늘 '해석의 여지'가 크다. 원로 음운론 교수님이 학부 3학년 수업 하실 때 TA를 했었는데, 그때..

ChatGPT는 Praat Script 짤줄 몰라

0. 요약ChatGPT는 "할줄 몰라요"라는 말을 하지 않습니다. ChatGPT는 praat script를 잘 짤줄 모르는데, 그것보다 더 큰 문제는 ChatGPT가 "저 praat script 짤줄 몰라요. 자신없어요." 이런 말을 하지 않는다는 것입니다. 그래서 고전적인 방법으로, 이전에 다른분들이 만들어놓은 praat script 저장소를 이용합니다. 이 글에서는 그런 저장소를 소개합니다. (제목은 어그로성🤣) 목차  1. 분명한 한계높은 수준에서 이러 저러한 기능을 생각하고 그걸 구현하는 스크립트를 ChatGPT에서 짜달라고 부탁하는 게 효율적인 업무흐름입니다. 분명히 이전에 누군가 구현했을 기능, 혹은 그런 기능의 조합이기 때문에, 새로 바퀴를 만드느라 시간낭비하는 것보다, 기존의 여러 코드베..

음성 데이터만 있어도 분석해버리기

0. 요약러시아어학 전공 과정생이신 누에고치 님의 블로그 "누에고치의 누리집"을 즐겨 보고 있습니다.  예전 글을 훑어보다가 아래 글을 발견했는데, 2023년 2학기에 쓰신 기말 레포트 토픽들을 소개해주신 글이었습니다. 제시하신 여러 연구주제들 중 당연하게도 "음성학(+음운론)" 쪽에 관심이 갔습니다.https://nuee.tistory.com/660 2023-2학기 기말레포트 (등급성 반의어, 게임리뷰 감성분석, 음성학)입학하자마자 얼레벌레 한 학기가 흘러가고 어느덧 학기가 끝나버렸다. 연구방법론(노어학개론) 요약: 영어 '등급성 반의어' 형용사에 대한 연구(Lee 2013)을 대상을 러시아어로 바꿔보기. (출현빈nuee.tistory.com요약: 소련 시절부터 현재까지 러시아 뉴스 아나운서 보이스를 ..

신경망 이용한 음운론 연구 workflow (feat. Fairseq)

0. 요약그냥 제가 같은 작업 자꾸자꾸 반복하는 거 좀 체계화/단일화 하기 위해서 순서 정리하는 글이에요. "다른 사람은 어떻게 하나"를 알기가 힘들고, 특히 저와 같이 한국에서 명문대를 안 나온 사람일수록 다른 사람 연구 방법론을 귀동냥하기도 힘들어요 (오히려 그런 사람들이 더 많이 귀동냥을 해야 하는데도 말이죠). 그래서 이 글은 그런 사람들한테 도움이 되었으면 하는 바람에서 씁니다.   목차 1. 단계들1단계: 시작하기일단 찬물을 마셔서 정신을 차리고, 모든 걸 담을 수 있는(?) 폴더를 하나 만든다. 사람이 준비 안 되어 있으면 기계는 일하지 않는다. 폴더에는 일단은 raw data만 담아둔다. raw data라고 함은, 입력과 출력 쌍을 말한다. 예를 들어 한국어의 위치동화를 학습하는 모델을 만..

언어학의 초심으로 돌아가기

0. 도입 및 요약지난 2024년 3월에는 미국언어학회(Linguistic Society of America)의 학회지 "Language"[링크]의 제 100권(volume)이 발간되었습니다. 1년에 1권(volume)이 나온다는 걸 생각하면 100주년이 된 것입니다. 이를 기념하기 위해 미국 구조주의 언어학의 아버지이자 LSA의 창립멤버였던 Leonard Bloomfield의 1925년 글 "Why a linguistic society?"(왜 언어학회를?)가 코멘터리와 함께 다시 게재되었습니다.[링크] 이번 포스팅에서는 Bloomfield의 "Why a linguistic society?"를 간단하게 번역/소개합니다. "Why a linguistic society?"는 저널 Language에 실린 첫번..

fairseq translation task cross-attention 접근 쉽게하기

.translate() method에 verbose parameter가 있다는 걸 간과했다. verbose = True 주니까 각 hypothesis 별로 아래와 같은 log가 터미널에 뿌려졌다. 2024-04-10 00:27:55 | INFO | fairseq.hub_utils | H-0.012383962981402874c i m a lZ cc v ngZ 2024-04-10 00:37:22 | INFO | fairseq.hub_utils | P-0.0000 -0.0000 -0.0001 -0.0000 -0.0000 -0.1113 -0.0000 -0.0000 -0.0000 beam = 5 였으므로 5개 후보형을 고려한다. 그래서 각 2줄, 총 10줄의 log가 떴다. 이 데이터는 이해하기 쉽다. 입력값 (..

Never assume anything

실험데이터를 기계에 넣고 다 돌려버리는 것과 별개로, human touch가 들어가는 것이 필요하다. 예상치도 못한 변수가 있을 수 있기 때문이고 그 부분에서 이름 걸고 연구하는 사람이 확인을 하고 책임을 질 선택을 해야 하기 때문이다. 사람은 다양하다. 사람으로부터 얻는 데이터도 다양하다. 그래서 무엇도 당연히 생각하면 안된다. 상상을 초월하는 경우는 늘 있다. 예전에 토론토에서 운전하다가 교외에서 사고를 낸 적이 있다. 대인사고는 아니었는데, 차가 좀 망가져서 garage에서 견인차를 불러 수리를 맡겼다. 어짜피 garage가 토론토에 있었기 때문에 견인차 옆자리를 얻어타고 돌아가는데, 아저씨 운전석에 대문짝만하게 NEVER ASSUME ANYTHING이라고 써져있는 걸 봤다. "무엇도 당연하게 전제..