Web Analytics Made Easy - Statcounter
반응형

전체 글 226

transformer model attention weights 비교분석

목차 - 우당탕탕 이론언어학 연구자가 fairseq 입문한다- cross-attention 쉽게 접근하기- 신경망 이용한 음운론 연구 프로그램에서 이어지는 글입니다. 1. heatmap은 보기만 좋을 뿐Attention weights를 다 구하면 일단 아래와 같이 encoder-decoder cross attention weights 전체를, 각 layer와 각 head에 대해 heatmap으로 시각화할 수 있다.   위 그림은 의미가 없는 한국어 단어 "음월장"에 대하여 기계가 L-Tensification (ㄹ경음화)을 적용시켜 발음형을 "[음월짱]"이라고 도출해낸 이유를 설명하기 위한 heatmap이다. Output token 중 ㅉ에 해당하는 cc 부분을 보면, (c가 아니라) cc를 생성할 때 앞..

편견과 인종차별

0. 요약동아시아 출신에 대한 인종차별(Sinophobia)은 실제로 존재합니다. 당연히 수학을 잘할 거라고 전제한다거나 구두쇠일 거라고 전제한다는 등의 소소한 편견부터 직접적인 위협까지 있습니다. 목차   1. 소소한 편견의 사례들저는 박사과정 입시를 하던 당시 캐나다에 이미 체류하고 있었기 때문에 mailing address를 이미 캐나다 주소를 쓰고 있었습니다. 그럼에도 불구하고 처음 입학했던 당시에, 저로부터 특정 코멘트를 기대하는 것을 느낄 수 있었습니다. 예를들어, "와! 캐나다에 와서 컬처쇼크를 겪었어요!"라느니 "캐나다에 오니까 너무 좋아요!"라느니 하는 것들 말입니다. 캐나다도 한국 못지 않게 열등감이 있는지, 국제학생들로부터 (특히 미국에 비교하여) 캐나다가 좋다는 말을 듣고 싶어하나봅..

생각나는대로 2024.06.14

Hangul to IPA 업데이트 중 (완료함)

Hangul to IPA github repo를 팔로우 하는 사람은 눈치챘을지도 모르지만, 주말사이에 Hangul to IPA 에 대한 대대적인 업데이트를 했다. 핵심 기능은 파이썬으로 포팅을 다 마쳤고, 웹앱 인터페이스 구현할 일만 남았다.수정 (2024-06-10): 지금 해치워버리지 않으면 주중에는 도무지 못할 듯해 그냥 무리해서 인터페이스 구현과 deploy까지 끝마쳤다. 도파민 러시 상태에서 이제 자려고 함 (지금 여기 새벽3시)물론 documentation을 다 새로 써야하지만 일단 그건 천천히할 생각이다. 뭐 엄청 어려운 앱도 아니고 그냥 슥 보면 감 잡을 수 없겠나?ㅋㅋㅋ  거두절미하고, 기존 기능 외에 추가된 기능은 음소별로 구분자를 넣을 수 있다는 것이다. 아래 예시는 구분자로 "." ..

어종 관여 작용의 생산성(productivity) 실험 정리하기

만약 한국어 어종이 화석화되어서, 한자어든 고유어든 한 어종이 고착되어 있다면 그 고착된 어종에 관여된 음운작용은 생산적이지 않을 것이 예상된다. 비단어를 이용해서 시행한 음운작용의 생산성 실험결과를 드디어 정리하고 있다.  신경망학습의 결과는 비교적 선명하게 나왔다. 기계는 한 기반단어의 어종간 최소대립쌍 차이보다 랜덤하게 한국어 trigram에 충실하게 만든 비단어 간 랜덤한 차이에 더 민감했다. 왜 그런지를 attention weight matrix를 통해 보려고 하는데, 만만하지 않다. 한편 인간실험의 결과는 미묘하다. 모든 음성실험이 그렇듯 결과는 매우 회색이다. 음성학적 자료는 형태론적 자료보다 늘 '해석의 여지'가 크다. 원로 음운론 교수님이 학부 3학년 수업 하실 때 TA를 했었는데, 그때..

ChatGPT는 Praat Script 짤줄 몰라

0. 요약ChatGPT는 "할줄 몰라요"라는 말을 하지 않습니다. ChatGPT는 praat script를 잘 짤줄 모르는데, 그것보다 더 큰 문제는 ChatGPT가 "저 praat script 짤줄 몰라요. 자신없어요." 이런 말을 하지 않는다는 것입니다. 그래서 고전적인 방법으로, 이전에 다른분들이 만들어놓은 praat script 저장소를 이용합니다. 이 글에서는 그런 저장소를 소개합니다. (제목은 어그로성🤣) 목차  1. 분명한 한계높은 수준에서 이러 저러한 기능을 생각하고 그걸 구현하는 스크립트를 ChatGPT에서 짜달라고 부탁하는 게 효율적인 업무흐름입니다. 분명히 이전에 누군가 구현했을 기능, 혹은 그런 기능의 조합이기 때문에, 새로 바퀴를 만드느라 시간낭비하는 것보다, 기존의 여러 코드베..

관련성의 격률 위반 사례 이장우의 재치있는 대답

0. 요약기안84의 유튜브 채널 "인생84"에 출연한 이장우가 관련성의 격률을 위반 flouting 하면서 재치있는 대답을 했습니다. 아래 영상에 나오는 대화입니다. https://youtu.be/fH7Bc0IOrzI?si=cMKVy2LnP5bcRfnF&t=100(관심있는 대화는, 1분 40초부터 입니다) 기안84: 공부 좀 했어?이장우: 전 어릴 때부터 일을 했어요기안84: 아니 공부했냐고이장우: 그니까 어릴 때부터 일을 해서 공부하고는 좀 거리가 멀었죠. 목차  1. 왜 격률 위반(flouting)인가(학창 시절에) 공부를 좀 (잘) 했었냐는 기안84의 질문에 대한 이장우의 대답 "전 어릴 때부터 일을 했어요"는 관련성의 격률(Maxim of relation / Maxim of relevance)을 ..

음성 데이터만 있어도 분석해버리기

0. 요약러시아어학 전공 과정생이신 누에고치 님의 블로그 "누에고치의 누리집"을 즐겨 보고 있습니다.  예전 글을 훑어보다가 아래 글을 발견했는데, 2023년 2학기에 쓰신 기말 레포트 토픽들을 소개해주신 글이었습니다. 제시하신 여러 연구주제들 중 당연하게도 "음성학(+음운론)" 쪽에 관심이 갔습니다.https://nuee.tistory.com/660 2023-2학기 기말레포트 (등급성 반의어, 게임리뷰 감성분석, 음성학)입학하자마자 얼레벌레 한 학기가 흘러가고 어느덧 학기가 끝나버렸다. 연구방법론(노어학개론) 요약: 영어 '등급성 반의어' 형용사에 대한 연구(Lee 2013)을 대상을 러시아어로 바꿔보기. (출현빈nuee.tistory.com요약: 소련 시절부터 현재까지 러시아 뉴스 아나운서 보이스를 ..

R로 비-ASCII 문자처리 답답해 😠

Hangul to IPA 이슈: 북한을 [pukɑn]으로 잘못 전사한다.  디버깅을 하려고 시도하는데 진짜 정신나갈 것 같다. R은 그저 숫자를 통계처리할 때만 쓰기 때문에 RStudio 없이 그냥 통상적인 IDE에서 R plugin 통해 쓰는데, 문자열 처리가 진짜 고통스럽다. 이 기회에 아예 파이썬으로 포팅해버리고 싶다. 솔직히 말해서 디버깅하는 시간보다 새로 파이썬으로 다시 짜는 게 더 빠를 지경이다. 만약 Hangul to IPA 를 파이썬으로 다시 한다면 "둘뚤툴"(실시간으로 한국어 최소대립쌍 산출)처럼 좀더 아동틱(?)하거나 모바일 친화적인 UI를 만들까 하는 생각이 있다. (하지만 귀찮아서 안하겠지)  파이썬처럼 UTF-8 기본으로 딱 정리되어 있으면 세상 편할텐데 R에서 문자열 처리할 때 ..

생각나는대로 2024.05.09

20대 발화에서 인류 일류 구별

0. 요약이것저것 아주 겉핥기 글입니다.👅 수집한 발화 데이터를 보다가, 토픽과는 관련없는데, 비실험단어(filler)에 포함한 '인류,' '일류' 이 두 단어를 20대 실험참가자들이 한 명도 빠짐없이 구별해서 발음하는 것을 발견했습니다. 표준발음에서 이 두 단어는 구분이 안 되고 모두 [일류]로 발음됩니다. 이러한 발음차이는 아주 교과서적인 최적성이론 제약서열(constraint ranking)의 예시인 것처럼 보여서 핥핥하는 글을 씁니다. 최적성이론(OT)적으로 설명하는 걸 스스로 연습하는 글? 정도입니다. 진지한 글 아니에요.  이 글을 다 쓰고 (답안지 찾아보는 기분으로) 선행연구를 찾아보았습니다. 박선우 교수님의 논문 추천합니다. 박선우 (2006) 목차    1. '인류'와 '일류'표준 발음..

생각나는대로 2024.05.08

딥러닝 한국어 음운부를 구경해보세요

0. 들어가는 말 + 결론(이 글은 'JKDY' 테스트 돌리기 + 배포🎉에서 이어집니다.)고기도 먹어본 사람이 찾아먹는다는 속담이 있습니다. 음운론에 딥러닝이 왜 필요한지 실감이 안 될 사람을 한 명이라도 설득하기 위해, 아니 애초에 딥러닝이라면 일단 겁나고 무서운 사람 한 명의 마음을 돌리기 위해 JKDY를 쉽게 사용할 수 있는 방법을 고민해보았습니다. JKDY의 쓸모가 무엇이 되었건, 일단 가지고 놀게 할 수 있는 방법이 있으면 좋을 것 같습니다. 왜냐하면 본인의 입력에 따라 (맞건 틀리건) 즉각적 반응이 나타날 때 인간의 호기심이 가장 동한다고 생각하기 때문입니다.  그 고민의 결과가 구글 Colab을 통한 notebook 배포입니다. 이 링크 를 이용하면 JKDY를 부담없이 쓸 수 있습니다.ht..

생각나는대로 2024.05.07
반응형