Web Analytics Made Easy - Statcounter
반응형

Bouncing ideas 생각 작업실 67

다시 몰타어의 시간 Time for Maltese, again

한국어 챕터가 어느정도 정리되었다. 한국어는 층위가 어원에 따르지 않고 음소배열적으로 결정되고, 층위따른 선택적 규칙적용이 생산성 있다는 잠정결론. 이제 "어원"이라고 형태론한테 덤핑했던 팩터를 음운론으로 가져와야 한단 건 확실한데 그 형식이 고민이다. 예전 Ito and Mester나 그 논문에 따른 한국어 literature 중 층위별 음소배열제약서열 core-periphery 하던거를 전용(appropriation)할 수는 없을까? 아직 불확정이고, 결국 그 논의는 못할 가능성이 높다 (연구자의 지능이슈😿). 어쨌든 다시 몰타어의 시간이다.Mifsud, M. (1995). Loan verbs in Maltese: A descriptive and comparative study. Leiden, Th..

[jaɪks]: Just Another IPA Keyboard - Simplified

0. 요약macOS에서 쓸만한 IPA 키보드 깍는 노인 연구자 이야기입니다. 실제 macOS 앱은 섹션 5에서 받을 수 있고, 나머지는 만들었던 동기와 과정에 대해 설명합니다. 목차 1. 좀이 쑤셔서며칠 전 이런 글을 올렸다. macOS에서 사용하기 적절한 IPA 입력수단을 못찾아서 직접 만들어 쓴다는 내용. https://linguisting.tistory.com/233 macOS에서 음성기호 IPA 사용하기0. 요약 macOS에서 인터넷 연결 없이 IPA 쓰는 방법 소개합니다.  목차  1. IPA picker모든 학부 음성음운론 개론수업에서 가장 먼저 소개하는 것이 "컴퓨터로 IPA입력하기", "컴퓨터에서 IPA 안 깨지linguisting.tistory.com  막상 블로그에 글을 올려놓으니 좀이..

macOS에서 음성기호 IPA 사용하기 (Yikes 쓰세요)

0. 요약 macOS에서 인터넷 연결 없이 IPA 쓰는 방법 소개합니다. 결론: Yikes [jaɪks] 쓰세요!   목차  1. IPA picker모든 학부 음성음운론 개론수업에서 가장 먼저 소개하는 것이 "컴퓨터로 IPA입력하기", "컴퓨터에서 IPA 안 깨지게 보는 법"이다. 후자는 오늘날 최신 OS들이 지원하는 폰트들이 유니코드 대부분을 커버하기 때문에 사실상 불필요해진 감이 있지만, 컴퓨터로 IPA 기호들을 어떻게 입력하는지는 반드시 알아야 한다. 손으로 IPA 기호를 쓰는 건 쉽지만, 컴퓨터로 입력하는 건 좀 어려울 수 있기 때문이다. 그때 우리가 반 고정적으로 소개하는 툴들은 온라인에서 사용하는 IPA picker들이다. IPA picker들은 IPA 차트에 따라 기호들이 배열되어 있고, 사..

2페이지씩 스캔한 이미지 여러 개 단번에 반갈죽

0. 요약Aquilina (1965)가 디지타이징 되어있지 않아서 실제 책을 빌려 필요한 부분을 스캔했습니다. 책은 펼치면 2페이지가 펼쳐지니까 이미지도 2페이지씩 스캔되었습니다. 이번 포스팅에서는 이렇게 2페이지씩 된 이미지 여러개 있을 때 간단한 파이썬 스크립트를 이용해서 단번에 다 자른 경험을 공유합니다. 오랜만에 "경험.실험 나누기" 카테고리에 맞는 글이네요.   목차 1. 왜 Acrobat으로 못하는데?펼친 페이지들을 엄청 많이 스캔했다. 스캔한 이미지들, Adobe Acrobat으로 반갈죽해서 PDF로 만들 수 있을 줄 알았다. 그런데 놀랍게도 인공지능이 인간이랑 농담따먹기 하는 이 시대에 돈을 내고 쓰는 Adobe Acrobat에 그 기능이 없다!더보기ChatGPT 4o model이 한국어..

규칙과 예외의 전복

전복죽 만드는 재료 전복 아님. 뒤바뀜을 말하는 전복(顚覆). 나는 L-Tensification (ㄹ경음화)를 예외로 전제하고 모든 과정을 진행했는데, 처음 실험 디자인 할때부터 교수님이랑 미팅할 때 나온 이야기가 바로 "정말 예외가 맞을까?"였다. 선행연구를 정리해서 전반적인 그림을 그려놓고나니, ㄹ뒤에 경음화를 하지 않을 것이 일반상태이다(other things being equal, Tensification is not expected after /L/.) 라는 결론은 그저 자연부류와 형태론적 논증에서 나온 논리적인 추상에 불과했다. 실증적으로 정말 화자들의 언어가 그렇게 구성되어 있을지는 뚜껑을 까보기 전에는 모르는 것. Prescient하게도 (선구안적으로? 앞을 내다보는 각으로? 우리말로 뭐라..

통계공부하기 (요약: Sonderegger 2022를 추천)

0. 요약언어학은 경험과학입니다. 그 중에서 음운론은 특히 경험주의적인 전통이 강합니다. 경험주의 전통이 강한 영미권 학문 문화에서는 아예 어떻게 하면 경험과학을 잘 할 수 있는지를 고민하는 학문분야가 아예 따로있는데, 바로 통계학입니다. 음운론적 논증을 할 때 통계학이 많이 필요한 때가 생깁니다. 실험이라도 한번 하면 반드시 통계가 수반됩니다. 이 포스팅에서는 통계학을 전공하지 않는 제가 어떤 책으로 공부했는지 그리고 또 공부하고 있는지를 소개합니다.  목차  1. 선사(先史): 고등학교와 교양과목물론 처음 시작은 고등학교 확률과 통계였다. 경우의수 순열조합 Z-score 구하기 95% 99% 신뢰도 등등이 고등학교 범위에 이미 포함되어 있던 것으로 기억한다. 그 이후에는 대학교 교양과목으로 통계를 들..

한국어에 어휘강세가 존재한다면

목차 0. 도입어휘강세는 단어형 수준에서 결정되는 강세를 말한다. 영어는 어휘강세가 뚜렷하게 나타나는데, 규칙적으로 예측되는 경우도 있고, 기저형에서 결정되는 것으로 처리하는 어휘강세도 있다. 후자는 record (명사) vs. record (동사) 혹은 permit (명사) vs. permit(동사)의 차이처럼 품사에 따르기도 한다.  서울 한국어에는 어휘강세(lexical stress)가 없고 Accentual Phrase, Intonational Phrase 단위에서 실현되는 prosodic stress가 있다고 알고 있었는데, 선행연구에는 어휘강세가 있다는 보고들이 있었나보다. Lim (2001) 에서 어휘강세에 선행연구 두 건을 소개했고, 이어서 음성실험(발화/인식)이 나온다. Lim 2001에..

transformer model attention weights 비교분석

목차 - 우당탕탕 이론언어학 연구자가 fairseq 입문한다- cross-attention 쉽게 접근하기- 신경망 이용한 음운론 연구 프로그램에서 이어지는 글입니다. 1. heatmap은 보기만 좋을 뿐Attention weights를 다 구하면 일단 아래와 같이 encoder-decoder cross attention weights 전체를, 각 layer와 각 head에 대해 heatmap으로 시각화할 수 있다.   위 그림은 의미가 없는 한국어 단어 "음월장"에 대하여 기계가 L-Tensification (ㄹ경음화)을 적용시켜 발음형을 "[음월짱]"이라고 도출해낸 이유를 설명하기 위한 heatmap이다. Output token 중 ㅉ에 해당하는 cc 부분을 보면, (c가 아니라) cc를 생성할 때 앞..

Hangul to IPA 업데이트 중 (완료함)

Hangul to IPA github repo를 팔로우 하는 사람은 눈치챘을지도 모르지만, 주말사이에 Hangul to IPA 에 대한 대대적인 업데이트를 했다. 핵심 기능은 파이썬으로 포팅을 다 마쳤고, 웹앱 인터페이스 구현할 일만 남았다.수정 (2024-06-10): 지금 해치워버리지 않으면 주중에는 도무지 못할 듯해 그냥 무리해서 인터페이스 구현과 deploy까지 끝마쳤다. 도파민 러시 상태에서 이제 자려고 함 (지금 여기 새벽3시)물론 documentation을 다 새로 써야하지만 일단 그건 천천히할 생각이다. 뭐 엄청 어려운 앱도 아니고 그냥 슥 보면 감 잡을 수 없겠나?ㅋㅋㅋ  거두절미하고, 기존 기능 외에 추가된 기능은 음소별로 구분자를 넣을 수 있다는 것이다. 아래 예시는 구분자로 "." ..

어종 관여 작용의 생산성(productivity) 실험 정리하기

만약 한국어 어종이 화석화되어서, 한자어든 고유어든 한 어종이 고착되어 있다면 그 고착된 어종에 관여된 음운작용은 생산적이지 않을 것이 예상된다. 비단어를 이용해서 시행한 음운작용의 생산성 실험결과를 드디어 정리하고 있다.  신경망학습의 결과는 비교적 선명하게 나왔다. 기계는 한 기반단어의 어종간 최소대립쌍 차이보다 랜덤하게 한국어 trigram에 충실하게 만든 비단어 간 랜덤한 차이에 더 민감했다. 왜 그런지를 attention weight matrix를 통해 보려고 하는데, 만만하지 않다. 한편 인간실험의 결과는 미묘하다. 모든 음성실험이 그렇듯 결과는 매우 회색이다. 음성학적 자료는 형태론적 자료보다 늘 '해석의 여지'가 크다. 원로 음운론 교수님이 학부 3학년 수업 하실 때 TA를 했었는데, 그때..

반응형