Web Analytics Made Easy - Statcounter
반응형

Bouncing ideas 생각 작업실 69

Yale → 한글

0. 요약로마자를 사용하여 한국어를 표기하는 방법은 여러가지지만 언어학에서 표준으로 사용하는 것은 Yale 표기법이라고 합니다. 이 포스팅에서는 Yale 방식으로 표기된 한국어를 입력받아 한글로 바꿔주는 프로그램을 배포합니다.예를 들어 Yale 방식으로 "mwelako ssun ke.ya" 라고 되어있는 한국어 문장을 이 프로그램으로 변환하면 아래와 같습니다.  목차 1. 동기예전에 한 연구자님께서, "논문에서 Yale 방식으로 표기된 한국어를 더욱 쉽게 읽기 위해서, Yale 방식으로 된 한국어 문장을 한글로 자동 변환할 수 있으면 편리할 것 같다"라고 문의하신 적이 있었다. 기존 hangul-to-ipa에는 한글을 Yale로 변환하는 로직이 있다. 그걸 이용하면 쉽게 만들 수 있다 (해체는 조립의 역..

깡통 노트북에 가벼운 LLM 올려서 계엄사태 대비하기

0. 요약구형에다가 경량으로 디자인된 노트북에 대규모언어모델(LLM)을 올려보았습니다. ChatGPT같은 챗봇으로 소통하는 언어모델입니다. 이 글에서는 그 경험을 공유합니다.그 과정에서 LLM 경량화가 무엇인지를 NLP 비전공자 수준에서 소개합니다. 또한 누구든 하찮은 기계에 LLM을 따라 올려볼 수 있도록 각 단계를 소개합니다.또한 여담으로 인공지능에 의한 불법적 계엄사태에 저항하는 연습도 해봅니다. 목차  1. 가벼운 기계나한테는 2017년에 구입해서 한 3년 정도 사용했던 경량 노트북이 있다. 모델명은 삼성 nt900x5y, 흔히 "노트북 9 Always"라는 상품명으로 알려진 제품이다. 이 노트북은 광고가 인상적이었다. 경량 노트북이고 특히 usb-c 포트를 통한 충전이 가능하다는 걸 강조하는 광..

다시 몰타어의 시간 Time for Maltese, again

한국어 챕터가 어느정도 정리되었다. 한국어는 층위가 어원에 따르지 않고 음소배열적으로 결정되고, 층위따른 선택적 규칙적용이 생산성 있다는 잠정결론. 이제 "어원"이라고 형태론한테 덤핑했던 팩터를 음운론으로 가져와야 한단 건 확실한데 그 형식이 고민이다. 예전 Ito and Mester나 그 논문에 따른 한국어 literature 중 층위별 음소배열제약서열 core-periphery 하던거를 전용(appropriation)할 수는 없을까? 아직 불확정이고, 결국 그 논의는 못할 가능성이 높다 (연구자의 지능이슈😿). 어쨌든 다시 몰타어의 시간이다.Mifsud, M. (1995). Loan verbs in Maltese: A descriptive and comparative study. Leiden, Th..

[jaɪks]: Just Another IPA Keyboard - Simplified

0. 요약macOS에서 쓸만한 IPA 키보드 깍는 노인 연구자 이야기입니다. 실제 macOS 앱은 섹션 5에서 받을 수 있고, 나머지는 만들었던 동기와 과정에 대해 설명합니다. 목차 1. 좀이 쑤셔서며칠 전 이런 글을 올렸다. macOS에서 사용하기 적절한 IPA 입력수단을 못찾아서 직접 만들어 쓴다는 내용. https://linguisting.tistory.com/233 macOS에서 음성기호 IPA 사용하기0. 요약 macOS에서 인터넷 연결 없이 IPA 쓰는 방법 소개합니다.  목차  1. IPA picker모든 학부 음성음운론 개론수업에서 가장 먼저 소개하는 것이 "컴퓨터로 IPA입력하기", "컴퓨터에서 IPA 안 깨지linguisting.tistory.com  막상 블로그에 글을 올려놓으니 좀이..

macOS에서 음성기호 IPA 사용하기 (Yikes 쓰세요)

0. 요약 macOS에서 인터넷 연결 없이 IPA 쓰는 방법 소개합니다. 결론: Yikes [jaɪks] 쓰세요!   목차  1. IPA picker모든 학부 음성음운론 개론수업에서 가장 먼저 소개하는 것이 "컴퓨터로 IPA입력하기", "컴퓨터에서 IPA 안 깨지게 보는 법"이다. 후자는 오늘날 최신 OS들이 지원하는 폰트들이 유니코드 대부분을 커버하기 때문에 사실상 불필요해진 감이 있지만, 컴퓨터로 IPA 기호들을 어떻게 입력하는지는 반드시 알아야 한다. 손으로 IPA 기호를 쓰는 건 쉽지만, 컴퓨터로 입력하는 건 좀 어려울 수 있기 때문이다. 그때 우리가 반 고정적으로 소개하는 툴들은 온라인에서 사용하는 IPA picker들이다. IPA picker들은 IPA 차트에 따라 기호들이 배열되어 있고, 사..

2페이지씩 스캔한 이미지 여러 개 단번에 반갈죽

0. 요약Aquilina (1965)가 디지타이징 되어있지 않아서 실제 책을 빌려 필요한 부분을 스캔했습니다. 책은 펼치면 2페이지가 펼쳐지니까 이미지도 2페이지씩 스캔되었습니다. 이번 포스팅에서는 이렇게 2페이지씩 된 이미지 여러개 있을 때 간단한 파이썬 스크립트를 이용해서 단번에 다 자른 경험을 공유합니다. 오랜만에 "경험.실험 나누기" 카테고리에 맞는 글이네요.   목차 1. 왜 Acrobat으로 못하는데?펼친 페이지들을 엄청 많이 스캔했다. 스캔한 이미지들, Adobe Acrobat으로 반갈죽해서 PDF로 만들 수 있을 줄 알았다. 그런데 놀랍게도 인공지능이 인간이랑 농담따먹기 하는 이 시대에 돈을 내고 쓰는 Adobe Acrobat에 그 기능이 없다!더보기ChatGPT 4o model이 한국어..

규칙과 예외의 전복

전복죽 만드는 재료 전복 아님. 뒤바뀜을 말하는 전복(顚覆). 나는 L-Tensification (ㄹ경음화)를 예외로 전제하고 모든 과정을 진행했는데, 처음 실험 디자인 할때부터 교수님이랑 미팅할 때 나온 이야기가 바로 "정말 예외가 맞을까?"였다. 선행연구를 정리해서 전반적인 그림을 그려놓고나니, ㄹ뒤에 경음화를 하지 않을 것이 일반상태이다(other things being equal, Tensification is not expected after /L/.) 라는 결론은 그저 자연부류와 형태론적 논증에서 나온 논리적인 추상에 불과했다. 실증적으로 정말 화자들의 언어가 그렇게 구성되어 있을지는 뚜껑을 까보기 전에는 모르는 것. Prescient하게도 (선구안적으로? 앞을 내다보는 각으로? 우리말로 뭐라..

통계공부하기 (요약: Sonderegger 2022를 추천)

0. 요약언어학은 경험과학입니다. 그 중에서 음운론은 특히 경험주의적인 전통이 강합니다. 경험주의 전통이 강한 영미권 학문 문화에서는 아예 어떻게 하면 경험과학을 잘 할 수 있는지를 고민하는 학문분야가 아예 따로있는데, 바로 통계학입니다. 음운론적 논증을 할 때 통계학이 많이 필요한 때가 생깁니다. 실험이라도 한번 하면 반드시 통계가 수반됩니다. 이 포스팅에서는 통계학을 전공하지 않는 제가 어떤 책으로 공부했는지 그리고 또 공부하고 있는지를 소개합니다.  목차  1. 선사(先史): 고등학교와 교양과목물론 처음 시작은 고등학교 확률과 통계였다. 경우의수 순열조합 Z-score 구하기 95% 99% 신뢰도 등등이 고등학교 범위에 이미 포함되어 있던 것으로 기억한다. 그 이후에는 대학교 교양과목으로 통계를 들..

한국어에 어휘강세가 존재한다면

목차 0. 도입어휘강세는 단어형 수준에서 결정되는 강세를 말한다. 영어는 어휘강세가 뚜렷하게 나타나는데, 규칙적으로 예측되는 경우도 있고, 기저형에서 결정되는 것으로 처리하는 어휘강세도 있다. 후자는 record (명사) vs. record (동사) 혹은 permit (명사) vs. permit(동사)의 차이처럼 품사에 따르기도 한다.  서울 한국어에는 어휘강세(lexical stress)가 없고 Accentual Phrase, Intonational Phrase 단위에서 실현되는 prosodic stress가 있다고 알고 있었는데, 선행연구에는 어휘강세가 있다는 보고들이 있었나보다. Lim (2001) 에서 어휘강세에 선행연구 두 건을 소개했고, 이어서 음성실험(발화/인식)이 나온다. Lim 2001에..

transformer model attention weights 비교분석

목차 - 우당탕탕 이론언어학 연구자가 fairseq 입문한다- cross-attention 쉽게 접근하기- 신경망 이용한 음운론 연구 프로그램에서 이어지는 글입니다. 1. heatmap은 보기만 좋을 뿐Attention weights를 다 구하면 일단 아래와 같이 encoder-decoder cross attention weights 전체를, 각 layer와 각 head에 대해 heatmap으로 시각화할 수 있다.   위 그림은 의미가 없는 한국어 단어 "음월장"에 대하여 기계가 L-Tensification (ㄹ경음화)을 적용시켜 발음형을 "[음월짱]"이라고 도출해낸 이유를 설명하기 위한 heatmap이다. Output token 중 ㅉ에 해당하는 cc 부분을 보면, (c가 아니라) cc를 생성할 때 앞..

반응형