Web Analytics Made Easy - Statcounter
반응형

분류 전체보기 219

R로 비-ASCII 문자처리 답답해 😠

Hangul to IPA 이슈: 북한을 [pukɑn]으로 잘못 전사한다.  디버깅을 하려고 시도하는데 진짜 정신나갈 것 같다. R은 그저 숫자를 통계처리할 때만 쓰기 때문에 RStudio 없이 그냥 통상적인 IDE에서 R plugin 통해 쓰는데, 문자열 처리가 진짜 고통스럽다. 이 기회에 아예 파이썬으로 포팅해버리고 싶다. 솔직히 말해서 디버깅하는 시간보다 새로 파이썬으로 다시 짜는 게 더 빠를 지경이다. 만약 Hangul to IPA 를 파이썬으로 다시 한다면 "둘뚤툴"(실시간으로 한국어 최소대립쌍 산출)처럼 좀더 아동틱(?)하거나 모바일 친화적인 UI를 만들까 하는 생각이 있다. (하지만 귀찮아서 안하겠지)  파이썬처럼 UTF-8 기본으로 딱 정리되어 있으면 세상 편할텐데 R에서 문자열 처리할 때 ..

생각나는대로 2024.05.09

20대 발화에서 인류 일류 구별

0. 요약이것저것 아주 겉핥기 글입니다.👅 수집한 발화 데이터를 보다가, 토픽과는 관련없는데, 비실험단어(filler)에 포함한 '인류,' '일류' 이 두 단어를 20대 실험참가자들이 한 명도 빠짐없이 구별해서 발음하는 것을 발견했습니다. 표준발음에서 이 두 단어는 구분이 안 되고 모두 [일류]로 발음됩니다. 이러한 발음차이는 아주 교과서적인 최적성이론 제약서열(constraint ranking)의 예시인 것처럼 보여서 핥핥하는 글을 씁니다. 최적성이론(OT)적으로 설명하는 걸 스스로 연습하는 글? 정도입니다. 진지한 글 아니에요.  이 글을 다 쓰고 (답안지 찾아보는 기분으로) 선행연구를 찾아보았습니다. 박선우 교수님의 논문 추천합니다. 박선우 (2006) 목차    1. '인류'와 '일류'표준 발음..

생각나는대로 2024.05.08

딥러닝 한국어 음운부를 구경해보세요

0. 들어가는 말 + 결론(이 글은 'JKDY' 테스트 돌리기 + 배포🎉에서 이어집니다.)고기도 먹어본 사람이 찾아먹는다는 속담이 있습니다. 음운론에 딥러닝이 왜 필요한지 실감이 안 될 사람을 한 명이라도 설득하기 위해, 아니 애초에 딥러닝이라면 일단 겁나고 무서운 사람 한 명의 마음을 돌리기 위해 JKDY를 쉽게 사용할 수 있는 방법을 고민해보았습니다. JKDY의 쓸모가 무엇이 되었건, 일단 가지고 놀게 할 수 있는 방법이 있으면 좋을 것 같습니다. 왜냐하면 본인의 입력에 따라 (맞건 틀리건) 즉각적 반응이 나타날 때 인간의 호기심이 가장 동한다고 생각하기 때문입니다.  그 고민의 결과가 구글 Colab을 통한 notebook 배포입니다. 이 링크 를 이용하면 JKDY를 부담없이 쓸 수 있습니다.ht..

생각나는대로 2024.05.07

Gen Z를 대하며 느끼는 묘한 기분

0. 도입30대 중반이 되기 전까지만 해도 저는 결코 세대론의 신봉자가 아니었습니다. 세대론은 그저 '갈라치기' 하는 것으로밖에 보이지 않았고, 그렇게 하는 데에는 득보다 실이 많다고 생각했습니다. (득이라면 그저 '흥미', 가장 큰 실은 '선입견'). 무엇보다 어느 사회건 세대보다 계급/계층이 더 확실한 설명요인이라고 믿었습니다. 그러나 이제는 다 커버린 Gen Z를 자주 대면하는 입장에서, 요즘은 세대 간 차이에 대한 생각을 많이 하게 되는 것 같습니다. 특히 내가 속한 밀레니얼 세대와 Gen Z가 다른 지점들을 자꾸 직면하다보니, Gen Z가 가진 특이한 지점 뿐만 아니라 내 세대에 대해서도 생각을 많이 하는 것 같습니다. 이 글에서는 대학에 막 입학한 어린 Gen Z들과, 사회/인문학 계열 전공하..

이젠 하다하다 🤣🤣🤣

https://chat.openai.com/share/b66a80f1-452d-4148-95c1-e89a3c23bea1 ChatGPTA conversational AI system that listens, learns, and challengeschat.openai.com(링크 클릭하기 꺼려지는 사람들을 위해 전체 내용이 포스팅 하단에 있습니다) GPT 괴롭히기 재밌네요. 돈내도 시간당 일정 quota 넘으면 GPT4 못쓰던데, 이렇게 된 바에야 쉴때도 GPT 써야겠어요.ㅋㅋㅋ   질문자왓 더즈 gpt 스탠드 포?ChatGPT GPT는 "Generative Pre-trained Transformer"의 약자로, 트랜스포머(Transformer)라는 딥러닝 아키텍처를 기반으로 한 사전 훈련된 생성 모델을 ..

생각나는대로 2024.05.02

음운부를 괴롭히자

오늘 산책하다가 갑자기 든 생각인데 도대체 한국어의 ㅡ 모음 혹은 영어의 ə 중에서 기저형에서부터 specify되어야만 하는 게 비율적으로 얼마나 될까 궁금해졌다. 예를들어 tomorrow. 렉시콘에 /tmɑɹo/ 만 넣어두면 tm 연쇄 깨려고 ə 넣고 등등해서 실제 사용되는 형태를 만들어낼 수 있다. 반대로 기저에서부터 반드시 specify되어야 하는 ə들이 있을 것이다. about, adobe, arise, alaska 처럼 어두에 ə가 있는데 그거 없어도 [baʊt], [doʊbɪ], [ɹaɪz], [læskə] 와 같이 음운적으로 하등 문제가 없는 단어들은 분명히 어두 ə가 기저에서부터 온 것이다. tomorrow의 ə 같은 게 많을까 아니면 about의 ə 같은 게 많을까? 그리고 한국어의 ㅡ ..

생각나는대로 2024.05.02

한국어 수량사 사용의 어종

0. 요약[링크]에 나온 유튜브 공연 실황 중, 진행자가 현재 접속해있는 사람의 수 236을 표현하기 위해 "이백 삼십 육 분"이라고 했다가 어색함을 느끼고 "이백 삼십 육 명"으로 수정했습니다. 이 글에서는 한국어의 어종(고유어 vs 한자어)와 수량사 사용에 대해 포스팅합니다. 목차  1. 두 종류의 숫자 체계한국어에는 일(一), 이(二), 삼(三)... 으로 이어지는 한자어 기반 숫자 체계와 한, 둘, 셋... 으로 이어지는 고유어 숫자 체계가 있다. '분', '시', '명' 과 같은 수량사와 함께 쓸 때에는 두 시스템 중에 무엇을 써야 하는지가 비교적 엄밀하게 지정되어 있다.  예를 들어 나이를 말할 때가 있다. 한국어에서는 숫자에 이어서 '세'와 '살' 이렇게 두 가지 수량사를 쓰는데, 이때 한자..

신경망 이용한 음운론 연구 workflow (feat. Fairseq)

0. 요약그냥 제가 같은 작업 자꾸자꾸 반복하는 거 좀 체계화/단일화 하기 위해서 순서 정리하는 글이에요. "다른 사람은 어떻게 하나"를 알기가 힘들고, 특히 저와 같이 한국에서 명문대를 안 나온 사람일수록 다른 사람 연구 방법론을 귀동냥하기도 힘들어요 (오히려 그런 사람들이 더 많이 귀동냥을 해야 하는데도 말이죠). 그래서 이 글은 그런 사람들한테 도움이 되었으면 하는 바람에서 씁니다.   목차 1. 단계들1단계: 시작하기일단 찬물을 마셔서 정신을 차리고, 모든 걸 담을 수 있는(?) 폴더를 하나 만든다. 사람이 준비 안 되어 있으면 기계는 일하지 않는다. 폴더에는 일단은 raw data만 담아둔다. raw data라고 함은, 입력과 출력 쌍을 말한다. 예를 들어 한국어의 위치동화를 학습하는 모델을 만..

언어학의 초심으로 돌아가기

0. 도입 및 요약지난 2024년 3월에는 미국언어학회(Linguistic Society of America)의 학회지 "Language"[링크]의 제 100권(volume)이 발간되었습니다. 1년에 1권(volume)이 나온다는 걸 생각하면 100주년이 된 것입니다. 이를 기념하기 위해 미국 구조주의 언어학의 아버지이자 LSA의 창립멤버였던 Leonard Bloomfield의 1925년 글 "Why a linguistic society?"(왜 언어학회를?)가 코멘터리와 함께 다시 게재되었습니다.[링크] 이번 포스팅에서는 Bloomfield의 "Why a linguistic society?"를 간단하게 번역/소개합니다. "Why a linguistic society?"는 저널 Language에 실린 첫번..

밤에도 불이 꺼지지 않는 랩

0. 요약밤산책을 하다가 불이 꺼지지 않은 건물을 보았습니다. 불현듯 불안해졌습니다. 이유는 무엇일까요? 아마도 일하고있지 않는다는 자각이 불안감으로 작용하는 것 같습니다. 목차 1. 악몽지도교수님과 몇 년동안 지속적으로 미팅을 하고 같이 일을 하게되면, 일 말고도 사적인 이야기를 많이 하게 됩니다. 제 지도교수님은 테뉴어를 받은지 몇년 되지 않으신 분이신데, 한번은 악몽을 꾼 이야기를 해주셨습니다. 꿈속에서 박사과정 시절로 돌아갔었는데, 꿈 속에서 너무 고통스러웠다고 합니다. 그래서 잠에서 깼는데, 순간 "아니 나 분명 졸업한 것 같은데 아니었나? 졸업한 게 꿈이었나?" 했었답니다.   이론언어학은 순수학문으로 분류되고, 박사학위를 따는 게 만렙 찍는 것입니다. 박사학위를 따서 공식적으로 언어학자 타이..

반응형