Web Analytics Made Easy - Statcounter
반응형

분류 전체보기 161

관련성의 격률 위반 사례 이장우의 재치있는 대답

0. 요약기안84의 유튜브 채널 "인생84"에 출연한 이장우가 관련성의 격률을 위반 flouting 하면서 재치있는 대답을 했습니다. 아래 영상에 나오는 대화입니다. https://youtu.be/fH7Bc0IOrzI?si=cMKVy2LnP5bcRfnF&t=100(관심있는 대화는, 1분 40초부터 입니다) 기안84: 공부 좀 했어?이장우: 전 어릴 때부터 일을 했어요기안84: 아니 공부했냐고이장우: 그니까 어릴 때부터 일을 해서 공부하고는 좀 거리가 멀었죠. 목차  1. 왜 격률 위반(flouting)인가(학창 시절에) 공부를 좀 (잘) 했었냐는 기안84의 질문에 대한 이장우의 대답 "전 어릴 때부터 일을 했어요"는 관련성의 격률(Maxim of relation / Maxim of relevance)을 ..

음성 데이터만 있어도 분석해버리기

0. 요약러시아어학 전공 과정생이신 누에고치 님의 블로그 "누에고치의 누리집"을 즐겨 보고 있습니다.  예전 글을 훑어보다가 아래 글을 발견했는데, 2023년 2학기에 쓰신 기말 레포트 토픽들을 소개해주신 글이었습니다. 제시하신 여러 연구주제들 중 당연하게도 "음성학(+음운론)" 쪽에 관심이 갔습니다.https://nuee.tistory.com/660 2023-2학기 기말레포트 (등급성 반의어, 게임리뷰 감성분석, 음성학)입학하자마자 얼레벌레 한 학기가 흘러가고 어느덧 학기가 끝나버렸다. 연구방법론(노어학개론) 요약: 영어 '등급성 반의어' 형용사에 대한 연구(Lee 2013)을 대상을 러시아어로 바꿔보기. (출현빈nuee.tistory.com요약: 소련 시절부터 현재까지 러시아 뉴스 아나운서 보이스를 ..

R로 비-ASCII 문자처리 답답해 😠

Hangul to IPA 이슈: 북한을 [pukɑn]으로 잘못 전사한다.  디버깅을 하려고 시도하는데 진짜 정신나갈 것 같다. R은 그저 숫자를 통계처리할 때만 쓰기 때문에 RStudio 없이 그냥 통상적인 IDE에서 R plugin 통해 쓰는데, 문자열 처리가 진짜 고통스럽다. 이 기회에 아예 파이썬으로 포팅해버리고 싶다. 솔직히 말해서 디버깅하는 시간보다 새로 파이썬으로 다시 짜는 게 더 빠를 지경이다. 만약 Hangul to IPA 를 파이썬으로 다시 한다면 "둘뚤툴"(실시간으로 한국어 최소대립쌍 산출)처럼 좀더 아동틱(?)하거나 모바일 친화적인 UI를 만들까 하는 생각이 있다. (하지만 귀찮아서 안하겠지)  파이썬처럼 UTF-8 기본으로 딱 정리되어 있으면 세상 편할텐데 R에서 문자열 처리할 때 ..

생각나는대로 2024.05.09

20대 발화에서 인류 일류 구별

0. 요약이것저것 아주 겉핥기 글입니다.👅 수집한 발화 데이터를 보다가, 토픽과는 관련없는데, 비실험단어(filler)에 포함한 '인류,' '일류' 이 두 단어를 20대 실험참가자들이 한 명도 빠짐없이 구별해서 발음하는 것을 발견했습니다. 표준발음에서 이 두 단어는 구분이 안 되고 모두 [일류]로 발음됩니다. 이러한 발음차이는 아주 교과서적인 최적성이론 제약서열(constraint ranking)의 예시인 것처럼 보여서 핥핥하는 글을 씁니다. 진지한 글 아니에요.  목차    1. '인류'와 '일류'표준 발음에서 인류와 일류는 똑같이 발음된다. 모두 역행동화가 적용되어 [일류]로 발음된다. 그러나 내가 최근 수집한 음성발화 실험데이터를 보는데, 20대 참여자들이 한 명도 빠짐없이 이 두 단어를 구별하는..

생각나는대로 2024.05.08

딥러닝 한국어 음운부를 구경해보세요

0. 들어가는 말 + 결론(이 글은 'JKDY' 테스트 돌리기 + 배포🎉에서 이어집니다.)고기도 먹어본 사람이 찾아먹는다는 속담이 있습니다. 음운론에 딥러닝이 왜 필요한지 실감이 안 될 사람을 한 명이라도 설득하기 위해, 아니 애초에 딥러닝이라면 일단 겁나고 무서운 사람 한 명의 마음을 돌리기 위해 JKDY를 쉽게 사용할 수 있는 방법을 고민해보았습니다. JKDY의 쓸모가 무엇이 되었건, 일단 가지고 놀게 할 수 있는 방법이 있으면 좋을 것 같습니다. 왜냐하면 본인의 입력에 따라 (맞건 틀리건) 즉각적 반응이 나타날 때 인간의 호기심이 가장 동한다고 생각하기 때문입니다.  그 고민의 결과가 구글 Colab을 통한 notebook 배포입니다. 이 링크 를 이용하면 JKDY를 부담없이 쓸 수 있습니다.ht..

생각나는대로 2024.05.07

Gen Z를 대하며 느끼는 묘한 기분

0. 도입30대 중반이 되기 전까지만 해도 저는 결코 세대론의 신봉자가 아니었습니다. 세대론은 그저 '갈라치기' 하는 것으로밖에 보이지 않았고, 그렇게 하는 데에는 득보다 실이 많다고 생각했습니다. (득이라면 그저 '흥미', 가장 큰 실은 '선입견'). 무엇보다 어느 사회건 세대보다 계급/계층이 더 확실한 설명요인이라고 믿었습니다. 그러나 이제는 다 커버린 Gen Z를 자주 대면하는 입장에서, 요즘은 세대 간 차이에 대한 생각을 많이 하게 되는 것 같습니다. 특히 내가 속한 밀레니얼 세대와 Gen Z가 다른 지점들을 자꾸 직면하다보니, Gen Z가 가진 특이한 지점 뿐만 아니라 내 세대에 대해서도 생각을 많이 하는 것 같습니다. 이 글에서는 대학에 막 입학한 어린 Gen Z들과, 사회/인문학 계열 전공하..

이젠 하다하다 🤣🤣🤣

https://chat.openai.com/share/b66a80f1-452d-4148-95c1-e89a3c23bea1 ChatGPTA conversational AI system that listens, learns, and challengeschat.openai.com(링크 클릭하기 꺼려지는 사람들을 위해 전체 내용이 포스팅 하단에 있습니다) GPT 괴롭히기 재밌네요. 돈내도 시간당 일정 quota 넘으면 GPT4 못쓰던데, 이렇게 된 바에야 쉴때도 GPT 써야겠어요.ㅋㅋㅋ   질문자왓 더즈 gpt 스탠드 포?ChatGPT GPT는 "Generative Pre-trained Transformer"의 약자로, 트랜스포머(Transformer)라는 딥러닝 아키텍처를 기반으로 한 사전 훈련된 생성 모델을 ..

생각나는대로 2024.05.02

음운부를 괴롭히자

오늘 산책하다가 갑자기 든 생각인데 도대체 한국어의 ㅡ 모음 혹은 영어의 ə 중에서 기저형에서부터 specify되어야만 하는 게 비율적으로 얼마나 될까 궁금해졌다. 예를들어 tomorrow. 렉시콘에 /tmɑɹo/ 만 넣어두면 tm 연쇄 깨려고 ə 넣고 등등해서 실제 사용되는 형태를 만들어낼 수 있다. 반대로 기저에서부터 반드시 specify되어야 하는 ə들이 있을 것이다. about, adobe, arise, alaska 처럼 어두에 ə가 있는데 그거 없어도 [baʊt], [doʊbɪ], [ɹaɪz], [læskə] 와 같이 음운적으로 하등 문제가 없는 단어들은 분명히 어두 ə가 기저에서부터 온 것이다. tomorrow의 ə 같은 게 많을까 아니면 about의 ə 같은 게 많을까? 그리고 한국어의 ㅡ ..

생각나는대로 2024.05.02

한국어 수량사 사용의 어종

0. 요약[링크]에 나온 유튜브 공연 실황 중, 진행자가 현재 접속해있는 사람의 수 236을 표현하기 위해 "이백 삼십 육 분"이라고 했다가 어색함을 느끼고 "이백 삼십 육 명"으로 수정했습니다. 이 글에서는 한국어의 어종(고유어 vs 한자어)와 수량사 사용에 대해 포스팅합니다. 목차  1. 두 종류의 숫자 체계한국어에는 일(一), 이(二), 삼(三)... 으로 이어지는 한자어 기반 숫자 체계와 한, 둘, 셋... 으로 이어지는 고유어 숫자 체계가 있다. '분', '시', '명' 과 같은 수량사와 함께 쓸 때에는 두 시스템 중에 무엇을 써야 하는지가 비교적 엄밀하게 지정되어 있다.  예를 들어 나이를 말할 때가 있다. 한국어에서는 숫자에 이어서 '세'와 '살' 이렇게 두 가지 수량사를 쓰는데, 이때 한자..

신경망 이용한 음운론 연구 workflow (feat. Fairseq)

0. 요약그냥 제가 같은 작업 자꾸자꾸 반복하는 거 좀 체계화/단일화 하기 위해서 순서 정리하는 글이에요.  목차 1. 단계들1단계: 시작하기일단 찬물을 마셔서 정신을 차리고, 모든 걸 담을 수 있는(?) 폴더를 하나 만든다. 사람이 준비 안 되어 있으면 기계는 일하지 않는다. 폴더에는 일단은 raw data만 담아둔다. 2단계: 모델 훈련하기Google colab이든 Amazon AWS든 Microsoft Azure든 본인 취향에 맞는 cloud computing resources 에서 모델을 훈련한다. 나는 아직 모델 훈련 전단계가 익숙하지 않기 때문에 raw data 읽어들이거나 preprocessing할 때 중간중간 printout 할 수 있게 Jupyter notebook을 선호한다. 예시: h..

반응형