Web Analytics Made Easy - Statcounter
반응형

생각나는대로 38

R로 비-ASCII 문자처리 답답해 😠

Hangul to IPA 이슈: 북한을 [pukɑn]으로 잘못 전사한다.  디버깅을 하려고 시도하는데 진짜 정신나갈 것 같다. R은 그저 숫자를 통계처리할 때만 쓰기 때문에 RStudio 없이 그냥 통상적인 IDE에서 R plugin 통해 쓰는데, 문자열 처리가 진짜 고통스럽다. 이 기회에 아예 파이썬으로 포팅해버리고 싶다. 솔직히 말해서 디버깅하는 시간보다 새로 파이썬으로 다시 짜는 게 더 빠를 지경이다. 만약 Hangul to IPA 를 파이썬으로 다시 한다면 "둘뚤툴"(실시간으로 한국어 최소대립쌍 산출)처럼 좀더 아동틱(?)하거나 모바일 친화적인 UI를 만들까 하는 생각이 있다. (하지만 귀찮아서 안하겠지)  파이썬처럼 UTF-8 기본으로 딱 정리되어 있으면 세상 편할텐데 R에서 문자열 처리할 때 ..

생각나는대로 2024.05.09

20대 발화에서 인류 일류 구별

0. 요약이것저것 아주 겉핥기 글입니다.👅 수집한 발화 데이터를 보다가, 토픽과는 관련없는데, 비실험단어(filler)에 포함한 '인류,' '일류' 이 두 단어를 20대 실험참가자들이 한 명도 빠짐없이 구별해서 발음하는 것을 발견했습니다. 표준발음에서 이 두 단어는 구분이 안 되고 모두 [일류]로 발음됩니다. 이러한 발음차이는 아주 교과서적인 최적성이론 제약서열(constraint ranking)의 예시인 것처럼 보여서 핥핥하는 글을 씁니다. 진지한 글 아니에요.  목차    1. '인류'와 '일류'표준 발음에서 인류와 일류는 똑같이 발음된다. 모두 역행동화가 적용되어 [일류]로 발음된다. 그러나 내가 최근 수집한 음성발화 실험데이터를 보는데, 20대 참여자들이 한 명도 빠짐없이 이 두 단어를 구별하는..

생각나는대로 2024.05.08

딥러닝 한국어 음운부를 구경해보세요

0. 들어가는 말 + 결론(이 글은 'JKDY' 테스트 돌리기 + 배포🎉에서 이어집니다.)고기도 먹어본 사람이 찾아먹는다는 속담이 있습니다. 음운론에 딥러닝이 왜 필요한지 실감이 안 될 사람을 한 명이라도 설득하기 위해, 아니 애초에 딥러닝이라면 일단 겁나고 무서운 사람 한 명의 마음을 돌리기 위해 JKDY를 쉽게 사용할 수 있는 방법을 고민해보았습니다. JKDY의 쓸모가 무엇이 되었건, 일단 가지고 놀게 할 수 있는 방법이 있으면 좋을 것 같습니다. 왜냐하면 본인의 입력에 따라 (맞건 틀리건) 즉각적 반응이 나타날 때 인간의 호기심이 가장 동한다고 생각하기 때문입니다.  그 고민의 결과가 구글 Colab을 통한 notebook 배포입니다. 이 링크 를 이용하면 JKDY를 부담없이 쓸 수 있습니다.ht..

생각나는대로 2024.05.07

이젠 하다하다 🤣🤣🤣

https://chat.openai.com/share/b66a80f1-452d-4148-95c1-e89a3c23bea1 ChatGPTA conversational AI system that listens, learns, and challengeschat.openai.com(링크 클릭하기 꺼려지는 사람들을 위해 전체 내용이 포스팅 하단에 있습니다) GPT 괴롭히기 재밌네요. 돈내도 시간당 일정 quota 넘으면 GPT4 못쓰던데, 이렇게 된 바에야 쉴때도 GPT 써야겠어요.ㅋㅋㅋ   질문자왓 더즈 gpt 스탠드 포?ChatGPT GPT는 "Generative Pre-trained Transformer"의 약자로, 트랜스포머(Transformer)라는 딥러닝 아키텍처를 기반으로 한 사전 훈련된 생성 모델을 ..

생각나는대로 2024.05.02

음운부를 괴롭히자

오늘 산책하다가 갑자기 든 생각인데 도대체 한국어의 ㅡ 모음 혹은 영어의 ə 중에서 기저형에서부터 specify되어야만 하는 게 비율적으로 얼마나 될까 궁금해졌다. 예를들어 tomorrow. 렉시콘에 /tmɑɹo/ 만 넣어두면 tm 연쇄 깨려고 ə 넣고 등등해서 실제 사용되는 형태를 만들어낼 수 있다. 반대로 기저에서부터 반드시 specify되어야 하는 ə들이 있을 것이다. about, adobe, arise, alaska 처럼 어두에 ə가 있는데 그거 없어도 [baʊt], [doʊbɪ], [ɹaɪz], [læskə] 와 같이 음운적으로 하등 문제가 없는 단어들은 분명히 어두 ə가 기저에서부터 온 것이다. tomorrow의 ə 같은 게 많을까 아니면 about의 ə 같은 게 많을까? 그리고 한국어의 ㅡ ..

생각나는대로 2024.05.02

학부 언어학 개론 수업에서 초청강연을 "또" 했습니다.

5년전에 이런 글을 올렸던 적이 있습니다. 2019.03.26 - [생각나는대로] - 학부 언어학 개론 수업에서 초청강연을 했습니다. 학부 언어학 개론 수업에서 초청강연을 했습니다. 학부에 개설된 Ling101에서 한국어를 소개했습니다. Ling101은 언어학과 이외의 타과생 대상으로 하는 교양 수업인데, 언어학 이론보다는 세계 언어의 여러 모습에 초점을 맞추는 과목입니다. 여기 linguisting.tistory.com 한바퀴 돌아서 5년만에 똑같은 과목인 LING101에서 강연을 했습니다. 이번에는 50분을 꽉 채워서 연구분야에 대해 이야기했네요. 올해는 박사과정생 4명이 각각 1시간씩 자신의 연구주제에 대해 교양수업 수강생들의 눈높이에 맞추어 강연했습니다. 총 2주의 기간 동안 일 주일에 2명 씩 ..

생각나는대로 2024.04.10

영리하게 과제를 하는 학부생 그룹

이번에 타과생을 대상으로 하는 언어학 교양과목을 하면서 기말 조별과제로 language survey를 냈다. 이제 학기가 끝나가고 있어서 제출을 다 받았고, 채점을 하고 있다. 그 와중에 드는 생각을 정리하기 위해 글을 쓴다. Language survey는 말그대로 잘 연구되지 않았거나(understudied) 화자 수가 적은 소수언어를 골라 조사를 하는 것인데, 대체로 reference grammar를 채택하고 거기에서 소개된 문장이나 표현 등을 보고 언어자질(feature)을 정리하여 제시하는 것을 요구한다. 주로 학부 1학년 2학년생들을 대상으로 훈련시키는데, 이런 연습이 고학년 때 혹은 대학원 가서 도움이 되기 때문이다. 이번에는 language survey를 타과생 교양과목에서도 시도하게 되었다..

생각나는대로 2024.03.29

티스토리 그만둘 고민

티스토리의 장단점이 있습니다. 양쪽 측면이 너무 뚜렷해서 그만둘까 하는 고민이 꽤 오래 지속되고 있습니다. (만약 장점만 뚜렷하면 그만둘 생각을 안할 것이고, 단점만 뚜렷하다면 당장 그만뒀을 테니까요.) 단점 가장 큰 단점은 카카오에서 강제로 광고를 단다는 것입니다. 저는 지금 이 글에 광고를 달지 않을 것입니다. 그런데 만약 여러분에게 글 상단 그리고 하단에 광고가 나온다면 그건 카카오에서 제 의사와 상관없이 단 광고입니다. 두번째 단점은 유저층입니다. 2010년대 네이버 블로그에서 보던 패턴과 얼추 일치하는 것 같은데, 홍보성 댓글/포스팅과 방문 품앗이가 너무 빈번해지고 있습니다. 진지한 글이든 슬픈 글이든 올리자마자 1분도 되지 않아 "좋은 글 감사합니다! 잘 보고 갑니닷!! ㅎㅎ" 하는 댓글을 토..

생각나는대로 2024.01.27

언어학자 너희들도 규범적이야

0. 요약 학부생이 수업 중 던진 질문에 우리 teaching team 모두가 깊은 생각에 빠졌던 일을 공유합니다. 때는 개론 수업 중에 규범주의와 기술주의에 대해 설명하는 부분이었습니다. '언어학은 기술주의적으로 언어를 다룬다' 어쩌고저쩌고 이런 만트라 같은 이야기 반복하는 날이었습니다. 학부 3학년인가 4학년 정도 된 학생이 불쑥 질문을 했습니다. 컴퓨터과학 혹은 컴퓨터공학 전공 학생이었던 걸로 기억합니다. 그 친구는 언어학자도 규범주의적인 말 많이 하지 않냐, 도대체 기술적(descriptive)이라는 걸 이해할 수 없다. 라고 말했습니다. 일면 타당한 면이 있었고 분명 우문(어리석은 질문)은 아니었습니다. 그 친구의 말처럼 과연 '언어학은 기술주의적이다' 는 도그마에 불과한가요? 결국 언어학이 말..

생각나는대로 2024.01.20
반응형