Web Analytics Made Easy - Statcounter
반응형

전체 글 157

딥러닝 한국어 음운부를 구경해보세요

0. 들어가는 말 + 결론(이 글은 'JKDY' 테스트 돌리기 + 배포🎉에서 이어집니다.)고기도 먹어본 사람이 찾아먹는다는 속담이 있습니다. 음운론에 딥러닝이 왜 필요한지 실감이 안 될 사람을 한 명이라도 설득하기 위해, 아니 애초에 딥러닝이라면 일단 겁나고 무서운 사람 한 명의 마음을 돌리기 위해 JKDY를 쉽게 사용할 수 있는 방법을 고민해보았습니다. JKDY의 쓸모가 무엇이 되었건, 일단 가지고 놀게 할 수 있는 방법이 있으면 좋을 것 같습니다. 왜냐하면 본인의 입력에 따라 (맞건 틀리건) 즉각적 반응이 나타날 때 인간의 호기심이 가장 동한다고 생각하기 때문입니다.  그 고민의 결과가 구글 Colab을 통한 notebook 배포입니다. 이 링크 를 이용하면 JKDY를 부담없이 쓸 수 있습니다.ht..

생각나는대로 2024.05.07

Gen Z를 대하며 느끼는 묘한 기분

0. 도입30대 중반이 되기 전까지만 해도 저는 결코 세대론의 신봉자가 아니었습니다. 세대론은 그저 '갈라치기' 하는 것으로밖에 보이지 않았고, 그렇게 하는 데에는 득보다 실이 많다고 생각했습니다. (득이라면 그저 '흥미', 가장 큰 실은 '선입견'). 무엇보다 어느 사회건 세대보다 계급/계층이 더 확실한 설명요인이라고 믿었습니다. 그러나 이제는 다 커버린 Gen Z를 자주 대면하는 입장에서, 요즘은 세대 간 차이에 대한 생각을 많이 하게 되는 것 같습니다. 특히 내가 속한 밀레니얼 세대와 Gen Z가 다른 지점들을 자꾸 직면하다보니, Gen Z가 가진 특이한 지점 뿐만 아니라 내 세대에 대해서도 생각을 많이 하는 것 같습니다. 이 글에서는 대학에 막 입학한 어린 Gen Z들과, 사회/인문학 계열 전공하..

이젠 하다하다 🤣🤣🤣

https://chat.openai.com/share/b66a80f1-452d-4148-95c1-e89a3c23bea1 ChatGPTA conversational AI system that listens, learns, and challengeschat.openai.com(링크 클릭하기 꺼려지는 사람들을 위해 전체 내용이 포스팅 하단에 있습니다) GPT 괴롭히기 재밌네요. 돈내도 시간당 일정 quota 넘으면 GPT4 못쓰던데, 이렇게 된 바에야 쉴때도 GPT 써야겠어요.ㅋㅋㅋ   질문자왓 더즈 gpt 스탠드 포?ChatGPT GPT는 "Generative Pre-trained Transformer"의 약자로, 트랜스포머(Transformer)라는 딥러닝 아키텍처를 기반으로 한 사전 훈련된 생성 모델을 ..

생각나는대로 2024.05.02

음운부를 괴롭히자

오늘 산책하다가 갑자기 든 생각인데 도대체 한국어의 ㅡ 모음 혹은 영어의 ə 중에서 기저형에서부터 specify되어야만 하는 게 비율적으로 얼마나 될까 궁금해졌다. 예를들어 tomorrow. 렉시콘에 /tmɑɹo/ 만 넣어두면 tm 연쇄 깨려고 ə 넣고 등등해서 실제 사용되는 형태를 만들어낼 수 있다. 반대로 기저에서부터 반드시 specify되어야 하는 ə들이 있을 것이다. about, adobe, arise, alaska 처럼 어두에 ə가 있는데 그거 없어도 [baʊt], [doʊbɪ], [ɹaɪz], [læskə] 와 같이 음운적으로 하등 문제가 없는 단어들은 분명히 어두 ə가 기저에서부터 온 것이다. tomorrow의 ə 같은 게 많을까 아니면 about의 ə 같은 게 많을까? 그리고 한국어의 ㅡ ..

생각나는대로 2024.05.02

한국어 수량사 사용의 어종

0. 요약[링크]에 나온 유튜브 공연 실황 중, 진행자가 현재 접속해있는 사람의 수 236을 표현하기 위해 "이백 삼십 육 분"이라고 했다가 어색함을 느끼고 "이백 삼십 육 명"으로 수정했습니다. 이 글에서는 한국어의 어종(고유어 vs 한자어)와 수량사 사용에 대해 포스팅합니다. 목차  1. 두 종류의 숫자 체계한국어에는 일(一), 이(二), 삼(三)... 으로 이어지는 한자어 기반 숫자 체계와 한, 둘, 셋... 으로 이어지는 고유어 숫자 체계가 있다. '분', '시', '명' 과 같은 수량사와 함께 쓸 때에는 두 시스템 중에 무엇을 써야 하는지가 비교적 엄밀하게 지정되어 있다.  예를 들어 나이를 말할 때가 있다. 한국어에서는 숫자에 이어서 '세'와 '살' 이렇게 두 가지 수량사를 쓰는데, 이때 한자..

신경망 이용한 음운론 연구 workflow (feat. Fairseq)

0. 요약그냥 제가 같은 작업 자꾸자꾸 반복하는 거 좀 체계화/단일화 하기 위해서 순서 정리하는 글이에요.  목차 1. 단계들1단계: 시작하기일단 찬물을 마셔서 정신을 차리고, 모든 걸 담을 수 있는(?) 폴더를 하나 만든다. 사람이 준비 안 되어 있으면 기계는 일하지 않는다. 폴더에는 일단은 raw data만 담아둔다. 2단계: 모델 훈련하기Google colab이든 Amazon AWS든 Microsoft Azure든 본인 취향에 맞는 cloud computing resources 에서 모델을 훈련한다. 나는 아직 모델 훈련 전단계가 익숙하지 않기 때문에 raw data 읽어들이거나 preprocessing할 때 중간중간 printout 할 수 있게 Jupyter notebook을 선호한다. 예시: h..

언어학의 초심으로 돌아가기

0. 도입 및 요약지난 2024년 3월에는 미국언어학회(Linguistic Society of America)의 학회지 "Language"[링크]의 제 100권(volume)이 발간되었습니다. 1년에 1권(volume)이 나온다는 걸 생각하면 100주년이 된 것입니다. 이를 기념하기 위해 미국 구조주의 언어학의 아버지이자 LSA의 창립멤버였던 Leonard Bloomfield의 1925년 글 "Why a linguistic society?"(왜 언어학회를?)가 코멘터리와 함께 다시 게재되었습니다.[링크] 이번 포스팅에서는 Bloomfield의 "Why a linguistic society?"를 간단하게 번역/소개합니다. "Why a linguistic society?"는 저널 Language에 실린 첫번..

밤에도 불이 꺼지지 않는 랩

0. 요약밤산책을 하다가 불이 꺼지지 않은 건물을 보았습니다. 불현듯 불안해졌습니다. 이유는 무엇일까요? 아마도 일하고있지 않는다는 자각이 불안감으로 작용하는 것 같습니다. 목차 1. 악몽지도교수님과 몇 년동안 지속적으로 미팅을 하고 같이 일을 하게되면, 일 말고도 사적인 이야기를 많이 하게 됩니다. 제 지도교수님은 테뉴어를 받은지 몇년 되지 않으신 분이신데, 한번은 악몽을 꾼 이야기를 해주셨습니다. 꿈속에서 박사과정 시절로 돌아갔었는데, 꿈 속에서 너무 고통스러웠다고 합니다. 그래서 잠에서 깼는데, 순간 "아니 나 분명 졸업한 것 같은데 아니었나? 졸업한 게 꿈이었나?" 했었답니다.   이론언어학은 순수학문으로 분류되고, 박사학위를 따는 게 만렙 찍는 것입니다. 박사학위를 따서 공식적으로 언어학자 타이..

시험을 어렵게 만드는 요소

0. 도입 며칠 전 언어학 교양 수업 기말고사의 채점을 끝냈습니다. 지난 중간고사를 너무 잘 봐서, 아예 작정을 하고 시험을 어렵게 낼 수 있는 기회가 생겼었습니다. 그런데도 잘 보는 사람들은 잘 보네요. 마음대로 시험을 어렵게 내는 과정에서 고려했던 몇 가지 요소들이 있었습니다. 그 중에서 나름 효과가 있어보이는 (즉, 학생들이 실수하게 만드는) 요소들을 이 글에 정리해 놓습니다. 아마도 다음에도 어려운 시험을 낼 일이 생긴다면 이런 요소를 응용할 것 같습니다. 아예 "답을 모르겠다"까지가 아니더라도 "시간이 부족하다"라는 인상을 주어도 시험을 어렵게 만드는 데에는 좋은 것 같습니다. 목차 1. 불필요한 맥락을 너무 많이 넣는다. 문제풀이 자체를 위해서는 필요 없는 사회문화적 맥락을 과도하게 집어넣어서..

'어림짐작'으로 쉽게 말하는 사람들

0. 머리말 계산적(computational) 연구에는 반드시 기계 (컴퓨터) 가 사용됩니다. 컴퓨터의 사용은 대충보면 간편해보이는데 실제로는 간단하지 않습니다. 이 글은 언어학 연구에서 컴퓨팅 자원의 사용에 대한 '아무말대잔치'를 다룹니다. 목차 1. 소위 '좋은 시절' "요즘에는 개인 컴퓨터들 성능이 좋아서 본인 컴퓨터에서 결과 쉽게쉽게 나오니 참 좋겠어. 우리때는 데이터가 있어도 분석하려면 학교 컴퓨터 랩 예약해서 겨우겨우 시간 쫓겨가며 해야했는데.." 라고 선배 세대가 말하는 걸 보면 그냥 웃으며 아무 말 하지 않거나, 내 기분이 좀 좋으면 우쭈쭈해드리곤 한다. 2. 연구하려면 돈내세요 모델 하나를 쓰는데 구글 colab에서 100 compute unit이 소요되었다. 15불이다. 그 모델이 성공..

반응형