Web Analytics Made Easy - Statcounter
반응형

2024/05 6

딥러닝 한국어 음운부를 구경해보세요

0. 들어가는 말 + 결론(이 글은 'JKDY' 테스트 돌리기 + 배포🎉에서 이어집니다.)고기도 먹어본 사람이 찾아먹는다는 속담이 있습니다. 음운론에 딥러닝이 왜 필요한지 실감이 안 될 사람을 한 명이라도 설득하기 위해, 아니 애초에 딥러닝이라면 일단 겁나고 무서운 사람 한 명의 마음을 돌리기 위해 JKDY를 쉽게 사용할 수 있는 방법을 고민해보았습니다. JKDY의 쓸모가 무엇이 되었건, 일단 가지고 놀게 할 수 있는 방법이 있으면 좋을 것 같습니다. 왜냐하면 본인의 입력에 따라 (맞건 틀리건) 즉각적 반응이 나타날 때 인간의 호기심이 가장 동한다고 생각하기 때문입니다.  그 고민의 결과가 구글 Colab을 통한 notebook 배포입니다. 이 링크 를 이용하면 JKDY를 부담없이 쓸 수 있습니다.ht..

생각나는대로 2024.05.07

Gen Z를 대하며 느끼는 묘한 기분

0. 도입30대 중반이 되기 전까지만 해도 저는 결코 세대론의 신봉자가 아니었습니다. 세대론은 그저 '갈라치기' 하는 것으로밖에 보이지 않았고, 그렇게 하는 데에는 득보다 실이 많다고 생각했습니다. (득이라면 그저 '흥미', 가장 큰 실은 '선입견'). 무엇보다 어느 사회건 세대보다 계급/계층이 더 확실한 설명요인이라고 믿었습니다. 그러나 이제는 다 커버린 Gen Z를 자주 대면하는 입장에서, 요즘은 세대 간 차이에 대한 생각을 많이 하게 되는 것 같습니다. 특히 내가 속한 밀레니얼 세대와 Gen Z가 다른 지점들을 자꾸 직면하다보니, Gen Z가 가진 특이한 지점 뿐만 아니라 내 세대에 대해서도 생각을 많이 하는 것 같습니다. 이 글에서는 대학에 막 입학한 어린 Gen Z들과, 사회/인문학 계열 전공하..

이젠 하다하다 🤣🤣🤣

https://chat.openai.com/share/b66a80f1-452d-4148-95c1-e89a3c23bea1 ChatGPTA conversational AI system that listens, learns, and challengeschat.openai.com(링크 클릭하기 꺼려지는 사람들을 위해 전체 내용이 포스팅 하단에 있습니다) GPT 괴롭히기 재밌네요. 돈내도 시간당 일정 quota 넘으면 GPT4 못쓰던데, 이렇게 된 바에야 쉴때도 GPT 써야겠어요.ㅋㅋㅋ   질문자왓 더즈 gpt 스탠드 포?ChatGPT GPT는 "Generative Pre-trained Transformer"의 약자로, 트랜스포머(Transformer)라는 딥러닝 아키텍처를 기반으로 한 사전 훈련된 생성 모델을 ..

생각나는대로 2024.05.02

음운부를 괴롭히자

오늘 산책하다가 갑자기 든 생각인데 도대체 한국어의 ㅡ 모음 혹은 영어의 ə 중에서 기저형에서부터 specify되어야만 하는 게 비율적으로 얼마나 될까 궁금해졌다. 예를들어 tomorrow. 렉시콘에 /tmɑɹo/ 만 넣어두면 tm 연쇄 깨려고 ə 넣고 등등해서 실제 사용되는 형태를 만들어낼 수 있다. 반대로 기저에서부터 반드시 specify되어야 하는 ə들이 있을 것이다. about, adobe, arise, alaska 처럼 어두에 ə가 있는데 그거 없어도 [baʊt], [doʊbɪ], [ɹaɪz], [læskə] 와 같이 음운적으로 하등 문제가 없는 단어들은 분명히 어두 ə가 기저에서부터 온 것이다. tomorrow의 ə 같은 게 많을까 아니면 about의 ə 같은 게 많을까? 그리고 한국어의 ㅡ ..

생각나는대로 2024.05.02

한국어 수량사 사용의 어종

0. 요약[링크]에 나온 유튜브 공연 실황 중, 진행자가 현재 접속해있는 사람의 수 236을 표현하기 위해 "이백 삼십 육 분"이라고 했다가 어색함을 느끼고 "이백 삼십 육 명"으로 수정했습니다. 이 글에서는 한국어의 어종(고유어 vs 한자어)와 수량사 사용에 대해 포스팅합니다. 목차  1. 두 종류의 숫자 체계한국어에는 일(一), 이(二), 삼(三)... 으로 이어지는 한자어 기반 숫자 체계와 한, 둘, 셋... 으로 이어지는 고유어 숫자 체계가 있다. '분', '시', '명' 과 같은 수량사와 함께 쓸 때에는 두 시스템 중에 무엇을 써야 하는지가 비교적 엄밀하게 지정되어 있다.  예를 들어 나이를 말할 때가 있다. 한국어에서는 숫자에 이어서 '세'와 '살' 이렇게 두 가지 수량사를 쓰는데, 이때 한자..

신경망 이용한 음운론 연구 workflow (feat. Fairseq)

0. 요약그냥 제가 같은 작업 자꾸자꾸 반복하는 거 좀 체계화/단일화 하기 위해서 순서 정리하는 글이에요.  목차 1. 단계들1단계: 시작하기일단 찬물을 마셔서 정신을 차리고, 모든 걸 담을 수 있는(?) 폴더를 하나 만든다. 사람이 준비 안 되어 있으면 기계는 일하지 않는다. 폴더에는 일단은 raw data만 담아둔다. 2단계: 모델 훈련하기Google colab이든 Amazon AWS든 Microsoft Azure든 본인 취향에 맞는 cloud computing resources 에서 모델을 훈련한다. 나는 아직 모델 훈련 전단계가 익숙하지 않기 때문에 raw data 읽어들이거나 preprocessing할 때 중간중간 printout 할 수 있게 Jupyter notebook을 선호한다. 예시: h..

반응형