Web Analytics Made Easy - Statcounter
반응형

2024/12 8

Yale → 한글

0. 요약Yale 표기법으로 된 한국어를 한글로 자동 변환해주는 프로그램을 배포합니다.Yale 방식으로 mwelako ssun ke.ya 라고 되어있는 문장을 이 프로그램으로 변환하면 아래와 같습니다.  목차 1. 동기예전에 한 연구자님께서, "Yale 방식으로 표기된 한국어를 한글로 자동 변환할 수 있으면 편리할 것같다"라고 문의하신 적이 있었다. 기존 hangul-to-ipa에는 한글을 Yale로 변환하는 로직이 있었기 때문에 그걸 이용하여 금세 만들어 보내드렸었다. (해체는 조립의 역순) 아마도 다른 사람들 중에도 비슷한 문제로 골머리 썩는 사람이 있을지 모르겠다. 특히 통사론 의미론처럼 Yale로 되어 있는 긴 문장들을 많이 읽어야 하는 경우에는 더더욱 골치아플지 모른다.  그래서 이참에 예일 표..

한국어 지시 표현의 기저형 + 활음은 음소인가

1. 지시표현한국어는 지시표현(demonstrative)을 세 종류로 나눈다.  일반명사 앞에서 이/그/저를 써서 해당 명사가 물리적, 문맥적으로 얼마나 멀고 가까운지 표현한다. 이 정류장 '대화가 이루어지는 장소에서 물리적으로 가까운 정류장'저 정류장 '대화가 이루어지는 장소에서 물리적으로 먼 정류장'그 정류장 '문맥상 가까운(이미 언급 등) 정류장. 화자에게는 멀지만 청자에게는 가까울 수도 있음'이 표현은 형태론적으로 다른 표현과 결합하기도 한다. 여기 '=이곳, 물리적으로 가까운 장소'저기 '=저곳, 물리적으로 먼 장소'거기 '=그곳, 문맥상 가깝거나 화자에겐 멀지만 청자에겐 가까운 장소' 2. 기저형 상정하기이 표현들은 공통 형태를 가지는데, 그걸 기저형 /-ʌki/ 로 상정할 수 있다. 형태론적..

생각나는대로 2024.12.22

깡통 노트북에 가벼운 LLM 올려서 계엄사태 대비하기

0. 요약구형에다가 경량으로 디자인된 노트북에 대규모언어모델(LLM)을 올려보았습니다. ChatGPT같은 챗봇으로 소통하는 언어모델입니다. 이 글에서는 그 경험을 공유합니다.그 과정에서 LLM 경량화가 무엇인지를 NLP 비전공자 수준에서 소개합니다. 또한 누구든 하찮은 기계에 LLM을 따라 올려볼 수 있도록 각 단계를 소개합니다.또한 여담으로 인공지능에 의한 불법적 계엄사태에 저항하는 연습도 해봅니다. 목차  1. 가벼운 기계나한테는 2017년에 구입해서 한 3년 정도 사용했던 경량 노트북이 있다. 모델명은 삼성 nt900x5y, 흔히 "노트북 9 Always"라는 상품명으로 알려진 제품이다. 이 노트북은 광고가 인상적이었다. 경량 노트북이고 특히 usb-c 포트를 통한 충전이 가능하다는 걸 강조하는 광..

2025년부터 어떻게 서비스할건가 고민

난 컴퓨터 전공도 아니고 따로 공부를 깊게한 것도 아니다. 나는 연구할 때 귀찮은 것들 해주는 툴들을 그냥 파이썬으로 코딩하고, 그중 일부는 다른사람들도 편하게 쓰라고 Flask 웹앱으로 만들고 Heroku에 올려서 서비스한다. 옛날에 배운 pipeline이다. 최적이 아닌 걸 안다. 근데 Hangul-to-ipa 같은 경우는 트래픽이 좀 나오고 korean-auto-glossing은 쓰는 사람 별로 없어도 리소스 배정을 잘못해서 두 사람이 쓰면 죽어버리거나 살살 잘 사용하면 비용 많이 든다. 땅파면 돈나오는 게 아니기 때문에 청구서가 날라오면 내 주머니에서 (정확히는 계좌에서) 돈이 나간다.  그냥 눈 딱감고 매달 청구서 못본척해왔는데, 이게 1년치 쌓아놓고 보니까, 이렇게 하는게 의미가 있나 싶은 것..

생각나는대로 2024.12.15

커리큘럼 단상: 데이터 읽기 그 자체

학기말이 되고 채점을 하고 있으면 커리큘럼 그 자체에 대한 생각을 많이하게 된다. 우리과는 커리큘럼 상 P-side 과목이 5개나 존재하고 (그것도 사회언어학, acquisition 등 periphery 말고 순수 이론과목만 고려해도), 그걸 음운론이랑 음성학이 2:3 내지는 2.5:2.5로 잘 갈라먹는 상황이다. 이렇게 과목이 많은데 1개 과목 혹은 0.5개 과목은 "데이터 읽는 방법"과 "일반화하고 그걸 글로 쓰는 방법"에만 할애하는 게 어떨까 싶은 생각이다. 모르겠다. 이론은 그냥 배우고 적용하고 하는 것이라 technic인데, 언어데이터를 어떻게 봐야 하는지는 사실 art인 것같다. 둘다 기술이다. 후자의 art 기술은 수업에서 흔히 '전제되는' 듯하고 다루지 않는데 조금 문제인 것같다. 왜냐하면..

생각나는대로 2024.12.11

다시 몰타어의 시간 Time for Maltese, again

한국어 챕터가 어느정도 정리되었다. 한국어는 층위가 어원에 따르지 않고 음소배열적으로 결정되고, 층위따른 선택적 규칙적용이 생산성 있다는 잠정결론. 이제 "어원"이라고 형태론한테 덤핑했던 팩터를 음운론으로 가져와야 한단 건 확실한데 그 형식이 고민이다. 예전 Ito and Mester나 그 논문에 따른 한국어 literature 중 층위별 음소배열제약서열 core-periphery 하던거를 전용(appropriation)할 수는 없을까? 아직 불확정이고, 결국 그 논의는 못할 가능성이 높다 (연구자의 지능이슈😿). 어쨌든 다시 몰타어의 시간이다.Mifsud, M. (1995). Loan verbs in Maltese: A descriptive and comparative study. Leiden, Th..

자괴감들고 괴로워

오블완이니 뭐니 생 지랄을 하더니 고작 이게 끝.심지어 이모티콘 파일명도 성의없이 001, 002, 003, ... 020 라서, 그냥 참여 안해도 https://t1.daumcdn.net/keditor/emoticon/challenge/large/[숫자].png로 쓸수있음. 위에 표도 ChatGPT 시켜서 저 url template에 숫자 자리에 0부터 20까지 넣어서 표 만들라고 해서 만든거임. 티스토리는 정말 자신들이 뭐가 문제인지 전혀 모르고 있구나.수많은 영양가없는 글들과 광고댓글들을 쳐낼 생각은 없고 그냥 연내에 마케팅 예산 소진하기 위해서 뻘짓하는데 여념없네.ㅋㅋㅋ 오블완이니, 짜고치는 경품 돌리기니, 생색내기용 '와 이거 이모티콘 아무나 안주는 건데 참가했으니 드립니다'(팩트 그냥 아무나 ..

생각나는대로 2024.12.09

너 나를 선생대접 하겠느냐

한성우 교수님 경향신문 칼럼을 재밌게 읽었다. 그냥 메모.https://www.khan.co.kr/article/202412042032005 [한성우의 말과 글의 풍경]알면 알수록 어려운 ‘띄어쓰기’…규정보다 소통이 먼저다아버지는 가방에 들어가지 않는다. 고속도로를 달리다 동시에 흥분할 지점을 지날 일도 없다. 서울에 시어머니들로만 구성된 합창단이 있을 리가 없고, 안동 사람들이 시체 육회를 먹을 거라고www.khan.co.kr 1. 띄어쓰기 없어도 문맥만으로 파악이 가능할 수도 있을까? 같은 논리를 말소리에 적용하면, 억양없이 그냥 모든 음절을 같은 속도와 톤으로 읽어도 문맥으로 의미전달이 된다고도 할 것이다. 당연하지만, 음운단위에 따라 높낮이도 다르고 휴지도 둔다. 띄어쓰기도 같은 방향이어야 한다고..

생각나는대로 2024.12.07
반응형