Web Analytics Made Easy - Statcounter
반응형

Bouncing ideas 생각 작업실/exp sharing 경험.실험 나누기 22

Yale → 한글

0. 요약로마자를 사용하여 한국어를 표기하는 방법은 여러가지지만 언어학에서 표준으로 사용하는 것은 Yale 표기법이라고 합니다. 이 포스팅에서는 Yale 방식으로 표기된 한국어를 입력받아 한글로 바꿔주는 프로그램을 배포합니다.예를 들어 Yale 방식으로 "mwelako ssun ke.ya" 라고 되어있는 한국어 문장을 이 프로그램으로 변환하면 아래와 같습니다.  목차 1. 동기예전에 한 연구자님께서, "논문에서 Yale 방식으로 표기된 한국어를 더욱 쉽게 읽기 위해서, Yale 방식으로 된 한국어 문장을 한글로 자동 변환할 수 있으면 편리할 것 같다"라고 문의하신 적이 있었다. 기존 hangul-to-ipa에는 한글을 Yale로 변환하는 로직이 있다. 그걸 이용하면 쉽게 만들 수 있다 (해체는 조립의 역..

깡통 노트북에 가벼운 LLM 올려서 계엄사태 대비하기

0. 요약구형에다가 경량으로 디자인된 노트북에 대규모언어모델(LLM)을 올려보았습니다. ChatGPT같은 챗봇으로 소통하는 언어모델입니다. 이 글에서는 그 경험을 공유합니다.그 과정에서 LLM 경량화가 무엇인지를 NLP 비전공자 수준에서 소개합니다. 또한 누구든 하찮은 기계에 LLM을 따라 올려볼 수 있도록 각 단계를 소개합니다.또한 여담으로 인공지능에 의한 불법적 계엄사태에 저항하는 연습도 해봅니다. 목차  1. 가벼운 기계나한테는 2017년에 구입해서 한 3년 정도 사용했던 경량 노트북이 있다. 모델명은 삼성 nt900x5y, 흔히 "노트북 9 Always"라는 상품명으로 알려진 제품이다. 이 노트북은 광고가 인상적이었다. 경량 노트북이고 특히 usb-c 포트를 통한 충전이 가능하다는 걸 강조하는 광..

[jaɪks]: Just Another IPA Keyboard - Simplified

0. 요약macOS에서 쓸만한 IPA 키보드 깍는 노인 연구자 이야기입니다. 실제 macOS 앱은 섹션 5에서 받을 수 있고, 나머지는 만들었던 동기와 과정에 대해 설명합니다. 목차 1. 좀이 쑤셔서며칠 전 이런 글을 올렸다. macOS에서 사용하기 적절한 IPA 입력수단을 못찾아서 직접 만들어 쓴다는 내용. https://linguisting.tistory.com/233 macOS에서 음성기호 IPA 사용하기0. 요약 macOS에서 인터넷 연결 없이 IPA 쓰는 방법 소개합니다.  목차  1. IPA picker모든 학부 음성음운론 개론수업에서 가장 먼저 소개하는 것이 "컴퓨터로 IPA입력하기", "컴퓨터에서 IPA 안 깨지linguisting.tistory.com  막상 블로그에 글을 올려놓으니 좀이..

macOS에서 음성기호 IPA 사용하기 (Yikes 쓰세요)

0. 요약 macOS에서 인터넷 연결 없이 IPA 쓰는 방법 소개합니다. 결론: Yikes [jaɪks] 쓰세요!   목차  1. IPA picker모든 학부 음성음운론 개론수업에서 가장 먼저 소개하는 것이 "컴퓨터로 IPA입력하기", "컴퓨터에서 IPA 안 깨지게 보는 법"이다. 후자는 오늘날 최신 OS들이 지원하는 폰트들이 유니코드 대부분을 커버하기 때문에 사실상 불필요해진 감이 있지만, 컴퓨터로 IPA 기호들을 어떻게 입력하는지는 반드시 알아야 한다. 손으로 IPA 기호를 쓰는 건 쉽지만, 컴퓨터로 입력하는 건 좀 어려울 수 있기 때문이다. 그때 우리가 반 고정적으로 소개하는 툴들은 온라인에서 사용하는 IPA picker들이다. IPA picker들은 IPA 차트에 따라 기호들이 배열되어 있고, 사..

2페이지씩 스캔한 이미지 여러 개 단번에 반갈죽

0. 요약Aquilina (1965)가 디지타이징 되어있지 않아서 실제 책을 빌려 필요한 부분을 스캔했습니다. 책은 펼치면 2페이지가 펼쳐지니까 이미지도 2페이지씩 스캔되었습니다. 이번 포스팅에서는 이렇게 2페이지씩 된 이미지 여러개 있을 때 간단한 파이썬 스크립트를 이용해서 단번에 다 자른 경험을 공유합니다. 오랜만에 "경험.실험 나누기" 카테고리에 맞는 글이네요.   목차 1. 왜 Acrobat으로 못하는데?펼친 페이지들을 엄청 많이 스캔했다. 스캔한 이미지들, Adobe Acrobat으로 반갈죽해서 PDF로 만들 수 있을 줄 알았다. 그런데 놀랍게도 인공지능이 인간이랑 농담따먹기 하는 이 시대에 돈을 내고 쓰는 Adobe Acrobat에 그 기능이 없다!더보기ChatGPT 4o model이 한국어..

Hangul to IPA 업데이트 중 (완료함)

Hangul to IPA github repo를 팔로우 하는 사람은 눈치챘을지도 모르지만, 주말사이에 Hangul to IPA 에 대한 대대적인 업데이트를 했다. 핵심 기능은 파이썬으로 포팅을 다 마쳤고, 웹앱 인터페이스 구현할 일만 남았다.수정 (2024-06-10): 지금 해치워버리지 않으면 주중에는 도무지 못할 듯해 그냥 무리해서 인터페이스 구현과 deploy까지 끝마쳤다. 도파민 러시 상태에서 이제 자려고 함 (지금 여기 새벽3시)물론 documentation을 다 새로 써야하지만 일단 그건 천천히할 생각이다. 뭐 엄청 어려운 앱도 아니고 그냥 슥 보면 감 잡을 수 없겠나?ㅋㅋㅋ  거두절미하고, 기존 기능 외에 추가된 기능은 음소별로 구분자를 넣을 수 있다는 것이다. 아래 예시는 구분자로 "." ..

ChatGPT는 Praat Script 짤줄 몰라

0. 요약ChatGPT는 "할줄 몰라요"라는 말을 하지 않습니다. ChatGPT는 praat script를 잘 짤줄 모르는데, 그것보다 더 큰 문제는 ChatGPT가 "저 praat script 짤줄 몰라요. 자신없어요." 이런 말을 하지 않는다는 것입니다. 그래서 고전적인 방법으로, 이전에 다른분들이 만들어놓은 praat script 저장소를 이용합니다. 이 글에서는 그런 저장소를 소개합니다. (제목은 어그로성🤣) 목차  1. 분명한 한계높은 수준에서 이러 저러한 기능을 생각하고 그걸 구현하는 스크립트를 ChatGPT에서 짜달라고 부탁하는 게 효율적인 업무흐름입니다. 분명히 이전에 누군가 구현했을 기능, 혹은 그런 기능의 조합이기 때문에, 새로 바퀴를 만드느라 시간낭비하는 것보다, 기존의 여러 코드베..

음성 데이터만 있어도 분석해버리기

0. 요약러시아어학 전공 과정생이신 누에고치 님의 블로그 "누에고치의 누리집"을 즐겨 보고 있습니다.  예전 글을 훑어보다가 아래 글을 발견했는데, 2023년 2학기에 쓰신 기말 레포트 토픽들을 소개해주신 글이었습니다. 제시하신 여러 연구주제들 중 당연하게도 "음성학(+음운론)" 쪽에 관심이 갔습니다.https://nuee.tistory.com/660 2023-2학기 기말레포트 (등급성 반의어, 게임리뷰 감성분석, 음성학)입학하자마자 얼레벌레 한 학기가 흘러가고 어느덧 학기가 끝나버렸다. 연구방법론(노어학개론) 요약: 영어 '등급성 반의어' 형용사에 대한 연구(Lee 2013)을 대상을 러시아어로 바꿔보기. (출현빈nuee.tistory.com요약: 소련 시절부터 현재까지 러시아 뉴스 아나운서 보이스를 ..

신경망 이용한 음운론 연구 workflow (feat. Fairseq)

0. 요약그냥 제가 같은 작업 자꾸자꾸 반복하는 거 좀 체계화/단일화 하기 위해서 순서 정리하는 글이에요. "다른 사람은 어떻게 하나"를 알기가 힘들고, 특히 저와 같이 한국에서 명문대를 안 나온 사람일수록 다른 사람 연구 방법론을 귀동냥하기도 힘들어요 (오히려 그런 사람들이 더 많이 귀동냥을 해야 하는데도 말이죠). 그래서 이 글은 그런 사람들한테 도움이 되었으면 하는 바람에서 씁니다.   목차 1. 단계들1단계: 시작하기일단 찬물을 마셔서 정신을 차리고, 모든 걸 담을 수 있는(?) 폴더를 하나 만든다. 사람이 준비 안 되어 있으면 기계는 일하지 않는다. 폴더에는 일단은 raw data만 담아둔다. raw data라고 함은, 입력과 출력 쌍을 말한다. 예를 들어 한국어의 위치동화를 학습하는 모델을 만..

fairseq translation task cross-attention 접근 쉽게하기

.translate() method에 verbose parameter가 있다는 걸 간과했다. verbose = True 주니까 각 hypothesis 별로 아래와 같은 log가 터미널에 뿌려졌다. 2024-04-10 00:27:55 | INFO | fairseq.hub_utils | H-0.012383962981402874c i m a lZ cc v ngZ 2024-04-10 00:37:22 | INFO | fairseq.hub_utils | P-0.0000 -0.0000 -0.0001 -0.0000 -0.0000 -0.1113 -0.0000 -0.0000 -0.0000 beam = 5 였으므로 5개 후보형을 고려한다. 그래서 각 2줄, 총 10줄의 log가 떴다. 이 데이터는 이해하기 쉽다. 입력값 (..

반응형