'Bouncing ideas 생각 작업실/exp sharing 경험.실험 나누기' 카테고리의 글 목록

2020년대 말뭉치에서 졸리다 의 품사

0. 요약 한국어 어휘 '졸리다'는 규범문법에서 동사 형용사 다의어로 제시하고 있습니다. 그러나 이전 글에서 설명한 바와 같이, 제 직관 상 (그리고 다른 여러분들의 직관 상) '졸리다'를 동사로 활용하는 '졸린다'는 다소 어색합니다.2020년 구어말뭉치에서 용례를 보았습니다. 학부 학위논문 주제 찾으시는 분들, 이런걸로 해보세요! 목차 1. 복습 이전 글에서, 유미의 세포들 347화에 나온 "아... 졸린다"라는 표현이 어색한 이유에 대해 '갑자기 분위기 언어학'했습니다.잠시 복습하고 갑시다.https://linguisting.tistory.com/265 졸린다 인가 아니면 졸리다 인가0. 요약 한 웹툰에서 '졸린다'라는 표현이 사용되었는데, 제 직관 상 다소 어색했습니다. '졸리다'는 동사와 형용사..

Bouncing ideas 생각 작업실/exp sharing 경험.실험 나누기 2025.05.11

바보같은 실수

실험 단어군을 만들다가 실수한 걸 1년 반이 지나서야 깨달았다. IPA로 전사된 한국어 명사들의 tri-gram probability를 학습하고 이에 따라 랜덤하게 가짜단어 (이하, 단어)를 만들어내서 실험단어로 썼었다. 실제 분석할 단어들 외에도 distractor라고 해서 실험의 목적을 들키지(?) 않기 위해서 분석 목적의 단어 외에도 하등 관련 없는 단어들을 생성했다. distractor는 가짜단어들인데 분석목적 단어들이랑 일부러 음절구조가 같도록 만들었다. 가짜단어 생성은 IPA로 이루어졌지만, 한국인 화자를 대상으로 IPA를 보여주고 실험할 수가 없기에, 한글 철자로 이를 표현하였다. 바보같이 과거의 나는 수작업으로 '철자화'를 했다. 그리고 당연하게도 실수했다. tɕʰ ɑ k tʰ ɑ m ..

Bouncing ideas 생각 작업실/exp sharing 경험.실험 나누기 2025.05.07

Twitter 대신 Bluesky 수집하기

0. 요약이 글에서는 Bluesky에 올라온 글을 수집하는 툴 blueskyscraper를 소개합니다. 목차 1. 왜 social media를 보아야 하나Social media (사회망: social network service)는 끝없이 쏟아져 나오는 언어표현의 원천입니다. 저는 흔히 석유 나오는 유전에 비교하는데, 오늘날 실제 언어를 가장 잘 관찰할 수 있는 방식은 바로 social media에 올라오는 언어표현들을 수집하는 것이라고 생각합니다. 사회언어학의 아버지 William Labov는 뉴욕 백화점에 잠입(?)하여 점원들의 말소리를 채집했습니다. 동일한 질문 ("무어무어가 몇 층에 있나요?)을 하고 점원들이 "4층이요 The fourth floor" 라고 대답하는 것을 관찰했습니다. 그 결과 ..

Bouncing ideas 생각 작업실/exp sharing 경험.실험 나누기 2025.04.26

Yale → 한글

0. 요약로마자를 사용하여 한국어를 표기하는 방법은 여러가지지만 언어학에서 표준으로 사용하는 것은 Yale 표기법이라고 합니다. 이 포스팅에서는 Yale 방식으로 표기된 한국어를 입력받아 한글로 바꿔주는 프로그램을 배포합니다.예를 들어 Yale 방식으로 "mwelako ssun ke.ya" 라고 되어있는 한국어 문장을 이 프로그램으로 변환하면 아래와 같습니다. 목차 1. 동기예전에 한 연구자님께서, "논문에서 Yale 방식으로 표기된 한국어를 더욱 쉽게 읽기 위해서, Yale 방식으로 된 한국어 문장을 한글로 자동 변환할 수 있으면 편리할 것 같다"라고 문의하신 적이 있었다. 기존 hangul-to-ipa에는 한글을 Yale로 변환하는 로직이 있다. 그걸 이용하면 쉽게 만들 수 있다 (해체는 조립의 역..

Bouncing ideas 생각 작업실/exp sharing 경험.실험 나누기 2024.12.24

깡통 노트북에 가벼운 LLM 올려서 계엄사태 대비하기

0. 요약구형에다가 경량으로 디자인된 노트북에 대규모언어모델(LLM)을 올려보았습니다. ChatGPT같은 챗봇으로 소통하는 언어모델입니다. 이 글에서는 그 경험을 공유합니다.그 과정에서 LLM 경량화가 무엇인지를 NLP 비전공자 (그럼 니 전공은 뭔데?) 수준에서 소개합니다. 또한 누구든 하찮은 기계에 LLM을 따라 올려볼 수 있도록 각 단계를 소개합니다.또한 여담으로 인공지능에 의한 불법적 계엄사태에 저항하는 연습도 해봅니다. 목차 1. 가벼운 기계나한테는 2017년에 구입해서 한 3년 정도 사용했던 경량 노트북이 있다. 모델명은 삼성 nt900x5y, 흔히 "노트북 9 Always"라는 상품명으로 알려진 제품이다. 이 노트북은 광고가 인상적이었다. 경량 노트북이고 특히 usb-c 포트를 통한 충전이..

Bouncing ideas 생각 작업실/exp sharing 경험.실험 나누기 2024.12.20

[jaɪks]: Just Another IPA Keyboard - Simplified

0. 요약macOS에서 쓸만한 IPA 키보드 깍는 노인 연구자 이야기입니다. 실제 macOS 앱은 섹션 5에서 받을 수 있고, 나머지는 만들었던 동기와 과정에 대해 설명합니다. 목차 1. 좀이 쑤셔서며칠 전 이런 글을 올렸다. macOS에서 사용하기 적절한 IPA 입력수단을 못찾아서 직접 만들어 쓴다는 내용. https://linguisting.tistory.com/233 macOS에서 음성기호 IPA 사용하기0. 요약 macOS에서 인터넷 연결 없이 IPA 쓰는 방법 소개합니다. 목차 1. IPA picker모든 학부 음성음운론 개론수업에서 가장 먼저 소개하는 것이 "컴퓨터로 IPA입력하기", "컴퓨터에서 IPA 안 깨지linguisting.tistory.com 막상 블로그에 글을 올려놓으니 좀이..

Bouncing ideas 생각 작업실/exp sharing 경험.실험 나누기 2024.11.30

macOS에서 음성기호 IPA 사용하기 (Yikes 쓰세요)

0. 요약 macOS에서 인터넷 연결 없이 IPA 쓰는 방법 소개합니다. 결론: Yikes [jaɪks] 쓰세요! 목차 1. IPA picker모든 학부 음성음운론 개론수업에서 가장 먼저 소개하는 것이 "컴퓨터로 IPA입력하기", "컴퓨터에서 IPA 안 깨지게 보는 법"이다. 후자는 오늘날 최신 OS들이 지원하는 폰트들이 유니코드 대부분을 커버하기 때문에 사실상 불필요해진 감이 있지만, 컴퓨터로 IPA 기호들을 어떻게 입력하는지는 반드시 알아야 한다. 손으로 IPA 기호를 쓰는 건 쉽지만, 컴퓨터로 입력하는 건 좀 어려울 수 있기 때문이다. 그때 우리가 반 고정적으로 소개하는 툴들은 온라인에서 사용하는 IPA picker들이다. IPA picker들은 IPA 차트에 따라 기호들이 배열되어 있고, 사..

Bouncing ideas 생각 작업실/exp sharing 경험.실험 나누기 2024.11.27

2페이지씩 스캔한 이미지 여러 개 단번에 반갈죽

0. 요약Aquilina (1965)가 디지타이징 되어있지 않아서 실제 책을 빌려 필요한 부분을 스캔했습니다. 책은 펼치면 2페이지가 펼쳐지니까 이미지도 2페이지씩 스캔되었습니다. 이번 포스팅에서는 이렇게 2페이지씩 된 이미지 여러개 있을 때 간단한 파이썬 스크립트를 이용해서 단번에 다 자른 경험을 공유합니다. 오랜만에 "경험.실험 나누기" 카테고리에 맞는 글이네요. 목차 1. 왜 Acrobat으로 못하는데?펼친 페이지들을 엄청 많이 스캔했다. 스캔한 이미지들, Adobe Acrobat으로 반갈죽해서 PDF로 만들 수 있을 줄 알았다. 그런데 놀랍게도 인공지능이 인간이랑 농담따먹기 하는 이 시대에 돈을 내고 쓰는 Adobe Acrobat에 그 기능이 없다!더보기ChatGPT 4o model이 한국어로..

Bouncing ideas 생각 작업실/exp sharing 경험.실험 나누기 2024.10.26

Hangul to IPA 업데이트 중 (완료함)

Hangul to IPA github repo를 팔로우 하는 사람은 눈치챘을지도 모르지만, 주말사이에 Hangul to IPA 에 대한 대대적인 업데이트를 했다. 핵심 기능은 파이썬으로 포팅을 다 마쳤고, 웹앱 인터페이스 구현할 일만 남았다.수정 (2024-06-10): 지금 해치워버리지 않으면 주중에는 도무지 못할 듯해 그냥 무리해서 인터페이스 구현과 deploy까지 끝마쳤다. 도파민 러시 상태에서 이제 자려고 함 (지금 여기 새벽3시)물론 documentation을 다 새로 써야하지만 일단 그건 천천히할 생각이다. 뭐 엄청 어려운 앱도 아니고 그냥 슥 보면 감 잡을 수 없겠나?ㅋㅋㅋ 거두절미하고, 기존 기능 외에 추가된 기능은 음소별로 구분자를 넣을 수 있다는 것이다. 아래 예시는 구분자로 "." ..

Bouncing ideas 생각 작업실/exp sharing 경험.실험 나누기 2024.06.10

ChatGPT는 Praat Script 짤줄 몰라

0. 요약ChatGPT는 "할줄 몰라요"라는 말을 하지 않습니다. ChatGPT는 praat script를 잘 짤줄 모르는데, 그것보다 더 큰 문제는 ChatGPT가 "저 praat script 짤줄 몰라요. 자신없어요." 이런 말을 하지 않는다는 것입니다. 그래서 고전적인 방법으로, 이전에 다른분들이 만들어놓은 praat script 저장소를 이용합니다. 이 글에서는 그런 저장소를 소개합니다. (제목은 어그로성🤣) 목차 1. 분명한 한계높은 수준에서 이러 저러한 기능을 생각하고 그걸 구현하는 스크립트를 ChatGPT에서 짜달라고 부탁하는 게 효율적인 업무흐름입니다. 분명히 이전에 누군가 구현했을 기능, 혹은 그런 기능의 조합이기 때문에, 새로 바퀴를 만드느라 시간낭비하는 것보다, 기존의 여러 코드베..

Bouncing ideas 생각 작업실/exp sharing 경험.실험 나누기 2024.05.27

언어학하고 있네

Bouncing ideas 생각 작업실/exp sharing 경험.실험 나누기 25

티스토리툴바

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30