Web Analytics Made Easy - Statcounter
반응형

Bouncing ideas 생각 작업실 67

자동으로 한국어 praat textgrid 생성 - Montreal Forced Aligner 사용법

0. 들어가기에 앞서사용한 Montreal Forced Aligner 버전: 2.2.15사용한 Korean Acoustic Model: korean_mfa (Version 2.0.0rc4.dev19+ged818cb.d20220404사용한 Korean pronunciation dictionary: korean_mfa음성녹음이 있다. Praat에서 음향분석하려고 한다. 가장 처음 해야 하는 일은 annotation을 하는 것이다. 근데, 음운론자로서 음향분석 그 자체가 목적이 아니라면, 손으로 다 annotation하는 건 정말 귀찮고 골치아픈 일이다. 이제 손으로 다 하지말고 언어모델의 도움을 받아서 빨리빨리하자. 이건 Montreal Forced Alginer로 한국어 forced align하는 팁이다...

지겨운 한국어 행간주석(interlinear gloss) 컴퓨터 시키기

0.  요약한국어 행간주석을 자동으로 생성하려면 Korean auto-glossing 툴을 이용하세요.[Github repo 링크][온라인 웹ui (접속안될수도있음 되더라도 아주느림)]   행간주석(interlinear glossing)은 통사론/의미론 논문을 쓸 때 언어 예문을 제시하는 방식입니다. 사실상 표준으로 사용되는 방식은 아래와 같은 Leipzig Glossing Rules [specifications 링크]입니다.   (고양이 사진 출처)통상적으로 행간주석 interlinear glossing 은 4줄로 구성됩니다. 고양이 사진은 있으면 좋지만 99.99%의 논문에서는 생략합니다. (고양이 사진 출처)첫줄: 해당 언어의 문자체계로 표기한 예문둘째줄: 음성/음운전사 (전사를 자동으로 하려면 여..

대학원 오게 만드는 언어학 책들

0. 도입교보문고 광화문 점에 가면 돌판에 이렇게 써있습니다. "사람은 책을 만들고 책은 사람을 만든다." "사람을 만드는 책"은 어떤 책일까요? 아마도 20대 학부생 때, 잘 모르는 상태에서 읽은 책이 한 사람의 관점을 만드는 데 결정적인 역할을 하지는 않을까요? 제가 결국 음운론을 연구하는 사람이 되고, 음운론 중에서도 다른 것이 아닌 바로 저의 주제를 가지고 씨름하게된 것도 어쩌면 그 시작에는 (몰라서) 아무렇게나 읽었던 책들이 있는 것이 아닐까 생각합니다. 그리고 그렇게 읽은 아무책 중에서도 지금까지 기억하는 것이라면 그만큼 언어나 공부에 대한 저의 관점에 큰 영향을 준 책일 것입니다. 바로 아래의 책들입니다. The Language Instinct by Steven Pinker (역본: "언어본..

실시간으로 한국어 최소대립쌍을 산출해보자

0. 요약베타버전입니다.  음소 2개를 선택하면 자동으로 한국어 최소대립쌍 찾아주는 웹앱입니다. 많은관심부탁드립니다.   (혹시 바로 아래에 아무것도 안뜨고 흰 공백만 보인다면, 앱이 로드되는 중이므로 5초에서 10초정도 기다리시거나 '새로고침'해주세요) 사용법 예시:   앱이 마음에 드셨으면 아래버튼을 눌러서 기부하실 수 있습니다. 모든 수입은 유지비로 사용됩니다. 감사합니다 🥰   1. 베타일단 앱을 띄워는 놓았는데, 뭐 땅파면 돈이 나오는 것도 아니고, 돈내면서 계속 서버를 켜놓을 수는 없다. 내가 돈이 많거나 희생정신이 투철해서 "연구자 커뮤니티를 위해 기부하겠습니다"할 깜냥도 아니고.ㅋㅋㅋ 그래서 30분 inactive 상태면 앱이 잠들게 해놓았다. 만약 (그럴일이 없겠지만) 트래픽이 너무 많..

몰타어에 대한 접근과 관찰지점

0. 프리퀄 몰타어의 층위 구성에 대한 프로필은 여기 몰타어에 대한 역사적 개괄은 여기 1. Mifsud 1995 Mifsud 1995는 몰타어 외래어를 4가지로 분류한 박사논문이다. 한국어에서와 마찬가지로 몰타에서도 소위 '순혈주의' 언어관이 팽배한 것 같은데, 그런 측면에서 고유어화된 정도에 따라 외래어를 분류하는 것은 상당히 신선한 시도라고 (스스로) 자평한다. 어쨌든, 프리퀄에서 검토했듯, 몰타어에 들어온 유럽어 계열 외래어는 얼마나 오래전에 들어왔냐에 따라 형태론적 패턴이 다르다. 오래전에 들어온 외래어들은 아랍어와 유사한 패턴을 보이고, 최근에 들어온 외래어 (콜록 콜록) 영어 (콜록 콜록) 일수록 원어와 같이 접두사/접미사 붙이는 패턴을 따른다. 그런데 Mifsud 1995는 단순히 분류학적..

Maltese 역사 스케치

0. 요약 Maltese는 한국어와 비슷하게 층위언어다. 아랍어 계통을 기반으로 하고 그 위에 로망스어군 (시칠리아어, 이탈리아어)가 덧입혀지고 그 위에 영어가 덧붙여있다. 한국어에서 한자어가 가지는 지위가 Maltese에서는 로망스어군에 해당하고, 한국어에서 20세기 이후 외래어의 대부분이 영어로부터의 외래어인 것과 마찬가지로 Maltese에서도 20세기 이후 영어로부터의 차용이 절대적. 렉시콘에서 각 층위의 비율은 이글 참조 이 언어의 층위구조는 언어의 형성과정이 반영된 것으로 보인다. 즉, 기반언어가 먼저 있었고 이후 로망스 언어들이 사용되던 시기가 출현하였고, 20세기 이후 영어가 덧입혀진 것. 영어의 경우 영국의 영향과 이후 미국 패권 하에 링구아 프랑카로서의 영어가 공용어로 사용됨. 본 포스팅..

Convert Korean orthography into IPA transcriptions

Use 'Hangul to IPA' with the interface below하단 인터페이스를 통해 'Hangul to IPA'를 이용해봐요  See [readme] for more information. Scroll down a bit, and you'll find a cool web interface that converts your '한글' input into IPA [hɑŋɡɯl]. The app helps you with transcribing any Korean expressions in IPA symbols, and you can start from there in your phonological inquiry. You may also want to check out how the repr..

윤석열은 정말 '바이든'이라고 말했을까?

이 포스팅은 2022년 9월, 윤석열 대통령이 hot mic에 실수로 했던 발언에 '바이든'이 나왔는지를 기본적인 음향분석을 통해 살펴보는 것입니다. 윤석열 대통령은 미국 순방 중 글로벌 펀드 재정기업 회의에서 조 바이든 미국 대통령과 잠시 환담을 나누고 행사장에서 나오는 도중에 음성이 녹음되는 줄 모르고 인근에 있는 사람들에게 실언합니다. 많은 사람들이 이때 윤 대통령이 "(...) 바이든은 쪽팔려서 어떡하냐?" 라고 말했다고 생각하였습니다. 그러나 청와대의 해명에서는 "(...) 날리면 쪽팔려서 어떡하냐?" 라고 말했다고 주장했습니다. 이 두가지 주장 모두 어느정도 지지받고 어느정도 지지받지 못한다는 점을 보이고자 합니다. 저는 음향음성학자가 아니라 음운론자입니다. 그러나 실험데이터 분석 등을 할 때..

멀리서 봤을 때 비로소 보이는 언어간 공통점

0. 요약 너무나 당연하지만 인종/국가/사용언어에 무관하게 인간은 인지능력 상 동일하고 평등한 존재이며 그래서 언어는 보편적이다. 인간의 한계는 언어적 한계로 나타나고, 인간의 능력만큼 언어는 활용된다. 언어보편적으로 공통된 특성은 여러가지지만 어떤것은 계산적인 방법을 통해서야 관측되는 것들이 있다. 음운이웃네트워크의 네트워크적 특성이 그것이다. 1. 음운이웃 음운이웃은 두 단어 사이의 관계를 말한다. 어떤 두 단어가 있을 때, 음소 하나를 교체하거나 추가했을 때 그 두 단어가 완전히 같은 단어가 된다면 이 단어의 관계를 음운이웃관계라고 한다. 예를 들어 '아빠'와 '오빠'는 음운이웃이다. '아빠'와 '나빠'도 음운이웃이다. '아빠-나빠'는 최소대립쌍이 되지 않지만, '아빠-오빠'는 모음의 측면에서 최소..

언어 간 유사성 계량화하기

흥미로운 논문을 발견했다. http://dx.doi.org/10.1016/j.cognition.2019.104056 (이하, Schepens et al.) Redirecting linkinghub.elsevier.com Schepens et al.은 다양한 언어 사이의 유사한 정도를 음운론적/형태론적/어휘적 측면에서 계량화하여서 비교하였다. 외국어를 배울 때, 모국어랑 유사한 언어를 배우면 빠르고 쉽게 배울 수 있다. 네덜란드어가 모국어인 화자가 영어를 쉽게 배우는 반면, 한국어나 일본어가 모국어라면 영어가 어려운 것이 이 때문이다. 그런데 "유사한 언어"를 어떻게 형식적으로 정의할 것인가? 어휘적 측면에서는 쉽게 정의될지도 모른다. 한국어와 일본어 사이에는 한자어 측면에서 음대치가 존재하고, 이런 부분..

반응형