Web Analytics Made Easy - Statcounter
반응형

Bouncing ideas 생각 작업실/data sharing 생각재료 나누기 9

수집데이터의 물리적 저장

연구를 위해 수집한 채록 데이터(음성파일 + 응답지 조사 결과)가 계륵이다. 다른 프로젝트에서 정해진 프로토콜에 따라 '수집자'의 자격으로 일만 하고 이후 과정을 신경쓰지 않았을 때에는 몰랐는데, 수집 후가 정말 골치아프다. 수집하는 과정보다 결과물들을 물리적으로 저장하는 방식이 더 골치아프다. 우선 피실험자 개개인별로 본인에게서 나온 데이터의 공개범위를 다르게 지정해놓았기 때문에, 아예 따로 저장해놓아야 한다. 또 이유는 모르겠지만, 수집 데이터가 캐나다 영토 내에 물리적으로 존재하는 서버에 저장되어야 한댄다. 진짜로 인터넷 연결 안된 학교 교내 서버에 박아놓고 옛날 도서관마냥 열람하는 방식을 심각하게 고민하고 있다. 진심으로 날것의 데이터를 사랑해야 하나보다. 근데 졸업하고 내가 학교를 떠나게 되면,..

윤석열은 정말 '바이든'이라고 말했을까?

이 포스팅은 2022년 9월, 윤석열 대통령이 hot mic에 실수로 했던 발언에 '바이든'이 나왔는지를 기본적인 음향분석을 통해 살펴보는 것입니다. 윤석열 대통령은 미국 순방 중 글로벌 펀드 재정기업 회의에서 조 바이든 미국 대통령과 잠시 환담을 나누고 행사장에서 나오는 도중에 음성이 녹음되는 줄 모르고 인근에 있는 사람들에게 실언합니다. 많은 사람들이 이때 윤 대통령이 "(...) 바이든은 쪽팔려서 어떡하냐?" 라고 말했다고 생각하였습니다. 그러나 청와대의 해명에서는 "(...) 날리면 쪽팔려서 어떡하냐?" 라고 말했다고 주장했습니다. 이 두가지 주장 모두 어느정도 지지받고 어느정도 지지받지 못한다는 점을 보이고자 합니다. 저는 음향음성학자가 아니라 음운론자입니다. 그러나 실험데이터 분석 등을 할 때..

밥-쌀 구분하는 언어 사례들 저장소

1. 요약 한국어는 특정 곡식은 같은 식물의 알곡이라도 가공상태에 따라 구분합니다. 바로 벼-쌀-밥 입니다. 다른 언어들 중에도 이런 언어들이 있어서 여기에 모아놓습니다. 2. 사례들 (쌀-밥 순으로) 한국어: (벼-) 쌀-밥 튀르크어(터키어): pirinç - pilav 출처 Odia (Indo-Iranian, Indo-Aryan): ଚାଉଳ [tʃaː.u.ɭɔ] - ଭାତ [bʱaː.tɔ] Talugu (Dravidian, South-Central): Beeyyam - Annam 인도네시아어: beras - nasi 출처 타갈로그: (palay '벼' - ) bigas - kanin 출처 댓글에서 '김삼식'님께서 알려주셨습니다. 타갈로그에서는 흑미, 찹쌀, 진밥, 눌은밥, 찬밥 등 쌀의 품종이나 밥의..

한국어 말놀이를 형식화하기

0. 요약 및 개요 이 글의 목적은 형식적으로 분석하기 위해 한국어의 말놀이(말장난)를 기술(describe)하거나, 혹은 선행연구에서 기술된 것들을 한곳에 모으는 것입니다. 말놀이나 '구전 동요' 등 교육체계에서 가르치지 않는데도 화자들 사이에서 특히 속어적으로 통용되는 것들이 있습니다. 이러한 것들은 교육이나 규범주의의 손길이 닿지 않은 한국어의 모습을 보여주기도 합니다. 예를 들어 구전 동요는 한국어 고유의 운율구조(prosodic structure) 등 거시적(?) 음운단위의 단면을 보여주기에 흥미롭지만, 저의 관심은 좀더 미시적인 단위를 보여주는 말놀이 쪽에 있습니다. 구전 동요는 그 곡 하나로 끝이지만, 말놀이는 충분히 생산성이 있기 때문입니다. 또한 저의 전공은 운율구조보다는 더 미시적인 단..

재밌는 부분첩어 partial reduplication 사례 저장소

0. 들어가는 말 제가 2018년 가을학기 즈음 텀페이퍼로 Hindi의 부분첩어를 분석한 논문을 쓴 적이 있었습니다. Echo compounding이라는 키워드로 불리는 현상이었는데, 일단 완전중첩(total reduplication) 이후 음소배열적 이유로 인해 중첩부위에 voiced bilabial fricative [β]가 삽입되거나 base initial consonant가 [β]로 교체되는 현상입니다. 현상에 대한 기술은 그 페이퍼에서 사용한 표로 갈음합니다. 표 상에 굵게표시 된 것이 base이고 그것이 중첩되어 suffixation되는 것으로 볼 수 있습니다. 발음형 [β]는 철자로는 v로 표기됩니다. 첫째, 둘째, 그리고 셋째줄은 매우 규칙적입니다. reduplicant의 첫 자리에 v를 ..

Phonological CorpusTools 용 한국어 코퍼스 (층위분류됨)

[설명] 이 포스팅의 목적은 한국어 음운 코퍼스 (단어 발음형의 목록) 를 공유하는 것이다. 한국어 어휘들의 발음형 목록이 있다면 컴퓨터를 이용해서 다양한 양적 분석을 할 수 있다. 양적 분석은 다른 말로 "계량언어학적 분석"이라고도 하는데, 예를 들어서 아래와 같은 주제를 실증적인 방향성으로 연구하는 것을 말한다. 한국어 단어 발음형들의 목록인 '음운 코퍼스'는 이러한 연구를 위해 필수적이다. 모음 /i/ 앞에서 자음이 구개음화(palatalized)되기 쉬운데, 이 과정이 세대에 걸쳐서 중첩된다면 렉시콘 자체에 [구개음]-/i/ 연쇄가 많이 나타날 것으로 예측된다. 이 예측을 확인하기 위해, 실제로 한국어에 이러한 연쇄가 유의미하게 많은지를 보려면 한국어 어휘들의 발음형들 대상으로 음운 검색(phon..

컴퓨터로 읽을 수 있는 한국어 ㄴ삽입 (n-insertion) 실험결과

ㄴ삽입 (n-insertion)은 한국어의 흥미로운 음운 현상 중 하나이다. 형태론적인 작용들 뿐만 아니라 렉시콘 층위도 영향을 주기에 겉보기에는 gradient한 현상이다. 렉시콘 층위와 ㄴ삽입 관련하여서는 다른 글에서도 언급을 했었다. 이 포스팅 목적은 ㄴ삽입 현상과 관련한 선행 설문 연구결과 원자료를 csv 형식으로 제공하는 것이다. 전종호 교수님의 2015년 Phonology 논문(링크)와 2021년 Glossa 논문(링크)은 ㄴ삽입 현상을 연구했는데, 해당 논문들에서는 ㄴ삽입 관련 단어 설문 결과 원자료 3건이 언급된다. 그것들은 국립국어원 조사자료 2건 (최혜원 2002, 김선철 2003)과 더불어 국경아 등 2005이다. 이것들은 ㄴ삽입과 관련하여 어느정도 규모가 되는 3건의 설문 데이터이다..

언어변화로 인해 차용양상에 변화가 생기는 경우

[기독교 성서인물 이름 번역] 예를들어 과거 '이삭'이라고 옮겨졌던 인물명이 현대 가톨릭 "성경"에서는 '이사악'으로 표현됨. 모음의 장단음 구별이 사라지면서, 해당 이름의 제2음절의 장음 /ㅏ/를 표현하기 위해 새로운 음절을 만들어내는 선택을 함. 즉, 모음을 추가해버린 것으로 보임. 이사악은 구약의 창세기에 나오는데, 가톨릭 측 언론에 따르면 구약의 번역은 1950-60년대에 처음 이루어졌다고 함. "구약성경 번역에 처음 손을 댄 이는 선종완 신부다. 가톨릭대 성서학 교수였던 선 신부는 히브리 성서에서 번역한 구약 낱권 14권을 1958~1963년에 펴냈다. 한국교회 첫 구약성경 번역이다." (출처) 그렇다면 개신교 쪽의 구약 번역이 앞선 것으로 보이는데, 50-60년대까지는 신구교가 (적어도 구약은..

영어와 한국어 어휘 사용빈도 word frequency data for American English and Korean

0. 저는 석사논문을 영어와 한국어의 음운론적 어휘부(phonological lexicon)에 대해서 썼습니다. 영어와 한국어 어휘들의 발음형에 대한 것이었습니다. 발음형이라 함은, 한국어학에서는 '사전등재형'이라고 불리고 영어학/언어학에서는 '기저형' 'underlying form' 'input' 등으로 불리는 것을 말합니다. (물론, surface forms도 보기는 했습니다만 논문에 포함되지는 않았습니다.) 따라서 단어의 사용빈도가 중요했습니다. 한국어 어휘 사용빈도 자료는 강범모 & 김흥규 (2009) 를 보면 되었는데 영어 자료를 무엇으로 사용해야 할지 논문을 쓰던 당시에는 영어 자료로 무엇을 봐야 하는지 제대로 몰랐고, 제가 봤던 선행연구들에서도 속시원하게 나와있지 않았습니다. 단지 Kucer..

반응형