Web Analytics Made Easy - Statcounter

Bouncing ideas 생각 작업실/data sharing 생각재료 나누기

컴퓨터로 읽을 수 있는 한국어 ㄴ삽입 (n-insertion) 실험결과

sleepy_wug 2022. 2. 23. 15:54

ㄴ삽입 (n-insertion)은 한국어의 흥미로운 음운 현상 중 하나이다. 형태론적인 작용들 뿐만 아니라 렉시콘 층위도 영향을 주기에 겉보기에는 gradient한 현상이다. 렉시콘 층위와 ㄴ삽입 관련하여서는 다른 글에서도 언급을 했었다.

 

이 포스팅 목적은 ㄴ삽입 현상과 관련한 선행 설문 연구결과 원자료를 csv 형식으로 제공하는 것이다. 전종호 교수님의 2015년 Phonology 논문(링크)와 2021년 Glossa 논문(링크)은 ㄴ삽입 현상을 연구했는데, 해당 논문들에서는 ㄴ삽입 관련 단어 설문 결과 원자료 3건이 언급된다. 그것들은 국립국어원 조사자료 2건 (최혜원 2002, 김선철 2003)과 더불어 국경아 등 2005이다. 

 

이것들은 ㄴ삽입과 관련하여 어느정도 규모가 되는 3건의 설문 데이터이다. 그런데 문제는 이 세 데이터 모두 컴퓨터를 이용하여 통계처리 하기가 곤란하다는 것이다. 설문 데이터가 소개된 논문들은 고대유물이라 OCR이 되어있지 않은 pdf 문서 형태를 가지고 있다.

 

이 문제는 논문 중에서 특히 원데이터가 제시되는 표 부분에서 심각하다. 분명 이 현상을 연구한 후대 사람들이 직접 혹은 대학원생 시켜서 엑셀 시트 등으로 수치를 입력한 다음 분석했을 텐데, 원자료들이 컴퓨터 파일로 유통되는 것을 결코 발견할 수 없었다.

 

이렇게 원자료가 컴퓨터로 읽기쉽게 정리되지 않은 문제는 매우 역차별적이기에 더더욱 문제다. 선후배 빵빵하고 좋은 대학원 진학한 사람들은 뭐 선배가 수작업으로 입력해놓은 거 받거나 대학원생들끼리 힘을 합해서 엑셀파일로 만든 다음 자기네들끼리 숨겨놓고 잘 쓰고 있을 것이다. 하여튼 답답해서 올린다.

 

이건 과거의 나를 위한 선물이자 미래의 나를 위한 선물이다. 즉, 옛날의 나처럼 한국의 삼류대학 대학원에서 석사하고 있는 음운론 연구생들을 위해 분석할 자료를 제공하는 것이자, 미래에 언젠가 파일을 어따뒀는지 까먹을 나를 위해, 자료를 보관해주는 것이다.

 

반응형

 

일단 '선호도 조사를 통한 ㄴ첨가 현상의 실현 양상 연구 ' (국경아 등 2005)에 보고된 원자료는 아래와 같다.

kook 2005.csv
0.01MB

 

그리고 '표준발음실태조사 II' (김선철 2003)에 보고된 원자료 중 n-insertion에 관한 부분은 아래와 같다.

kim 2003.csv
0.00MB

 

마지막으로 '표준발음실태조사' (최혜원 2002)에 보고된 설문조사 결과 중 n-insertion에 관한 부분만 추려낸 자료는 아래와 같다.

choi (2002).csv
0.01MB

 

질문은 늘 환영!

 

좋아할 것 같아서 다른 글도 준비했어요

 

 

반응형