Web Analytics Made Easy - Statcounter

Bouncing ideas 생각 작업실/data sharing 생각재료 나누기

Phonological CorpusTools 용 한국어 코퍼스 (층위분류됨)

sleepy_wug 2022. 6. 10. 14:50

[설명]

이 포스팅의 목적은 한국어 음운 코퍼스 (단어 발음형의 목록) 를 공유하는 것이다.

 

한국어 어휘들의 발음형 목록이 있다면 컴퓨터를 이용해서 다양한 양적 분석을 할 수 있다. 양적 분석은 다른 말로 "계량언어학적 분석"이라고도 하는데, 예를 들어서 아래와 같은 주제를 실증적인 방향성으로 연구하는 것을 말한다. 한국어 단어 발음형들의 목록인 '음운 코퍼스'는 이러한 연구를 위해 필수적이다.

 

  • 모음 /i/ 앞에서 자음이 구개음화(palatalized)되기 쉬운데, 이 과정이 세대에 걸쳐서 중첩된다면 렉시콘 자체에 [구개음]-/i/ 연쇄가 많이 나타날 것으로 예측된다. 이 예측을 확인하기 위해, 실제로 한국어에 이러한 연쇄가 유의미하게 많은지를 보려면 한국어 어휘들의 발음형들 대상으로 음운 검색(phonological search)을 하고 통계를 내야 한다.
  • 한국어의 음소 인벤토리에서 각각의 음소가 단어 변별에 얼마만큼 기여하는지 알아볼 수 있다. 한국어를 잘 알아듣는다는 말은 다시 말하면 변별에 큰 역할을 하는 음소를 잘 구별해내는 것이기 때문이다. 이를 기능부담(Functional load)이라고 하는데 각 음소의 기능부담값을 쉽고 정확하게 계산하기 위해서도 많은 한국어 어휘 발음형들로 구성된 자료가 필요하다.

 

더 나아가서 위에 제시된 음운 코퍼스의 양적 지표를, 한자어 고유어 외래어 등 층위에 따라 구분해서 분석할 수도 있을 것이다. 

 

이러한 양적 지표를 살펴보려면 한국어 음운 코퍼스 (어휘의 발음형으로 구성된 목록) 뿐만 아니라, 이러한 코퍼스를 분석할 수 있는 툴이 필요하다. Phonological CorpusTools라는 분석툴을 사용할 수 있는데, 이 포스팅에서 공유하는 자료는 PCT에서 곧바로 활용할 수 있는 한국어 자료이다.

 

Phonological CorpusTools가 무엇인지에 대해서는 이 논문이 자료를 확인할 수 있다.

 


[자료링크]

한국어 전체 (링크) : 124,992 개 어휘 26.3 MB (동음이의어 포함)

한자어만 (링크): 102,390 개 어휘 21.3 MB (동음이의어 포함)

고유어만 (링크): 10,585 개 어휘 2.26 MB (동음이의어 포함)

외래어만 (링크): 10,944 개 어휘 2.38 MB (동음이의어 포함)

동음이의어 포함이라 함은, 층위간 동음이의어와 층위내 동음이의어 모두 포함한다는 것을 의미한다. 예를 들어 '가'는 <구석>이라는 의미로 고유어 층위, 家로서 한자어 층위에, 그리고 可로서 한자어 층위에 있을 것이다.

 


[어떻게 사용하나?]

위에 있는 .corpus 파일을 사용하려면 아래의 두 조건이 만족되어야 한다.

  1. Phonological CorpusTools가 컴퓨터에 설치되어 있어야 한다. 설치링크 에 들어가서 하단 Assets에서 자신의 시스템에 맞는 PCT를 설치하면 된다. 
  2. PCT가 설치되어 있다면, .corpus 파일을 PCT에서 접근하는 CORPUS 폴더에 저장한 후 PCT에서 Load Corpus를 하면 된다.

PCT에서 접근하는 CORPUS 폴더가 어디인지는 PCT의 설정 창에서 확인할 수 있다. PCT에서 상단 메뉴 중 Options -> Preferences... 에 들어간 다음, 거기에서 나오는 'Storage directory:' 에 가면 CORPUS 폴더를 찾을 수 있다. 다운로드 받은 .corpus 파일은 CORPUS 폴더 밑에 저장해야 함.

 

Windows 유저의 경우, 기본설정(설정을 바꾸지 않았을 때) 상, 아래의 주소를 탐색기 주소창에  입력하면 된다.
%UserName%/Documents/PCT/CorpusTools/CORPUS

Mac 유저의 경우, 기본설정(설정을 바꾸지 않았을 때) 상, ⇧ + ⌘ + O 를 누르고 나오는 창에서 차례대로 PCT, CorpusTools, 그리고 CORPUS로 들어가면 된다.


[원자료 및 처리: 어떻게 만들었나]

이 자료는 박나영 선생님 홈페이지에 공개된 'Data' (링크) 가운데 "표준국어대사전 단어 발음정보"를 기초로 만들었다. 이 원자료를 기초로 제가 한 처리과정은 다음과 같다.

 

1. 추출: 용언을 제외한 나머지 품사에 해당하는 단일어만 추출하고, 열(column) 중에서도 필요한 것만 추출.

1.1 '복합어' 열의 값이 N 인 항목만 추출

1.2 '품사' 열의 값이 Y인 항목만 추출

1.3 각 단어에 대해 열(column) 중에는 '표제어', '어종', '품사2', 그리고 '발음형' 만 추출.

 

2. IPA로 발음형 변환: 이전에 썼던 블로그 글 https://linguisting.tistory.com/27 에 따라 원자료의 발음형을 IPA로 변환하였다. 단순 기호의 차이 외에 박나영 선생님의 발음표기와 실질적으로 큰 차이가 나는 부분이 있다. 박나영 선생님은 ㅚ ㅟ 를 단모음, ㅐㅔ를 변별되는 다른 음소로 처리한 반면 이 포스팅의 자료에서는 신지영 교수님의 교과서를 따라 ㅚㅟ를 이중모음 ㅐㅔ를 하나의 음소로 처리했다.

 

3. .corpus 파일로 변환: 위의 1과 2의 과정을 거친 후 PCT에서 바로 읽어들일 수 있는 코퍼스 파일로 변환하였다.

 

 

반응형