Phonological CorpusTools 용 한국어 코퍼스 (층위분류됨)

Bouncing ideas 생각 작업실/data sharing 생각재료 나누기

Phonological CorpusTools 용 한국어 코퍼스 (층위분류됨)

sleepy_wug 2022. 6. 10. 14:50

[설명]

이 포스팅의 목적은 한국어 음운 코퍼스 (단어 발음형의 목록) 를 공유하는 것이다.

한국어 어휘들의 발음형 목록이 있다면 컴퓨터를 이용해서 다양한 양적 분석을 할 수 있다. 양적 분석은 다른 말로 "계량언어학적 분석"이라고도 하는데, 예를 들어서 아래와 같은 주제를 실증적인 방향성으로 연구하는 것을 말한다. 한국어 단어 발음형들의 목록인 '음운 코퍼스'는 이러한 연구를 위해 필수적이다.

모음 /i/ 앞에서 자음이 구개음화(palatalized)되기 쉬운데, 이 과정이 세대에 걸쳐서 중첩된다면 렉시콘 자체에 [구개음]-/i/ 연쇄가 많이 나타날 것으로 예측된다. 이 예측을 확인하기 위해, 실제로 한국어에 이러한 연쇄가 유의미하게 많은지를 보려면 한국어 어휘들의 발음형들 대상으로 음운 검색(phonological search)을 하고 통계를 내야 한다.
한국어의 음소 인벤토리에서 각각의 음소가 단어 변별에 얼마만큼 기여하는지 알아볼 수 있다. 한국어를 잘 알아듣는다는 말은 다시 말하면 변별에 큰 역할을 하는 음소를 잘 구별해내는 것이기 때문이다. 이를 기능부담(Functional load)이라고 하는데 각 음소의 기능부담값을 쉽고 정확하게 계산하기 위해서도 많은 한국어 어휘 발음형들로 구성된 자료가 필요하다.

더 나아가서 위에 제시된 음운 코퍼스의 양적 지표를, 한자어 고유어 외래어 등 층위에 따라 구분해서 분석할 수도 있을 것이다.

이러한 양적 지표를 살펴보려면 한국어 음운 코퍼스 (어휘의 발음형으로 구성된 목록) 뿐만 아니라, 이러한 코퍼스를 분석할 수 있는 툴이 필요하다. Phonological CorpusTools라는 분석툴을 사용할 수 있는데, 이 포스팅에서 공유하는 자료는 PCT에서 곧바로 활용할 수 있는 한국어 자료이다.

Phonological CorpusTools가 무엇인지에 대해서는 이 논문 과 이 자료를 확인할 수 있다.

[자료링크]

한국어 전체 (링크) : 124,992 개 어휘 26.3 MB (동음이의어 포함)

한자어만 (링크): 102,390 개 어휘 21.3 MB (동음이의어 포함)

고유어만 (링크): 10,585 개 어휘 2.26 MB (동음이의어 포함)

외래어만 (링크): 10,944 개 어휘 2.38 MB (동음이의어 포함)

동음이의어 포함이라 함은, 층위간 동음이의어와 층위내 동음이의어 모두 포함한다는 것을 의미한다. 예를 들어 '가'는 <구석>이라는 의미로 고유어 층위, 家로서 한자어 층위에, 그리고 可로서 한자어 층위에 있을 것이다.

[어떻게 사용하나?]

위에 있는 .corpus 파일을 사용하려면 아래의 두 조건이 만족되어야 한다.

Phonological CorpusTools가 컴퓨터에 설치되어 있어야 한다. 설치링크 에 들어가서 하단 Assets에서 자신의 시스템에 맞는 PCT를 설치하면 된다.
PCT가 설치되어 있다면, .corpus 파일을 PCT에서 접근하는 CORPUS 폴더에 저장한 후 PCT에서 Load Corpus를 하면 된다.

PCT에서 접근하는 CORPUS 폴더가 어디인지는 PCT의 설정 창에서 확인할 수 있다. PCT에서 상단 메뉴 중 Options -> Preferences... 에 들어간 다음, 거기에서 나오는 'Storage directory:' 에 가면 CORPUS 폴더를 찾을 수 있다. 다운로드 받은 .corpus 파일은 CORPUS 폴더 밑에 저장해야 함.

Windows 유저의 경우, 기본설정(설정을 바꾸지 않았을 때) 상, 아래의 주소를 탐색기 주소창에 입력하면 된다.
%UserName%/Documents/PCT/CorpusTools/CORPUS

Mac 유저의 경우, 기본설정(설정을 바꾸지 않았을 때) 상, ⇧ + ⌘ + O 를 누르고 나오는 창에서 차례대로 PCT, CorpusTools, 그리고 CORPUS로 들어가면 된다.

[원자료 및 처리: 어떻게 만들었나]

이 자료는 박나영 선생님 홈페이지에 공개된 'Data' (링크) 가운데 "표준국어대사전 단어 발음정보"를 기초로 만들었다. 이 원자료를 기초로 제가 한 처리과정은 다음과 같다.

1. 추출: 용언을 제외한 나머지 품사에 해당하는 단일어만 추출하고, 열(column) 중에서도 필요한 것만 추출.

1.1 '복합어' 열의 값이 N 인 항목만 추출

1.2 '품사' 열의 값이 Y인 항목만 추출

1.3 각 단어에 대해 열(column) 중에는 '표제어', '어종', '품사2', 그리고 '발음형' 만 추출.

2. IPA로 발음형 변환: 이전에 썼던 블로그 글 https://linguisting.tistory.com/27 에 따라 원자료의 발음형을 IPA로 변환하였다. 단순 기호의 차이 외에 박나영 선생님의 발음표기와 실질적으로 큰 차이가 나는 부분이 있다. 박나영 선생님은 ㅚ ㅟ 를 단모음, ㅐㅔ를 변별되는 다른 음소로 처리한 반면 이 포스팅의 자료에서는 신지영 교수님의 교과서를 따라 ㅚㅟ를 이중모음 ㅐㅔ를 하나의 음소로 처리했다.

3. .corpus 파일로 변환: 위의 1과 2의 과정을 거친 후 PCT에서 바로 읽어들일 수 있는 코퍼스 파일로 변환하였다.

저작자표시 비영리 변경금지 (새창열림)

'Bouncing ideas 생각 작업실 > data sharing 생각재료 나누기' 카테고리의 다른 글

한국어 말놀이를 형식화하기 (0)	2022.07.08
재밌는 부분첩어 partial reduplication 사례 저장소 (5)	2022.06.28
컴퓨터로 읽을 수 있는 한국어 ㄴ삽입 (n-insertion) 실험결과 (0)	2022.02.23
언어변화로 인해 차용양상에 변화가 생기는 경우 (3)	2021.01.19
영어와 한국어 어휘 사용빈도 word frequency data for American English and Korean (0)	2019.03.06

현재글Phonological CorpusTools 용 한국어 코퍼스 (층위분류됨)

언어학자 지망생이 '언어학하고 앉아있네!' 이론음운론 ABD(박사후보). 말소리를 어떻게 조립해서 단어가 되는지 연구해요.

praat, 한글, 의미론, 대학원, 대화격률, ipa, 언어학, 영어, 음운론, 프로그램, 음성학, 모음, 이중모음, 오블완, 통사론, 티스토리챌린지, 실험은어려워, 한국어, 음소, 화용론,

Today :
Yesterday :

언어학하고 있네