0.
저는 석사논문을 영어와 한국어의 음운론적 어휘부(phonological lexicon)에 대해서 썼습니다. 영어와 한국어 어휘들의 발음형에 대한 것이었습니다. 발음형이라 함은, 한국어학에서는 '사전등재형'이라고 불리고 영어학/언어학에서는 '기저형' 'underlying form' 'input' 등으로 불리는 것을 말합니다. (물론, surface forms도 보기는 했습니다만 논문에 포함되지는 않았습니다.)
따라서 단어의 사용빈도가 중요했습니다. 한국어 어휘 사용빈도 자료는 강범모 & 김흥규 (2009) 를 보면 되었는데 영어 자료를 무엇으로 사용해야 할지 논문을 쓰던 당시에는 영어 자료로 무엇을 봐야 하는지 제대로 몰랐고, 제가 봤던 선행연구들에서도 속시원하게 나와있지 않았습니다. 단지 Kucera and Francis (1967)의 빈도자료를 인용하고 있을 따름이었으나, 그것은 너무 오래된 자료여서 저는 논문에 사용할 새로운 어휘 사용빈도 자료가 필요했습니다.
결국 제가 사용했던 것은 CoCA (Corpus of Contemporary American English)의 자매품(?)으로 나온 Word frequency data (https://www.wordfrequency.info/) 였습니다. 지금와서 돌아보면 그것이 최상의 선택은 아니었던 것 같습니다.
그래서 혹시라도 저와 같은 사람이 또 있을 것 같아서, 시중에 나와있는 믿을만한 어휘 사용빈도 자료를 정리해서 적어봅니다.
1. Kucera and Francis (1967)
심리언어학에서 종종 사용하는 빈도사전인데 이건 쓰지 말라는 의미에서 제일 먼저 적습니다. 비추비추입니다. 아래에 소개된 것들을 사용하세요.
2. wordfrequency.info (서비스 중단됨)
wordfrequency.info 의 서비스가 COCA로 통합되었다는 소식을 들었습니다. 아래 URL로 들어가시면 자세한 정보가 나와있습니다. 하지만, 기존의 정보는 더이상 유효하지 않아서 옅은색으로 폰트를 바꾸었습니다.
구하는 곳: https://www.wordfrequency.info/
유명한 영어 코퍼스인 COCA (5억 6,000만 어절)에 기반을 둔 빈도자료입니다. 정확한지는 모르겠지만, 일단 돈을 내야한다는 것은 확실합니다.
가장 큰 단점은 유료라는 것과 발음형태를 제공하지 않는다는 것입니다. (즉, 영어 철자형의 목록과 각 단어의 빈도가 몇회인지만 보여줍니다)
저는 음운론자이므로 이 자료는 사실 그자체로는 쓸모가 없었습니다. 따라서 석사논문을 쓸 때에는 이것에다가 각 단어의 발음형을 따로 얻어가지고 새로운 데이터베이스를 만들어 썼습니다.
(덧: 최근에는 140억(!) 어절 규모의 iWeb Corpus를 기초로 하는 빈도사전이 이곳에 추가되었다고 하네요. 새로운 데이터는 늘 짜릿하지요. 저도 확인하러 가야겠습니다.)
3. SUBTLEXus
구하는 곳: https://www.ugent.be/pp/experimentele-psychologie/en/research/documents/subtlexus
이것도 심리언어학에서 사용되는 빈도사전이고 IPhOD (The Irvine Phonotactic Online Dictionary) 역시 이 빈도사전을 사용합니다.
기본적으로 미국영어 자막 (총 5,100만 어절 규모)을 기초로 만든 것인데, 각 어휘에 대해서 100만개 어절 중 해당 어휘가 몇 번 출현하나를 보여줍니다. 아마도 다양한 언어들, 혹은 다양한 종류의 영어와의 비교를 위해 normalize한 것 같습니다.
SUBTLEXus에는 두 가지 버전이 있는데, 빈도 자체를 표현한 버전이 있고 다른 하나는 맥락다양성(contextual diversity)의 개념을 도입해서 가공한 버전입니다. (Adelman, Brown, and Quesada 2006)
iPhOD를 사용하신다고 가정했을 때, 사용빈도 정보와 발음형도 있어서 매우 유용합니다.
4. Celex2
구하는 곳: https://catalog.ldc.upenn.edu/LDC96L14
Linguistic Data Consortium에서 구할 수 있는 Celex2 역시 좋은 데이터베이스입니다. Baayen의 코퍼스언어학 교과서에서 사용하는 빈도자료가 아마 이거일 겁니다. 어휘의 발음형도 함께 제공해주는 것으로 알고있습니다.
(추가로 더 알게되는 좋은자료가 있으면 더 적겠습니다..)
'Bouncing ideas 생각 작업실 > data sharing 생각재료 나누기' 카테고리의 다른 글
한국어 말놀이를 형식화하기 (0) | 2022.07.08 |
---|---|
재밌는 부분첩어 partial reduplication 사례 저장소 (3) | 2022.06.28 |
Phonological CorpusTools 용 한국어 코퍼스 (층위분류됨) (6) | 2022.06.10 |
컴퓨터로 읽을 수 있는 한국어 ㄴ삽입 (n-insertion) 실험결과 (0) | 2022.02.23 |
언어변화로 인해 차용양상에 변화가 생기는 경우 (0) | 2021.01.19 |