Web Analytics Made Easy - Statcounter

Bouncing ideas 생각 작업실/data sharing 생각재료 나누기

영어와 한국어 어휘 사용빈도 word frequency data for American English and Korean

sleepy_wug 2019. 3. 6. 17:58

0.  요약

저는 석사논문을 영어와 한국어의 음운론적 어휘부(phonological lexicon)에 대해서 썼습니다. 또 지금의 연구 분야도 코퍼스를 많이 다루는 방향이기 때문에 실제로 단어가 얼마나 사용되느냐 즉 단어의 사용빈도를 정확하게 아는 것이 중요합니다.

 

한국어 어휘 사용빈도 자료는 강범모 & 김흥규 (2009). "한국어 사용 빈도" 를 봅니다.

 

반면 영어 자료를 무엇으로 사용해야 할지, 저는 석사 논문을 쓰던 당시에는 제대로 몰랐습니다. 제가 봤던 선행연구들에서도 속시원하게 나와있지 않았습니다. 단지 Kucera and Francis (1967)의 빈도자료를 인용하고 있을 따름이었으나, 그것은 너무 오래된 자료여서 저는 논문에 사용할 새로운 어휘 사용빈도 자료가 필요했습니다. 

 

결국 제가 사용했던 것은 CoCA (Corpus of Contemporary American English)의 자매품(?)으로 나온 Word frequency data (https://www.wordfrequency.info/) 였습니다. 지금와서 돌아보면 그것이 최상의 선택은 아니었던 것 같습니다.

 

그래서 혹시라도 저와 같은 사람이 또 있을 것 같아서, 시중에 나와있는 믿을만한 어휘 사용빈도 자료를 정리해서 적어봅니다.

 

 

1. Kucera and Francis (1967)

 

심리언어학에서 종종 사용하는 빈도사전인데 이건 쓰지 말라는 의미에서 제일 먼저 적습니다. 비추비추입니다. 아래에 소개된 것들을 사용하세요.

 

 

2. wordfrequency.info (서비스 중단됨)

 

wordfrequency.info 의 서비스가 COCA로 통합되었다는 소식을 들었습니다. 아래 URL로 들어가시면 자세한 정보가 나와있습니다. 하지만, 기존의 정보는 더이상 유효하지 않아서 옅은색으로 폰트를 바꾸었습니다.

구하는 곳: https://www.wordfrequency.info/

 

유명한 영어 코퍼스인 COCA (5억 6,000만 어절)에 기반을 둔 빈도자료입니다. 정확한지는 모르겠지만, 일단 돈을 내야한다는 것은 확실합니다.

 

가장 큰 단점은 유료라는 것과 발음형태를 제공하지 않는다는 것입니다. (즉, 영어 철자형의 목록과 각 단어의 빈도가 몇회인지만 보여줍니다)

 

저는 음운론자이므로 이 자료는 사실 그자체로는 쓸모가 없었습니다. 따라서 석사논문을 쓸 때에는 이것에다가 각 단어의 발음형을 따로 얻어가지고 새로운 데이터베이스를 만들어 썼습니다.

 

(덧: 최근에는 140억(!) 어절 규모의 iWeb Corpus를 기초로 하는 빈도사전이 이곳에 추가되었다고 하네요. 새로운 데이터는 늘 짜릿하지요. 저도 확인하러 가야겠습니다.)

 

 

3. SUBTLEXus

 

구하는 곳: https://www.ugent.be/pp/experimentele-psychologie/en/research/documents/subtlexus

 

이것도 심리언어학에서 사용되는 빈도사전이고 IPhOD (The Irvine Phonotactic Online Dictionary) 역시 이 빈도사전을 사용합니다.

 

기본적으로 미국영어 자막 (총 5,100만 어절 규모)을 기초로 만든 것인데, 각 어휘에 대해서 100만개 어절 중 해당 어휘가 몇 번 출현하나를 보여줍니다. 아마도 다양한 언어들, 혹은 다양한 종류의 영어와의 비교를 위해 normalize한 것 같습니다.

 

SUBTLEXus에는 두 가지 버전이 있는데, 빈도 자체를 표현한 버전이 있고 다른 하나는 맥락다양성(contextual diversity)의 개념을 도입해서 가공한 버전입니다. (Adelman, Brown, and Quesada 2006)

 

iPhOD를 사용하신다고 가정했을 때, 사용빈도 정보와 발음형도 있어서 매우 유용합니다.

 

 

4. Celex2

 

구하는 곳: https://catalog.ldc.upenn.edu/LDC96L14

 

Linguistic Data Consortium에서 구할 수 있는 Celex2 역시 좋은 데이터베이스입니다. Baayen의 코퍼스언어학 교과서에서 사용하는 빈도자료가 아마 이거일 겁니다. 어휘의 발음형도 함께 제공해주는 것으로 알고있습니다.

 

 

(추가로 더 알게되는 좋은자료가 있으면 더 적겠습니다..)

 

 


  • 글이 유익했다면 후원해주세요 (최소100원). 투네이션 || BuyMeACoffee (해외카드필요)
  • 아래 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
  • 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
  • 반박이나 오류 수정을 특히 환영합니다.
  • 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.