Web Analytics Made Easy - Statcounter

Bouncing ideas 생각 작업실/선행연구 보다가 갑자기

통계공부하기 (요약: Sonderegger 2022를 추천)

sleepy_wug 2024. 9. 19. 15:57
반응형

 

0. 요약

언어학은 경험과학입니다. 그 중에서 음운론은 특히 경험주의적인 전통이 강합니다. 경험주의 전통이 강한 영미권 학문 문화에서는 아예 어떻게 하면 경험과학을 잘 할 수 있는지를 고민하는 학문분야가 아예 따로있는데, 바로 통계학입니다.

 

음운론적 논증을 할 때 통계학이 많이 필요한 때가 생깁니다. 실험이라도 한번 하면 반드시 통계가 수반됩니다.[각주:1]

 

이 포스팅에서는 통계학을 전공하지 않는 제가 어떤 책으로 공부했는지 그리고 또 공부하고 있는지를 소개합니다.

 


 

목차

     
    통계의 숲에서 명상

     

    1. 선사(先史): 고등학교와 교양과목

    물론 처음 시작은 고등학교 확률과 통계였다. 경우의수 순열조합 Z-score 구하기 95% 99% 신뢰도 등등이 고등학교 범위에 이미 포함되어 있던 것으로 기억한다.

     

    그 이후에는 대학교 교양과목으로 통계를 들었다. t-test, anova, paired t-test 그리고 오개념이 유독 많은 p-value에 대해서도 이때 처음 배웠다. 내가 학부를 다니던 학교의 통계학 박사과정생이 진행한 교양수업이었을 가능성이 높다. 아예 고등학교 개념을 전제하지 않은 채 진행되었기에 겨우겨우 토픽들을 겉핥기하는 데 급급했던 것같다.

     

    별도로 학부 전공과목으로 통계가 개설되어 있었다. [무슨 과에서 학부를 했길래?] 그 수업은 타 대학 경제학과 박사ABD가 강의를 했는데, 지금 그분 이름을 구글에 찾아보니 한국은행에 연구원으로 계신다. 변수의 종류들과 SPSS를 이용해 실질적인 분석을 하고 결과를 보고하는 방법을 가르쳤다.

     

    학부 전공과목에서 배운 바에 따르면 변수의 종류는 독립변수와 종속변수가 있다. 이 두 용어는 본 포스팅에서 자꾸 언급될 것이므로 (또한 높은 확률로 용어를 바꿔가며 사용할 것이므로) 한번 짚고가자

     

    이런 가설을 통계적으로 검증하고자 한다 치자: "한국어 자연발화에서 후설 고모음 /ɯ u/ (혹은 한글로 쓰면 /ㅡ ㅜ/)은 양순음 뒤에서 구별되지 않는다" 그래서 한국 사람들이 자연스럽게 대화하는 걸 무진장 수집했다. 이때 변수의 종류 두가지는 다음과 같다.

     

    • 독립변수(=예측변수, independent variable, explanatory variable, predictor, input ...): 모음에 선행하는 자음종류
    • 종속변수(=설명변수, dependent variable, response variable, output ...): 기저형 /ɯ u/ 의 발화양상

     

    용어 얘기가 나온 김에 한마디만 더 하자면, 나만 그런 것인지 모르겠지만, likelihood와 probability를 모두 느슨하게 "확률"로 개념화했던 탓에 좀 고생했다. 의도는 likelihood였는데 한국어로 "확률"이라고 생각해서 probability라고 한참 교수님한테 설명을 했는데 "잠깐 그거 probability가 아니라 likelihood 말하는 거였냐?" 소리를 들은 적이 있음. 두 가지 개념을 잘 정리해두는 것은 중요하다. 굳이 한국에서 영어용어로 공부할 필요는 없다. 그러나 의도적으로 "확률"을 한정적으로 사용하고 likelihood는 "가능도"라고 생각하는 게 좋을 것 같다.

     

     

    [개념 정리] Likelihood 와 Probability

    사전에서 Probability를 '확률', Likelihood는 '가능도, 가능성'라고 합니다. 이 단어의 구별이 잘 되지 않습니다. 한국어로 '확률'은 '어떤일이 일어날 가능성'을 나타냅니다. Likelihood도 '어떤일이 일어

    xoft.tistory.com

     

     

    2. 언어학자를 위한 통계학 R활용

    아주 기초적인 통계지식만 가지고 대학원에 왔다. 큰일났다. 무슨책을 읽어야 하지?

     

    "언어학자를 위한 통계학 R활용"부터 읽었다. 이 책은 슈테판 그리스가 지은 Statistics for Linguistics with R의 제2판을 한국어로 번역한 책이다. 처음부터 차근차근 읽기에도 좋고 빨리빨리 찾는 reference handbook 용으로도 아주 좋다. 

    http://aladin.kr/p/CGOqq

     

    언어학자를 위한 통계학 : R활용

    언어학자를 위한 통계학 : R활용

    www.aladin.co.kr

     

     

     

    이 책을 나는 석사때 혼자 한페이지 한페이지 줄쳐가며 공부했다. 그러기에 좋은 책이다. 마치 중고등학교 교과서처럼 "생각해봅시다" 이런 코너도 있고, 통계 모델이나 R 사용하는 방법 뿐만 아니라 통계 그 자체를 공부하는 데에도 도움이 된다. 나의 첫 저널 공저 논문에 나온 통계가 바로 이 책 덕분에 가능한 것이었다. 

     

    특히 맘에 들었던 것은 이 책에 독립변수의 형식과 종속변수의 형식에 따라 통계 모델을 골라골라할 수 있는 플로차트가 있었던 부분. 물론 이게 아주아주 나쁜 습관이라는 걸 이젠 알고있다. 사실 한번은 교수님이랑 미팅할 때 (플로차트 안보고) "독립변수 데이터타입이 이렇고 종속변수 데이터타입이 이러니까 통계모델 이거 하면 되는 거 아님?" 했다가 아주 혼난적도 있다. 왜 그렇게 해야 하는지를 supporting하는 것이 더 중요하다.

     

    막 "연속형 독립변수에 이항 종속변수면 닥치고 로지스틱회귀 아님?" 이런 식의 조건반사(ㅋㅋㅋ) 비슷했는데, 혹시라도 이렇게 반사적으로 말하는 과정생이 있으면 교수님 앞에서는 그러지 마시길. 

     

    3. Baayen (2008)

    Baayen (2008)[각주:2]은 석사때 들었던 음성학 수업에서 몇 챕터 골라서 나갔었던 걸로 기억한다. 내 기억이 맞다면 R 패키지 중 languageR 패키지가 이 책 공부하는 거 도와주는 패키지다. (찾아보니 맞음) 주로 음성실험 데이터를 다루기 때문에 음성음운론에서 통계가 필요한 사람에게 특히 도움이 될법한 책이다.

     

    4. Winter (2019)

    Winter (2019)[각주:3]는 Sonderegger 2022 전까지 나에게 go-to 통계교과서였다. 

     

     

    Statistics for Linguists: An Introduction Using R | Bodo Winter | Tayl

    Statistics for Linguists: An Introduction Using R is the first statistics textbook on linear models for linguistics. The book covers simple uses of linear

    www.taylorfrancis.com

     

    저자인 Bodo Winter는 2012년 논문[각주:4] 때문에 아마 한국에도 많이 알려져 있을 듯하다. Sociophonetics(사회음성학)는 P-side에서 이미 매우 핫한 분야이고 게다가 한국어 데이터를 사용한 논문을 한국인 연구자들은 좋아하는 편이다. Winter 2019는 이 데이터에 대해서도 다루는 것으로 기억함.

     

    그리고 linear mixed effects model 에 대한 설명이 매우 설득력 있다. 정말 과장 조금 보태서 Winter 2019 읽으면 당장이라도 일어나서 자신이 가장 최근에 수집한 실험데이터를 다시 분석하고 싶어진다.ㅋㅋㅋㅋ 그리고 다음에 실험을 할 일이 있으면 lmm을 염두에 두고 실험디자인을 하게 될 것이다 (본인 이야기). 결국 한국어실험의 통계를 lmm으로 하게 된 가장 큰 계기가 이 책이었다.

     

     

     

    5. McElreath (2020)

    MeElreath (2020) "Statistical Rethinking"은 아주 매우 정말 유명한 베이지언 통계 책이다. 베이지언에 대해 잘 모른다면, 통계에는 큰 두가지 패러다임이 있는데 빈도주의(frequentist)와 베이지언(Bayesian)이 그것이라는 점을 알면 좋다. 전통적으로 빈도주의가 표준이었으나, 이제는 베이지언이 차츰 떠오르고 있다. 빈도주의는 뭐냐면, 막 "통계"하면 생각나는 모집단 표본집단 구분해서 뭔가 모집단에서만 관찰되는 (그래서 현실적으로는 관찰할 수 없는) 절대적인 진리의 ✨"경음화할 비율"✨이 존재하고, 표본집단을 통해 그 절대적인 진리에 대한 확률을 추정하는데 검정기법과 p-value와 등등을 사용하는 그런 통계다. 반면 베이지언은 확률을 "믿음의 정도"로 이해한다. "경음화할 비율"이 어쩌할 확률은, 그때까지 우리가 가진 정보와 데이터에 따른 믿음의 정도인데, 이 말은, 나중에 데이터가 더 많아지면 기존의 믿음을 더 업데이트해나간다는 것이다.(베이즈 정리랑 관련있나 생각하면 👍)

     

    MeElreath (2020)은 베이지언 통계 입문(?) 책이다. 나는 이 책을 코로나 시절에 접했는데, 공부하려고 혼자서도 노력하고 같이도 해보고 했는데, 아직도 자신있게 베이지언 통계를 할 수 있다는 / 하겠다는 입장은 아니다. 다만, 저자가 직접 유튜브 채널에 이 책 해설강의도 올리고, 사실 통계에 조금만 관심이 있다면 베이지언 세미나나 강의 등을 못 찾을 이유가 없는 듯하다.

     

    2024년판 강의 GitHub repository

     

    GitHub - rmcelreath/stat_rethinking_2024

    Contribute to rmcelreath/stat_rethinking_2024 development by creating an account on GitHub.

    github.com

     

    사실 베이지언 통계학 겉만 얼마나 핥고 있는지 모르겠다. 🥲 (지구만 몇번이나 던지고 있음) 이제는 베이지안 통계를 해야 하는 흐름이라는 걸 알지만 머리가 굳어서인지 어렵다. 세미나를 다니고 책을 읽어도 그냥 주어진 데이터셋에만 적용할 뿐, 내 데이터에 적용하기가 무섭다. 놀라운 사실: 의외로 박사과정에서 새로운 시도 하기가 어려움. 지금와서 뭔가 작은 것이라도 새로운 걸 하기에는 스트레스가 없지 않아 있다. 유동석 교수님의 "국어의 매개변인 문법"(1995)을 읽었을 때 느꼈던 건데[그 책 이야기], 서문이었나?에서 최소주의를 언급하면서 최소주의적 분석을 해야 하는 것을 아는데... (쩜쩜쩜) 이런 언급이 나왔던 것이 기억난다. 정확한 wording은 기억나지 않지만, '뭘 해야만 하는 흐름이라는 걸 알지만 할 수 없는' 고민이 느껴져서 공감했다.

     

    결론: 학부 고학년 때나 석사 때 오픈마인드로 도전 많이하세요.

     

    6. Sonderegger 2022: 통계 급한 사람들 이거 보세요

    Morgan Sonderegger 교수님의 책 Regression Modeling for Linguistic Data 는 정말, 더 할말이 필요없을 정도로 좋은 책이다.

     

    "어짜피 결국 회귀모델 쓸 거잖아?" 라고 속으로 생각하는 (잠깐, 쌍따옴표는 소리내서 말하는 건가?ㅋㅋ) 모든 언어 연구자들의 종착역이다.

     

    https://mitpress.mit.edu/9780262045483/regression-modeling-for-linguistic-data/

     

    Regression Modeling for Linguistic Data

    The first comprehensive textbook on regression modeling for linguistic data offers an incisive conceptual overview along with worked examples that teach prac...

    mitpress.mit.edu

     

    서재에 멋있게 꽂아두고 싶다, 혹은 종이책으로 보는 게 좋다 하시는 분은 $60 내고 진짜책을 살 수 있다.

     

    근데 어짜피 종이책 볼거 아니고 컴퓨터로 모델 돌리고 책읽고 다 하는 게 대부분의 사람들이기 때문에, 

     

    저자가 올린 1.1버전의 pdf파일

    https://github.com/msonderegger/rmld-v1.1/blob/main/rmld_v1.1.pdf

     

    rmld-v1.1/rmld_v1.1.pdf at main · msonderegger/rmld-v1.1

    Regression Modeling for Linguistic Data book: v. 1.1 - msonderegger/rmld-v1.1

    github.com

     

    그리고 OSF에 올라온 데이터들

    https://osf.io/pnumg/

     

    Regression modeling for linguistic data

    Intermediate book on statistical analysis for language scientists Hosted on the Open Science Framework

    osf.io

     

    을 사용하면 좋다.

     

    어짜피 개인적인 이야기 많이 썼으니 더 이어가자면 난 Sonderegger 교수님 인상이 좀 무서웠는데, 책을 읽으면 너무 친절하고 "이 남자 강의실에선 어떨까?" 궁금해지더라. 

     

     

    특히 이미 통계 기본을 좀 알고 데이터도 다 수집했는데 선형회귀를 제대로 알고 정확하게 쓰고, 리포트도 간지나게 하고 싶다면 이 책이 안성맞춤

     

     

     

     


    • 글이 유익했다면 후원해주세요 (최소100원). 투네이션 || BuyMeACoffee (해외카드필요)
    • 아래 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
    • 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
    • 반박이나 오류 수정을 특히 환영합니다.
    • 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.

     

    1. 물론 통계학이 만능은 아닙니다. 통계학은 테이터로부터 상관관계와 존재와 크기까지는 얻을 수 있도록 도와주지만 그 상관관계가 인과관계인지는 말해줄 수 없습니다. 언어학적 결론(대체로 인과관계)을 내는 것은 언어학적 논증으로 하는 것이고, 통계학이 도와줄 수 있는 부분이 아닙니다. 애초에 언어학적 가설을 잘 세우고 상관관계를 인과관계로 해석할 수 있도록 실험디자인을 잘 하는 것도 중요하죠. [본문으로]
    2. Baayen, R. Harald. 2008. Analyzing linguistic data. Cambridge University Press. [본문으로]
    3. Winter, Bodo. 2019. Statistics for linguists: An introduction using R. Routledge. [본문으로]
    4. Winter, Bodo, and Grawunder, Sven. (2012). The phonetic profile of Korean formal and informal speech registers. Journal of Phonetics, 40(6), 808-815. [본문으로]
    반응형