Web Analytics Made Easy - Statcounter
반응형

분류 전체보기 219

시험을 어렵게 만드는 요소

0. 도입 며칠 전 언어학 교양 수업 기말고사의 채점을 끝냈습니다. 지난 중간고사를 너무 잘 봐서, 아예 작정을 하고 시험을 어렵게 낼 수 있는 기회가 생겼었습니다. 그런데도 잘 보는 사람들은 잘 보네요. 마음대로 시험을 어렵게 내는 과정에서 고려했던 몇 가지 요소들이 있었습니다. 그 중에서 나름 효과가 있어보이는 (즉, 학생들이 실수하게 만드는) 요소들을 이 글에 정리해 놓습니다. 아마도 다음에도 어려운 시험을 낼 일이 생긴다면 이런 요소를 응용할 것 같습니다. 아예 "답을 모르겠다"까지가 아니더라도 "시간이 부족하다"라는 인상을 주어도 시험을 어렵게 만드는 데에는 좋은 것 같습니다. 목차 1. 불필요한 맥락을 너무 많이 넣는다. 문제풀이 자체를 위해서는 필요 없는 사회문화적 맥락을 과도하게 집어넣어서..

'어림짐작'으로 쉽게 말하는 사람들

0. 머리말 계산적(computational) 연구에는 반드시 기계 (컴퓨터) 가 사용됩니다. 컴퓨터의 사용은 대충보면 간편해보이는데 실제로는 간단하지 않습니다. 이 글은 언어학 연구에서 컴퓨팅 자원의 사용에 대한 '아무말대잔치'를 다룹니다. 목차 1. 소위 '좋은 시절' "요즘에는 개인 컴퓨터들 성능이 좋아서 본인 컴퓨터에서 결과 쉽게쉽게 나오니 참 좋겠어. 우리때는 데이터가 있어도 분석하려면 학교 컴퓨터 랩 예약해서 겨우겨우 시간 쫓겨가며 해야했는데.." 라고 선배 세대가 말하는 걸 보면 그냥 웃으며 아무 말 하지 않거나, 내 기분이 좀 좋으면 우쭈쭈해드리곤 한다. 2. 연구하려면 돈내세요 모델 하나를 쓰는데 구글 colab에서 100 compute unit이 소요되었다. 15불이다. 그 모델이 성공..

fairseq translation task cross-attention 접근 쉽게하기

.translate() method에 verbose parameter가 있다는 걸 간과했다. verbose = True 주니까 각 hypothesis 별로 아래와 같은 log가 터미널에 뿌려졌다. 2024-04-10 00:27:55 | INFO | fairseq.hub_utils | H-0.012383962981402874c i m a lZ cc v ngZ 2024-04-10 00:37:22 | INFO | fairseq.hub_utils | P-0.0000 -0.0000 -0.0001 -0.0000 -0.0000 -0.1113 -0.0000 -0.0000 -0.0000 beam = 5 였으므로 5개 후보형을 고려한다. 그래서 각 2줄, 총 10줄의 log가 떴다. 이 데이터는 이해하기 쉽다. 입력값 (..

학부 언어학 개론 수업에서 초청강연을 "또" 했습니다.

5년전에 이런 글을 올렸던 적이 있습니다. 2019.03.26 - [생각나는대로] - 학부 언어학 개론 수업에서 초청강연을 했습니다. 학부 언어학 개론 수업에서 초청강연을 했습니다. 학부에 개설된 Ling101에서 한국어를 소개했습니다. Ling101은 언어학과 이외의 타과생 대상으로 하는 교양 수업인데, 언어학 이론보다는 세계 언어의 여러 모습에 초점을 맞추는 과목입니다. 여기 linguisting.tistory.com 한바퀴 돌아서 5년만에 똑같은 과목인 LING101에서 강연을 했습니다. 이번에는 50분을 꽉 채워서 연구분야에 대해 이야기했네요. 올해는 박사과정생 4명이 각각 1시간씩 자신의 연구주제에 대해 교양수업 수강생들의 눈높이에 맞추어 강연했습니다. 총 2주의 기간 동안 일 주일에 2명 씩 ..

생각나는대로 2024.04.10

Never assume anything

실험데이터를 기계에 넣고 다 돌려버리는 것과 별개로, human touch가 들어가는 것이 필요하다. 예상치도 못한 변수가 있을 수 있기 때문이고 그 부분에서 이름 걸고 연구하는 사람이 확인을 하고 책임을 질 선택을 해야 하기 때문이다. 사람은 다양하다. 사람으로부터 얻는 데이터도 다양하다. 그래서 무엇도 당연히 생각하면 안된다. 상상을 초월하는 경우는 늘 있다. 예전에 토론토에서 운전하다가 교외에서 사고를 낸 적이 있다. 대인사고는 아니었는데, 차가 좀 망가져서 garage에서 견인차를 불러 수리를 맡겼다. 어짜피 garage가 토론토에 있었기 때문에 견인차 옆자리를 얻어타고 돌아가는데, 아저씨 운전석에 대문짝만하게 NEVER ASSUME ANYTHING이라고 써져있는 걸 봤다. "무엇도 당연하게 전제..

영리하게 과제를 하는 학부생 그룹

이번에 타과생을 대상으로 하는 언어학 교양과목을 하면서 기말 조별과제로 language survey를 냈다. 이제 학기가 끝나가고 있어서 제출을 다 받았고, 채점을 하고 있다. 그 와중에 드는 생각을 정리하기 위해 글을 쓴다. Language survey는 말그대로 잘 연구되지 않았거나(understudied) 화자 수가 적은 소수언어를 골라 조사를 하는 것인데, 대체로 reference grammar를 채택하고 거기에서 소개된 문장이나 표현 등을 보고 언어자질(feature)을 정리하여 제시하는 것을 요구한다. 주로 학부 1학년 2학년생들을 대상으로 훈련시키는데, 이런 연습이 고학년 때 혹은 대학원 가서 도움이 되기 때문이다. 이번에는 language survey를 타과생 교양과목에서도 시도하게 되었다..

생각나는대로 2024.03.29

Python으로 textgrid 생성했는데 왜 먹지를 못하니

0. 요약 Montreal Forced Aligner를 이용한 Forced alignment를 대규모로 하다가 문제에 봉착했다. 큰 소리로 생각한다는 개념으로 나의 생각 과정을 여기에 적는다. 목차 1. 이슈 각 wav 녹음파일에 대하여 stimulus (화면에 표시된 한국어 단어)의 내용 (한글철자)을 유일한 tier로 가지는 praat textgrid를 python script를 이용하여 생성했다. "[participant ID]_[base id]_[phonotactics]_[manipulation]_[repetition]_[group].wav" 형식의 wav 파일명을 parsing하여 base_id와 phonotactics 값에 따라 해당하는 단어의 철자형을 TSV 형식의 stimuli list 로..

ㄹ의 이형태

Crosby and Dalola. (2021). phonetic variation in Korean liquid phoneme. Proc Ling Soc Amer 6(1). 701-712 https://doi.org/10.3765/plsa.v6i1.5002 Phonetic variation in the Korean liquid phoneme | Proceedings of the Linguistic Society of America journals.linguisticsociety.org  40세 미만 표준어 화자 남6, 여6 음향분석. 통계처리는 linear mixed-effects regression models주로 formant analysis주된 쟁점은 2가지.1. 통상적으로..

수집데이터의 물리적 저장

연구를 위해 수집한 채록 데이터(음성파일 + 응답지 조사 결과)가 계륵이다. 다른 프로젝트에서 정해진 프로토콜에 따라 '수집자'의 자격으로 일만 하고 이후 과정을 신경쓰지 않았을 때에는 몰랐는데, 수집 후가 정말 골치아프다. 수집하는 과정보다 결과물들을 물리적으로 저장하는 방식이 더 골치아프다. 우선 피실험자 개개인별로 본인에게서 나온 데이터의 공개범위를 다르게 지정해놓았기 때문에, 아예 따로 저장해놓아야 한다. 또 이유는 모르겠지만, 수집 데이터가 캐나다 영토 내에 물리적으로 존재하는 서버에 저장되어야 한댄다. 진짜로 인터넷 연결 안된 학교 교내 서버에 박아놓고 옛날 도서관마냥 열람하는 방식을 심각하게 고민하고 있다. 진심으로 날것의 데이터를 사랑해야 하나보다. 근데 졸업하고 내가 학교를 떠나게 되면,..

학부생들과의 의사소통 문제

답답해서 쓰는 포스팅. 당연하지만 Teaching team이 학부생들의 이메일 주소나 전화번호나 연락처를 아는 것은 불가능하다. 이메일 주소 직접 사용을 금지하고 철저히 강의 플랫폼(canvas)을 통해 연락을 하도록 한 것이 거진 5-6년 됐을 것이다. 그러나 궁극적으로 강의 플랫폼도 학생 이메일 주소로 메시지를 전달할 뿐 IG나 왓츠앱 등 메시징 서비스로 전달하지 않는다. 학생들은 이메일을 쓰지 않는데, 학부 수업의 표준 소통방식은 이메일이라는 점은 심각한 문제다. 우리 세대는 당연히 이메일이나 전화번호를 공유하고 연락하였고, .edu 로 끝나는 소위 '학교 이메일'을 사용해서 연구자 간 연락을 주고받는 것이 업계표준이다. 반면 Gen Z들은 전화번호는 물론 이메일 공개도 꺼린다. 심지어 학업 목적으..

반응형