0. 요약
"이불부터 개라"처럼 "폴더부터 만들라"라는 교훈 겸 일상 글입니다.
목차
1. 몰타어 다시 시작
몰타어 분석을 다시 시작했다. 몰타어 섹션을 아예 버리는 수준까지 고려했던 걸 생각하면 화려한 부활.
Transformer model 학습데이터 추려내는 것이 이번주의 목표였는데 막상 하려니 막연하다. 그래서 폴더부터 만들었다.
모든 일은 폴더를 만들고 이름을 붙이는 것으로부터 시작한다.
- 오늘의 날짜와 뒤이어 Maltese
- 그리고 그 안에 몰타어 데이터베이스인 Ġabra 덤프파일을 다시 받았다. 월초마다 그쪽에서 자동 덤핑을 하는데 마침 8월.
이렇게 하고 나니 당장 해야할 일이 명확해졌다. 일단 Mifsud (1995)의 단어목록을 디지털화하는 것이다.
2. 다시 내 질문으로 돌아가기
궁극적으로 나의 질문은 "왜 어떤 단어는 예외로 행동하는가?" 이다. 전통적 대답인 "어원 때문이다"를 비판하는 것이 나의 프로젝트다. (그 잘난 '어원 🦄'은 학습가능하지 않다. 한반도에서 태어나면 '한자어-고유어' 구분 능력을 탑재하기라도 하냐? 망상 그만해.) 한국어의 경우 ㄹ경음화의 생산성과 예외사례(e.g., 장발장[장발짱])들이 실증적 증거고, 몰타어에서는 차용어 동사 형태론의 예외사례가 실증적 증거다. Mifsud (1995)의 보고: "같은 차용어더라도 어떤 동사는 non-concatenative pattern을 따르고 다른 동사는 이탈리아어 시칠리아어처럼 concatenative하다."를 깊이 들어가서 "무엇이 패턴을 결정하는가?"를 논하는 것이다.
즉, Mifsud가 '차용어지만 고유어처럼 행동하는 단어들'로 보고한 것들을, 컴퓨터에서 읽을 수 있는 형태로 변환하는 것이 첫단계. 기계학습을 이용하려면 할 수도 있겠지만, OCR 모델 자체를 새로 훈련해야 할 수준으로 기존 모델(Tesseract) 퍼포먼스가 처참하다. 고작 백 몇개 단어를 위해서 모델을 훈련하는 건 빈대잡자고 초가삼간 태우자는 것이므로 그냥 영어ocr 모델로 뽑아내고 수작업으로 수정했다.
3. 처리가능한 수준까지 가져오는 게 관건
이전에 한국어 ㄴ삽입에 관해 똑같은 일을 했는데, 참 씁쓸하다. 요즘 나오는 논문들은 데이터 자체를 투명하게 공개하므로 가져다가 쓸수있는데 이건 기술진보때문이 아니라 data driven research의 유행이후의 연구문화 변화 때문이다. 진정한 진보를 가져오는 건 때론 기술이 아니라 문화와 자세다. 그러나 그 이전까지는 하는 수 없이 manual labour를 피할 수 없다.
https://linguisting.tistory.com/50
따라서 일단의 계획은 training-test-validation division할 때 Mifudian types를 적절히 배치하는 것이다. 궁극적으로 validation에 배치된 type들의 정확한 예측이 목표다.
Mifsud, M. (1995). Loan verbs in Maltese: A descriptive and comparative study (Vol. 21). Brill.
- 글이 유익하셨다면 후원해주세요. Toss (국내결제) || BuyMeACoffee(해외결제카드필요)
- 아래에 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
- 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
- 반박이나 오류 수정을 특히 환영합니다.
- 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.
'생각나는대로' 카테고리의 다른 글
담기에 내가 그릇이 작다 (0) | 2024.08.12 |
---|---|
만족할 만한 설명 그리고 전공자가 말하지 않는 이유 (1) | 2024.08.06 |
한달만에 논문 실적 만들어드립니다 (0) | 2024.07.30 |
Gen Z가 바라보는 우리 세대 (0) | 2024.07.10 |
몸으로부터 자유로운 음운론 (0) | 2024.06.18 |