Web Analytics Made Easy - Statcounter

생각나는대로

폴더를 만드는 것으로부터 시작한다

sleepy_wug 2024. 8. 3. 03:48
반응형

0. 요약

"이불부터 개라"처럼 "폴더부터 만들라"라는 교훈 겸 일상 글입니다.

 

 

목차

 

    1. 몰타어 다시 시작

    몰타어 분석을 다시 시작했다. 몰타어 섹션을 아예 버리는 수준까지 고려했던 걸 생각하면 화려한 부활.

     

    Transformer model 학습데이터 추려내는 것이 이번주의 목표였는데 막상 하려니 막연하다. 그래서 폴더부터 만들었다.

     

    모든 일은 폴더를 만들고 이름을 붙이는 것으로부터 시작한다. 

     

    - 오늘의 날짜와 뒤이어 Maltese

    - 그리고 그 안에 몰타어 데이터베이스인 Ġabra 덤프파일을 다시 받았다. 월초마다 그쪽에서 자동 덤핑을 하는데 마침 8월.

     

    이렇게 하고 나니 당장 해야할 일이 명확해졌다. 일단 Mifsud (1995)의 단어목록을 디지털화하는 것이다.

     

    2. 다시 내 질문으로 돌아가기

    궁극적으로 나의 질문은 "왜 어떤 단어는 예외로 행동하는가?" 이다. 전통적 대답인 "어원 때문이다"를 비판하는 것이 나의 프로젝트다. (그 잘난 '어원 🦄'은 학습가능하지 않다. 한반도에서 태어나면 '한자어-고유어' 구분 능력을 탑재하기라도 하냐? 망상 그만해.) 한국어의 경우 ㄹ경음화의 생산성과 예외사례(e.g., 장발장[장발짱])들이 실증적 증거고, 몰타어에서는 차용어 동사 형태론의 예외사례가 실증적 증거다. Mifsud (1995)의 보고: "같은 차용어더라도 어떤 동사는 non-concatenative pattern을 따르고 다른 동사는 이탈리아어 시칠리아어처럼 concatenative하다."를 깊이 들어가서 "무엇이 패턴을 결정하는가?"를 논하는 것이다.

     

    즉, Mifsud가 '차용어지만 고유어처럼 행동하는 단어들'로 보고한 것들을, 컴퓨터에서 읽을 수 있는 형태로 변환하는 것이 첫단계. 기계학습을 이용하려면 할 수도 있겠지만, OCR 모델 자체를 새로 훈련해야 할 수준으로 기존 모델(Tesseract) 퍼포먼스가 처참하다. 고작 백 몇개 단어를 위해서 모델을 훈련하는 건 빈대잡자고 초가삼간 태우자는 것이므로 그냥 영어ocr 모델로 뽑아내고 수작업으로 수정했다.

     

     

    3. 처리가능한 수준까지 가져오는 게 관건

    이전에 한국어 ㄴ삽입에 관해 똑같은 일을 했는데, 참 씁쓸하다. 요즘 나오는 논문들은 데이터 자체를 투명하게 공개하므로 가져다가 쓸수있는데 이건 기술진보때문이 아니라 data driven research의 유행이후의 연구문화 변화 때문이다. 진정한 진보를 가져오는 건 때론 기술이 아니라 문화와 자세다. 그러나 그 이전까지는 하는 수 없이 manual labour를 피할 수 없다.

    https://linguisting.tistory.com/50

     

    컴퓨터로 읽을 수 있는 한국어 ㄴ삽입 (n-insertion) 실험결과

    ㄴ삽입 (n-insertion)은 한국어의 흥미로운 음운 현상 중 하나이다. 형태론적인 작용들 뿐만 아니라 렉시콘 층위도 영향을 주기에 겉보기에는 gradient한 현상이다. 렉시콘 층위와 ㄴ삽입 관련하여서

    linguisting.tistory.com

     

    따라서 일단의 계획은 training-test-validation division할 때 Mifudian types를 적절히 배치하는 것이다. 궁극적으로 validation에 배치된 type들의 정확한 예측이 목표다.

     

     

     

    Mifsud, M. (1995). Loan verbs in Maltese: A descriptive and comparative study (Vol. 21). Brill.


    • 글이 유익하셨다면 후원해주세요. Toss (국내결제) || BuyMeACoffee(해외결제카드필요)
    • 아래에 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
    • 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
    • 반박이나 오류 수정을 특히 환영합니다.
    • 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.

     

     

     

    반응형