이번에 교양 computational linguistics 과목 수업조교(채점조교) 하게됐다. 그래서 이번학기 실라버스를 보는데 진짜 흥미로운 토픽을 봤다. FSA, FST라니. 10년만(?)이다.
Finite state automaton (FSA)과 Finite state transducer(FST)는 생성이론 공부하면 개념적으로 다룬다. 시작상태 끝상태 그리고 뱅글뱅글도는 그래프 이렇게 손으로 그리다가 끝난다. 아니 아마도 생성문법 쪽이 아니라 기능주의 제외한 모든 이론언어학 전공자들이 첫째 주 혹은 둘째 주에 적어도 '이런게 있다' 식으로는 다룰 것이다. 나도 그냥 통사론/음운론 시간에 '배경지식'으로 배우기만 했다. (자매품으로 Chomsky Hierarchy가 있다.)
그리고 뭔가 훌쩍 건너뛰는 느낌이 있다. 통사론은 X-bar theory부터가 관심이고, 음운론은 다시쓰기규칙과 규칙순 조금 다루고 그 위에 OT로 이행하는 과정(아직도!)이다. 아마도 음운론 커리큘럼에서 규칙기반문법을 아직도 표준(?)으로 다루는 데에는 OT로의 이행이 완전히 끝나지 않았기 때문일 것이다. (이건 딴 얘기)
난 NLP 전공이 아니지만, 내가 들었던 대학원 computational 입문과목들은 FSA, FST 개념을 훑은 후 곧바로 knn classifier 이후로 넘어간다.
그래서 나는 이번에 맡은 채점조교 수업에서 foma를 처음 봤다. Foma는 FSA FST 개념을 구현하는 솔루션인데, 컴퓨터사이언스 전공이나 NLP 전공이면 FSA, FST 진도 나가면서 써보는 것 같다.
근데 이거 되게 재밌다. 특히 FST regex t -> d || ai _ r ; 이런건 신택스가 uncanny하게 음운규칙서술법이랑 닮았다.
만약 내가 학부 음운론 수업하게 되면 난 마지막주에 어설프게 OT 맛보기 이런거 하지 말고 foma를 소개해주면 너무 좋을 것같다.
그런데 생각해보면 Foma 식의 Finite State Toolkit를 접해보지 않은 건 나의 세대 (어쩌면 나만 해당되는?) 의 비극일지도 모르겠다. 예컨대 Hangul-to-IPA를 개선할 때 기호를 다 붙이면 안 되고 ' ' (공백) 을 구분자로 사용할 수 있도록 해야 한다는 지적을 윗 세대로부터 받았는데, 난 단지 affricates처럼 기호 2개가 연속이지만 하나의 단위인 것들이 있으니까 그런건가 했는데, 이렇게 공백으로 단위를 구분하는 게 Finite State Toolkit에 집어넣을 때 타당한 것이다.
이렇게 말이 나온 김에 Foma를 이용해서 Hangul-to-IPA를 다시 구현해보는 게 나한테는 좋은 연습이 될 것같다.ㅋㅋㅋ
- 글이 유익했다면 후원해주세요 (최소100원). 투네이션 || BuyMeACoffee (해외카드필요)
- 아래 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
- 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
- 반박이나 오류 수정을 특히 환영합니다.
- 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.
'생각나는대로' 카테고리의 다른 글
| 음성학에 기반한 음운론에서의 개론수업은 (3) | 2025.10.03 |
|---|---|
| ChatGPT가 생각하는 언어학 저널 구도 (2) | 2025.09.12 |
| 활자혐오증 (2) | 2025.08.30 |
| 형식의미론 교과서 (2) | 2025.08.21 |
| 김진우 교수님의 2번 리뷰어 (2) | 2025.08.19 |