목차 - 우당탕탕 이론언어학 연구자가 fairseq 입문한다- cross-attention 쉽게 접근하기- 신경망 이용한 음운론 연구 프로그램에서 이어지는 글입니다. 1. heatmap은 보기만 좋을 뿐Attention weights를 다 구하면 일단 아래와 같이 encoder-decoder cross attention weights 전체를, 각 layer와 각 head에 대해 heatmap으로 시각화할 수 있다. 위 그림은 의미가 없는 한국어 단어 "음월장"에 대하여 기계가 L-Tensification (ㄹ경음화)을 적용시켜 발음형을 "[음월짱]"이라고 도출해낸 이유를 설명하기 위한 heatmap이다. Output token 중 ㅉ에 해당하는 cc 부분을 보면, (c가 아니라) cc를 생성할 때 앞..