
이것은 transformer architecture를 도식화한 도표이다. (이렇게 놓고 보니 완전 고해상도잖아?) Vaswani et al 2017에 나온 이 도표를 논문에 그냥 그대로 복붙하려고 한다.ㅋㅋㅋㅋ
아마도 디펜스할 때도 이거 그대로 달랑 띄워놓는 슬라이드를 추가할지도 모르겠다. 그러나 내 성격상 90도 돌려서 도표를 다시 그릴 가능성이 높음.
포스팅의 제목은 약간 낚시성이고, 논문에 명시적으로 가져다 써도 된다고 나와있다. 아래 문구가 언제 추가됐는지 모르겠는데, 논문 잃어버려서 방금 v7 다운로드해보니 'journalistic or scholarly works'에만 쓸거면 그냥 가져다써도 된다고 적혀있었다. 즉, 다시말해서 transformer architecture를 다루는 교과서 같은거 쓰는 게 아니면 그냥 써도 된다는 것이다.

Transformer의 자식뻘 되는 모델들의 대성공을 비추어볼때 아마도 우리 다음 세대 쯤에는 이 도표가 어느정도 상식이 될런지도 모르겠다. 마치 오늘날 컴퓨터의 기본 구조 (CPU/GPU와 메모리와 외부저장장치와 출력부) 가 어느정도 상식인 것처럼 말이다.
사실 ChatGPT 도래 이후로는 나의 core committee 말고도 외부에서 내 연구를 프레젠테이션할 때 transformer가 뭔지 설명 안해도 되어졌다. "여러분 transformer 다 알죠?" 해도 끄덕이는 청중들이 있는 걸 봤을 때, 이미 어느정도 상식일지도 모르겠다.
왠지 빨리 졸업해야겠단 생각이 든다.ㅋㅋㅋㅋㅋㅋ
외부에 프레젠테이션을 할 때 이야기가 나와서 하는 이야기지만, 난 위원회 내부 사람들 (특히 지도교수님)이 더 무섭다.
외부 프레젠테이션 시에는 진짜 고차원의 수준에서 이야기하면 되는데, 내부 위원들과의 미팅에서는 이 방법론을 배우고 싶어하고, 그래서 저수준에서 예시를 들어 설명하는 것이 중요하다.
그래서 toy example을 만들고, transformer가 inference하는 과정을 손으로 한단계 한단계 '숙련된 조교의 시범'으로 한다.
난 사실 처음 이 프로젝트를 시작할 때, 예를 들어 왜 Morita (2018)가 하나의 섹션 전체를 할애해서 가상의 abab, aaabb, aaaaa, bbbb 같은 단어들을 쓰고 한단계 한단계씩 walk through했나 완전히 이해하지 못했던 것같다. 이제는 심정적으로 완전히 이해가 간다.ㅋㅋ
후보가 된 다음은 연구 방법론 때문이겠으나 자연언어보다 가짜언어(사실상 기호 연쇄의 집합)를 더 많이 이야기하는 듯하다. 솔직히 존재하는 언어로 발제를 하고 세미나를 한 게 기억도 좀 가물가물함.
- 글이 유익했다면 후원해주세요 (최소100원). 투네이션 || BuyMeACoffee (해외카드필요)
- 아래 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
- 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
- 반박이나 오류 수정을 특히 환영합니다.
- 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.
'생각나는대로' 카테고리의 다른 글
| 언어학 예문에 일러스트를 첨가하면? (2) | 2026.02.11 |
|---|---|
| 진짜 초분절이 다해먹네 (4) | 2026.02.10 |
| 숫자 0과 개념으로서의 zero (0) | 2026.01.30 |
| 한국어 '-어서' 절의 크기 (0) | 2026.01.21 |
| 경량 LLM 로컬로 또 올리기 (0) | 2026.01.17 |