Web Analytics Made Easy - Statcounter

언어학으로 박사유학/언어학 박사 생활하기

제한된 데이터를 바탕으로 논증하기

sleepy_wug 2025. 11. 20. 06:21

 

최근 office hours에서 학생들을 만나면 가끔 참 재밌는 관찰을 한다.

 

높은 확률로 Gen AI 사용의 영향일텐데, 문제에서 주어진 데이터 밖에서 자꾸 데이터를 가져와서 논증에 사용하려고 한다.

 

음운론은 가지고 있는 데이터를 기반으로 논증을 하는 과정이고 (그래서 음운일지도 모르겠다), 따라서 음운론 문제는 대체로 제한된 데이터를 제공하고 이 데이터에 한정해서 어떤 일반화를 할 수 있고 어떤 설명(규칙순 혹은 제약서열)을 할 수 있는지를 물어본다.

 

그러나 학생들이 최근 "하지만 실제로 이 언어에서는..." 하는 식으로 컴플레인을 한다. 그런 질문에 대한 답은 "그걸 니가 어떻게 아는데?" 이다. 외부 데이터 반입금지다.

 

왜냐하면 이론음운론은 논증에 관한 것이지, 특정 개별언어를 완벽하게 설명하는 것은 부차적 관심이기 때문이다. 특정 개별언어를 설명할 수 있는 방법은 다양하다. 그리고 그것은 자연어처리의 관심이다. 가장 무식하게는 모든 관찰을 렉시콘에 집어넣는 방식도 특정 개별언어를 완벽하게 설명한다. 메모리가 무한이라는 전제를 해야 하지만, 이것도 충분히 좋은 처리방식이다. 이론적 설명 없이 패턴 학습을 통해서도 개별언어를 설명할 수 있다. 

 

음운론을 포함한 이론언어학은 한정적 도구의 활용으로 언어 보편을 설명하는 것을 목적으로 한다. 개별언어는 이 한정적 도구의 다채로운 활용으로 도출 (내지는 생성) 된다.

 

이러한 맥락에서, 음운론 (아마 다른 이론언어학의 분과들도 마찬가지일 것이다) 은 '주어진/알고있는' 데이터 내에서 가장 좋은 논증을 하는 것이다. 나중에 데이터가 늘어날 수도 있고, 바뀔수도 있고, 잘못된 것으로 판명될 수 있다. 그러나 논증 자체는 데이터와 독립적으로 유효하다. (지금 적고보니 데이터와 독립적인 논증이라는 부분이 음성학과 음운론을 가르는 경계선일 수도 있겠다. 그러나 음성학적 논증도 있으니 잘 모르겠음.)

 

왜냐하면 음운론이든 이론언어학이든 더 크게 경험주의에 뿌리를 두는 모든 과학의 가장 큰 전제는 데이터는 바뀐다 이기 때문이다. 관찰 도구가 발달하면 더 멀리 있는 별을 관찰할 수 있고, 통계기법이 발달하면 기존 자료들로부터 더 많은 통찰을 얻어낼 수 있다.

 

그러나 Gen AI에 대한 무조건적 신뢰는 해당 모델이 기반한 '현재의' 데이터를 절대적으로 생각하도록 만드는 것같다. 아마도 이것은 Gen AI의 잘못된 사용에서 오는 여러가지 해악 중 하나일 것이다. "아래에 제시한 한국어 데이터셋을 보고 답변하세요. [데이터셋]." 이런 문제를 ChatGPT에 그대로 복붙하면, ChatGPT는 '한국어' 그자체, 다시말해서 주어진 데이터셋 외부에서 한국어 데이터를 퍼와서 답변을 생성한다. 그래야 '한국어'에 대한 더 정확한 설명이 될 수 있기 때문이다. 그러나 음운론 논증의 목적은 (다시 적지만) 개별 언어의 정확한 설명이 아니다.

 

ChatGPT의 답변은 특정 데이터셋을 전제했을 때만 참이다. 그리고 그 데이터셋은 음운론 문제에서 주어진 데이터셋과 일치하지도, (잔인하겠지만 엄밀히는) 실제 언어 그 자체와도 일치하지 않다. 관념적으로 왜 데이터셋이 실제 언어와 일치할 수 없느냐면, 정의 상 모든 관찰은 실체의 근사(approximation)이기 때문이다.

 

요즘들어 음운론 논증 과제에 '불완전 데이터'를 제시하는 방식에 대한 관심이 커지고 있다. 생성형 AI 챗봇들이 '정확한' 답변을 주려고 하는 편향을 가지는 것을 역이용하는 것이다. 불완전 데이터에서는 잠정적 논증과 잠정적 결론만 나오는데 (즉, '알 수 없습니다'가 답) 생성형 AI는 정확하고 확정적인 논증과 결론을 알려준다. 물론, "반드시 이 데이터셋에 한정해서 답변해라"라는 식으로 prompt engineering 하는 방법도 있겠지만, 난 그 정도로 머리를 쓰는 학생을 거르려고 너무 촘촘하게 망을 치는 것은 또 반대다. 

 

 

 


이어서 어떤 글을 읽을 건가요?

 


  • 글이 유익했다면 후원해주세요 (최소100원). 투네이션 || BuyMeACoffee (해외카드필요)
  • 아래 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
  • 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
  • 반박이나 오류 수정을 특히 환영합니다.
  • 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.

 

'언어학으로 박사유학 > 언어학 박사 생활하기' 카테고리의 다른 글

based off?  (8) 2025.11.13
금융적 모티베이션  (1) 2025.11.06
장래 전직을 위한 전략 세우기  (2) 2025.08.29
언어학 빼고 다른 얘기들  (0) 2025.08.27
'음운론 철학' 노트  (0) 2025.08.11