Web Analytics Made Easy - Statcounter

갑자기 분위기 언어학

발바닥이 부드러워진 이유

sleepy_wug 2025. 8. 25. 00:50

0. 요약 

GenAI 챗봇과 인간의 언어 사이의 차이는 탈것과 달리기 사이의 차이로 비유할 수 있습니다.

 

탈것과 달리기는 둘다 같은 목적(이동)을 가지고 있지만, 이 목적을 다르게 수행합니다. 탈것은 탈것의 단위에서 발전하고 달리기를 바꾸지 않습니다. 그러나 탈것의 발전은 일반인들의 발바닥을 부드럽게 만듭니다.

 

인공지능 챗봇과 인간의 언어도 비슷할지 모릅니다.

 

 

목차

     

     

    1. 맥락

    구독하는 티스토리 블로그 중 친칠라님의 '성실한 나라의 친칠라'가 있다.

     

    친칠라님께서 방금 새 글을 올리셨는데 흥미로운 부분이 있었음.https://earnestland.tistory.com/31

     

    [Weekly Stash/주간 채집] 2025년 8월 셋째주

    🐿️ 친칠라의 주간 채집 🌱한 주 동안 "나중에 살펴봐야지!" 하고 수집해 둔 링크들이 그대로 잊히지 않도록,주말마다 가볍게 살펴보고 짧은 생각을 남깁니다.주로 LLM이나 프롬프트 엔지니어

    earnestland.tistory.com

     

    1. [기사] 챗GPT 때문에 사람들 말투 바뀌고 있다…일상 대화에서 ‘이 단어’ 사용 급증
    https://zdnet.co.kr/view/?no=20250808211801#_DYAD
     챗GPT 때문에 사람들 말투 바뀌고 있다…일상 대화에서 ‘이 단어’ 사용 급증미국 플로리다 주립대학교 연구팀이 흥미로운 사실을 발견했다. 2022년 챗GPT가 나온 후 사람들이 일상 대화에서 쓰는 특정 단어들이 크게 늘어났다는 것이다. 연구팀은 과학기술 관련 팟캐스트zdnet.co.kr
    사람들의 언어는 주변 사람들의 언어에 영향을 받는다. 친한 친구나 가족 구성원이 비슷한 말투를 사용한다든지, 사투리를 쓰는 사람과 가까이 지내다 보면 사투리가 '옮는다'든지 하는 것만 봐도 그렇다. 또 외국어 학습이 모국어 사용에 영향을 미치기도 하는데, 외래어를 더 친숙하게 받아들이는 것도 그 일환이겠으나 개인적으로는 발음 쪽에 변화가 생기는 것이 흥미롭다. 예를 들자면 본래 한국어에서는 ㄴ - ㄹ 연쇄 발음이 되지 않기 때문에 비음화가 일어나든지 유음화가 일어나는데(ex. 신라, 선릉), 영어에 익숙해진 '요즘 세대'는 아무 무리 없이 ㄴ과 ㄹ을 연달아 발음한다는 것이다. 실제로 경험상 '온라인'을 내 또래 중에서는 [온라인] 또는 [올라인]으로 발음하는 사람이 많고, 연령대가 올라가면 [온나인]으로 발음하는 사람들이 많다.
     
    아무튼 그렇다면 LLM의 언어에 사람이 영향을 받지 않을 이유도 없다. 물론 여기에는 좀 미묘한 부분이 존재하는데, LLM 특유의 말투라는 것이 도대체 어디에서 오는 것인가 하는 게 생각할수록 알쏭달쏭하다. 결국 사람의 언어로 학습된 모델인데 그 언어가 사람의 언어와 구별이 되는 어떤 특징을 갖게 되고, 또 그 특징이 역으로 사람들의 언어에 흘러들어온다는 게 재미있다.
     
    기사에서 언급된 연구에서는 요즘은 AI가 쓴 글과 사람이 쓴 글을 구별하기 어려워서 문어가 아닌 구어 자료(팟캐스트)를 활용했다고 하는데, NotebookLM 같은 데서 AI 팟캐스트 제작도 되는 걸 보면 몇 년, 아니 몇 달만 지나도 팟캐스트 자료마저 연구에 적합한 데이터가 아니게 될 것도 같다. AI의 글과 사람의 글을 명확히 구분만 할 수 있다면, 문어와 구어에서의 변화를 비교해보는 것도 재미있었을 텐데 싶다.
     
    흥미로운 점은 오히려 AI체로 유명한 단어(delve)는 사용이 별로 늘지 않고 오히려 사람들이 피하는 것처럼 보이기도 한다는 것이다. 그러니까 AI의 언어가 사람의 언어에 스며들고는 있는데, '너무' AI의 언어이면 오히려 튕겨지고 있는 것이다. 그러니까 어쩌면 사람들은 아직 우리가 AI와 달라야 한다고 생각하는 건 아닐까. AI뿐 아니라 이미 인쇄기, 전화, 휴대전화, 인터넷 같은 다른 매체들도 사람들의 언어에 변화를 가져왔다는 점도 눈에 띄었다. "AI가 우리 삶을 다 바꾸고 있어!"라고 호들갑을 떨기에는, 이건 이미 여러 번 겪어 온 또 하나의 흐름일 뿐이라고도 느껴진다.

     

    이 부분이 무척 흥미로웠고 몇가지 생각을 덧붙이고 싶어서 따로 글을 쓴다.

     

    2. 이동을 편리하게 해주는 탈것 

    생성형 인공지능(GenAI) 언어모델 training 및 inference 기술을 나는 바퀴에 비유한다. 그리고 GenAI 언어모델과 쉽게 상호작용할 수 있는 챗봇은 탈것과 유사하다.

     

    '탈것'이라는 표현이 나는 왜 부자연스러운지 모르겠으나, 마차, 인력거, 자동차, 전기차, 버스 ... 를 포괄하는 상위어 vehicle을 어떻게 한국말로 표현해야할지 다른 말이 생각나지를 않네

     

    어쨌든, 탈것은 '이동'이라는 목적을 수행한다. 인간의 걷기와 달리기를 대체하기 위한 것이다. 탈것은 인간보다 오래 걸을(?) 수 있고 인간보다 빨리 달릴(?) 수 있다. (그나저나 한국말에는 "차를 달리네"라는 표현도 있다.[노래링크])

     

    탈것은 그 범주 내에서 인력거 → 마차 → 증기기관차 → 내연기관차 → 전기차.... 로 진화한다. 그러나 바퀴는 그대로다.

     

    이 이야기를 하고 있는 이유, 즉 언어/GenAI 차이의 시사점이 두 가지 있다.

     

    1. 인간의 걷기와 탈것은 "A지점에서 B지점에서 이동"이라는 동일한 목적을 수행하지만, 다른 방식으로 수행한다. 언어와 GenAI 역시 그러하다.

    다시말해서, "탈것이 바퀴를 쓰듯 인간도 굴러다닌다"라고 생각하지는 않는다. 바퀴는 이동이라는 목적을 더 잘 수행하는 엔지니어링 솔루션이다. 인간은 (그리고 다른 동물들은) 다리를 이용해서 이동하고 탈것은 바퀴로 이동한다.

    마찬가지로 인간이 언어로 하는 일(그게 무엇이 됐건)[각주:1]을 인간은 언어를 통해서 하고 챗봇은 inference로 한다. 

     

     

    사람이 어떻게 이동하나를 분석하기 위해 바퀴를 들여다보지 않듯, NLP 모델 inference 들여다본다고 그게 언어가 어떻게 작동하는지를 대답하지는 않는다. (Transformer model의 attention 분포 분석이 연구의 기둥인 사람이 하기에 참 머쓱한 말이지만.....)

    '이동수단'에 비유하자면, 언어학은 인간의 다리근육의 구성과 다리의 움직임을 연구하는 분야이다. 반면 NLP는 탈것들이 어떻게 움직이냐 어떻게 하면 더 잘 움직이냐를 연구한다. 촘스키언스럽게 들릴 수도 있지만, 언어학적 주제는 컴퓨터과학보다 생물학적 연구주제에 가까울지도 모르겠다. 

     

     

    2. 탈것을 위한 도로가 닦인다. 그리고 그 위로 사람도 다닌다. 그 결과 발바닥이 부드러워진다. 언어 역시 그러할 것이다.

    인간은 다리로 이동하기에 계단을 오를 수 있고, 가파른 경사를 이동할 수 있다. 그러나 탈것은 그렇게 하지 못한다. 그래서 탈것을 위해 도로가 닦이고 터널이 뚫린다. 그리고 사람역시 포장도로를 걷고 달리게 된다. 점점 그러할수록 사람의 발바닥은 말랑말랑해진다. 인간과 탈것 사이에는 넘을 수 없는 차이가 있지만, 탈것의 발달이 초래한 결과가 인간 생리에 영향을 준다.

     

    2000년대 초중반까지 기존 언어자료의 디지타이징이 무지하게 이루어진 것이 기존의 길들을 포장도로로 만드는 것에 비유할 수 있다면, GenAI 이후에는 아예 언어모델이 더 잘 움직일 수 있도록 언어가 바뀌어나갈 것이고 또 그렇게 될 것이라고 생각한다. (물론 친찰라님께서 소개해주신 기사는 그 반대의 방향인 것 같지만) 마치 새로 길을 낼 때 처음부터 포장도로를 만드는 것과 비슷하다.

     

    3. 본문보다 긴 여담

    3.1 질문이 멈추는 지점

    친찰라님을 콕집어서 말하는 모양새로 보일까봐 걱정되지만, 그런 건 결코 아니고 오히려 본인 포함한 많은 언어학 연구들을 생각하면서 적는다.

    '언어변화' 라는 건 참 만능열쇠인 것같다. "언어변화가 일어났어요"💖 라고 대답하면 더 이상 "왜?" "어째서?" "그래서?" 를 질문하지 않는다. 아마도 그 질문에 대답하고 싶어도 너무 어렵기 때문일지도 모르겠다. (혹은, "언어변화야 깨우지 않아도 스스로 일어난거야?" 막 이런...)

    "언어변화가 일어났어요"라고 답변한 다음에는 더 이상 질문하지 않는, 혹은 더 이상 질문할 수 없는, 이러한 지점은 [다른 글]에서도 적은 바 있다. 공교롭게도 유음화 관련이다.

     

    [실험은 어려워] 10. 논의하기

    (지난이야기: 한국어 화자들을 대상으로 비단어에 유음화를 적용하는지 안하는지 실험했다. 세대가 내려갈수록 유음화 안한다. ['실험은어려워' 시리즈 보기]) 실험에 대한 분석을 마치면 그걸

    linguisting.tistory.com

     

     

     

    3.2 Lexical conservatism 

    [...] 물론 여기에는 좀 미묘한 부분이 존재하는데, LLM 특유의 말투라는 것이 도대체 어디에서 오는 것인가 하는 게 생각할수록 알쏭달쏭하다. 결국 사람의 언어로 학습된 모델인데 그 언어가 사람의 언어와 구별이 되는 어떤 특징을 갖게 되고[...]

     

    친찰라님이 위와 같이 적으셨는데, 코퍼스와 생성물 간의 차이는 참 미묘한부분인 듯하다. 관련하여, 요즘 만나는 음운론 연구자들 사이에서 잊을만하면 나오는 '미묘한부분' 이야기가 있다.

    "코퍼스 상에서 혹은 렉시콘 상에서는 범주적(예외가 거의없음)인데 그걸 바탕으로 비단어 만들어 실험하면 참여자 간 패턴이 연속적(gradient)으로 나타난다."

     

    음운론 판 이중슬릿실험같은 것인가ㅋㅋㅋㅋ

     

    이유는 불확정적이지만 (즉, 여러 썰이 많지만) 아마도 코퍼스 상 '항목간'(across items) 패턴이 '사람간' (across participants) 패턴으로 나타나는 게 아닐까 한다. Lexical conservatism의 구체적 실현양상이 fuzzy한데, 사람마다 혹은 한 사람 안에서 다양한 범주적 사례들이 충돌하여 연속적 패턴을 만들어내는 것 아니겠냐는 것이다.

     

    아마도 GenAI모델들도 비슷하지 않겠는가? 또한 NLP연구자들 보면 inference 결과가 확정적인 것보다 노이즈 끼는 걸 더 선호하는 것같다. 심지어 모델 퍼포먼스가 100%에 너무 가까워지면 모델 복잡도가 '오히려' 낮다고 생각하여 훈련 다시 돌리는 사람도 있고...

     

    사실 이 고민이 수개월 째 내 개인적 화두긴 하다. 프랑켄슈타인을 만들어놨는데, 사람이랑 행동이 기존 존재단어에 한해서는 같으나 비단어에 한해서는 완전히 다르다. "아 이 결과는 저널엔 못 싣겠다"라고 생각을 하긴 했으나, 교수님들이 결국엔 그런 signal을 주는 걸 보고 참 씁쓸하긴 했음. 이건 다른 이야기.

     

     

     


    이어서 어떤 글을 읽을 건가요?

     


    • 글이 유익했다면 후원해주세요 (최소100원). 투네이션 || BuyMeACoffee (해외카드필요)
    • 아래 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
    • 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
    • 반박이나 오류 수정을 특히 환영합니다.
    • 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.

     

    1. Austin의 How to do things with words가 생각나는 대목.ㅋㅋ [본문으로]