0. 요약
이 글에서는 Bluesky에 올라온 글을 수집하는 툴 blueskyscraper를 소개합니다.
목차
1. 왜 social media를 보아야 하나
Social media (사회망: social network service)는 끝없이 쏟아져 나오는 언어표현의 원천입니다. 저는 흔히 석유 나오는 유전에 비교하는데, 오늘날 실제 언어를 가장 잘 관찰할 수 있는 방식은 바로 social media에 올라오는 언어표현들을 수집하는 것이라고 생각합니다.
사회언어학의 아버지 William Labov는 뉴욕 백화점에 잠입(?)하여 점원들의 말소리를 채집했습니다. 동일한 질문 ("무어무어가 몇 층에 있나요?)을 하고 점원들이 "4층이요 The fourth floor" 라고 대답하는 것을 관찰했습니다. 그 결과 영어 음소 /ɹ/이 계층에 따라 다르게 실현된다는 결론을 도출했습니다 (Labov 1966) 1
인터넷과 social media의 도래 이후 실제 사용되는 언어표현을 더 많이 수집할 수 있게 되었습니다. 페이스북과 X (트위터)에는 문자로된 언어표현이 '물 흐르듯' 하고, 유튜브와 트위치를 켜놓고 있으면 음성으로 된 언어표현을 계속 쌓아나갈 수 있습니다.
언어학은 실제의 언어를 관찰하고 설명하는 과학이기 때문에 오늘날에는 인터넷과 social media의 표현을 수집하는 것이 당연합니다.
2. 옛날 트위터
저를 포함한 많은 연구자들이 예전에는 트위터를 수집했습니다. 저는 심지어 다른 글에서 "트위터 만병통치약설"을 설파하기도 했습니다.
영어학 학부 졸업논문 주제는 어떻게 정하지?
0. 요약 이 글의 대상 독자는 영어영문학과 학부 3-4학년생입니다. 즉, 통사론, 음운론이 뭔지 아는 수준의, 졸업논문이 고민인 사람들을 위한 글입니다. 학부논문을 위해서는, 기존에 수업에 배
linguisting.tistory.com
Jacob Eisenstein이나 Jack Grieve등의 연구자들은 트위터를 관찰하여 각각 미국과 영국의 지역방언 실현 양상을 지도 위에 표현하기도 했습니다. 이 연구들은 트위터가 상당히 느슨하고 캐주얼한 매체라는 점에 주목했습니다. 유저들이 딱히 철자에 맞추어 트윗을 올리지 않고 그냥 소리나는 대로 쓰고 읽는데, 이러한 측면에서 트윗 수집은 실제 언어의 말소리를 수집하는 과정을 어느정도 대체할 수 있습니다.
저 역시 텀 페이퍼로 한국 야당과 여당 지지자들의 트윗을 분석해서 언어적, 비언어적 자질들의 실현양상을 분석했습니다. 예를 들어 어떤 진영일수록 존댓말을 더 많이 쓰는지? 그리고 두 진영에서 말하는 주제들에는 어떤 차이가 있는지를 분석했습니다. 그 세미나 학기의 목적은 Jacob Eisenstein의 연구에 기반을 두고 이 연구들을 재현하거나 다른 곳에 확장해보는 것이었습니다. 저는 한국어 트위터를 분석했고, 다른 과정생은 reddit의 MBTI subreddit들에 올라온 글들을 분석해서 16가지 성격분류별로 어떤 언어적 차이가 있는지를 분석했습니다. (연구 주제 고민있으신 분에게는 이게 주제밭이겠네요!ㅋㅋㅋ)
그러나 아시다시피 트위터가 X로 바뀌고 난 이후에는 트윗을 수집하는 API가 막혀버렸고, 하는 수 없이 다른 수단을 찾아야만 했습니다. 유튜브를 수집하기도 했고, 페이스북을 수집하기도 했으나, 당시 페이스북은 트위터에 비해 공개글들을 많이 올리지 않는 추세였고 다소 경직된 긴 글들이 올라와서 저의 목적에는 맞지 않았습니다.
X를 대체하겠다고 출현한 것이 Bluesky입니다.
3. Blueskyscraper
Bluesky는 제3자가 공개 글 수집을 할 수 있도록 API를 제공하는 것 같습니다. 그리고 그걸 이용한 툴들이 여러 개 나와있는 것 같습니다.
이 글에서는 그 중 Moncomble (2025)를 소개합니다. 2
https://corpustools.prendrelangue.fr/blueskyscraper/
BlueskyScraper
corpustools.prendrelangue.fr
4. Blueskyscraper 실제 사용해보기
(작성중)
(적당한 주제를 골라서 과정별로 설명할 예정입니다)
- 글이 유익했다면 후원해주세요 (최소100원). 투네이션 || BuyMeACoffee (해외카드필요)
- 아래 댓글창이 열려있습니다. 로그인 없이도 댓글 다실 수 있습니다.
- 글과 관련된 것, 혹은 글을 읽고 궁금한 것이라면 무엇이든 댓글을 달아주세요.
- 반박이나 오류 수정을 특히 환영합니다.
- 로그인 없이 비밀글을 다시면, 거기에 답변이 달려도 보실 수 없습니다. 답변을 받기 원하시는 이메일 주소 등을 비밀글로 남겨주시면 이메일로 답변드리겠습니다.
- The social stratification of English in New York City. Cambridge, UK: Cambridge University Press. [본문으로]
- Moncomble. F. (2025). BlueskyScraper. Arras, France: Université d'Artois. https://corpustools.prendrelangue.fr/blueskyscraper/ [본문으로]
'Bouncing ideas 생각 작업실 > exp sharing 경험.실험 나누기' 카테고리의 다른 글
2020년대 말뭉치에서 졸리다 의 품사 (2) | 2025.05.11 |
---|---|
바보같은 실수 (0) | 2025.05.07 |
Yale → 한글 (0) | 2024.12.24 |
깡통 노트북에 가벼운 LLM 올려서 계엄사태 대비하기 (12) | 2024.12.20 |
[jaɪks]: Just Another IPA Keyboard - Simplified (2) | 2024.11.30 |