ISSN 2005-7164 ( Print) / ISSN 2713-8526 (Online)

시민인문학, Vol.46 (2024)

DOI : 10.22842/kgucfh.2024.46.037

중국 소셜미디어 크롤링과 텍스트 분석 : SNS 말뭉치 기반 연구방법론의 모색


(덕성여자대학교 중어중문학전공, 조교수)

최근 중국의 디지털 환경에서 소셜미디어(SNS) 콘텐츠는 새로운 정보 교류의 공간이자 유행을 선도하는 주류 매체로 자리잡고 있다. 소셜미디어 플랫폼들이 양적 성장을 거듭하면서, 이곳에서 네티즌의 의견(opinion)과 평가(evaluation)가 누적·축적되며 자연스럽게 거대한 중국어 말뭉치가 형성되었고, 계속하여 빠른 속도로 팽창하고 있다. 이에 따라, 소셜미디어 텍스트를 탐구하여 그 안에 내재 된 다양한 사회적, 문화적 의미를 탐구하는 것은 학문적으로 매우 중요한 과제로 부각되고 있다. 이론적으로 웹 브라우저 상에서 보이는 모든 데이터는 크롤링을 통해 수집이 가능하다. 이 점에 착안하여, 본고는 웹 크롤링의 대상을 중국 소셜미디어 콘텐 츠로 확장하여 샤오홍슈(小红书), 비리비리(哔哩哔哩), 더우인(抖音) 상의 웹 데 이터 수집(크롤링, crawling) 과정을 탐구하였다. 중국의 대표적인 소셜미디어 플랫폼인 샤오홍슈(小红书), 비리비리(哔哩哔 哩), 더우인(抖音)을 소개하고, 각각의 고유한 특징과 소셜미디어의 영향력, 데이 터 수집의 필요성을 밝힌다. 이후 1) 소셜미디어 콘텐츠의 숨겨진 URL을 확보하 고 2) 사용자 인증을 거쳐 소셜미디어 플랫폼으로 진입하여 콘텐츠를 수집하는 과정을 단계적으로 살펴보고, GUI와 CLI 기반의 두 가지 크롤링(crawling) 방식 을 실례와 함께 상세히 설명한다. 마지막으로, 수집된 데이터를 바탕으로 소셜미 디어에 게시된 한국 성형(韩国整容) 관련 콘텐츠의 댓글 내용 분석을 통해 SNS 텍스트 마이닝의 간단한 실례를 제시한다. 본고는 중국 소셜미디어의 이해를 도모하고 콘텐츠 크롤링 방식을 고찰함으로써, SNS 말뭉치 기반 응용언어학 연구의 새로운 방법론을 제시하였다. 본 연구에서 제시하는 소셜미디어 크롤링 기법과 콘텐츠 분석을 통해 중국 소셜미디어 콘텐츠의 풍부한 언어문화적 특징을 심층적으로 이해할 수 있을 것으로 기대한다.

Chinese Social Media Crawling and Text Analysis : Exploring SNS Corpus-Based Research Methodology

PARK, Minjun

Recently, social media has emerged as a new space for information exchange and a leading channel in setting trends within China's digital environment. With the quantitative growth of social media platforms, the accumulation of users' opinions and evaluations has naturally led to the formation of a vast Chinese corpus, which continues to expand rapidly. Consequently, exploring social media texts to understand the embedded social and cultural meanings has become a crucial academic task. Theoretically, all data visible on a web browser can be collected through crawling. In light of this, this paper expands the scope of web crawling to include Chinese social media content, investigating the data crawling processes on XiaoHongShu (小红书), BiliBili (哔哩哔哩), and Douyin (抖音). This paper introduces the prominent Chinese social media platforms such as XiaoHongShu, BiliBili, and Douyin, highlighting their unique characteristics, influence, as well as the necessity of data collection. Subsequently, it step-by-step investigates the entire process of collecting social media content, from securing hidden URLs to accessing platforms through user authentication, and elaborates on two data collection methods based on GUI and CLI. Lastly, the paper presents a case study of SNS text mining by analyzing comments on Korean cosmetic surgery (韩国整容) contents posted on social media. This paper contributes to understanding Chinese social media and its content crawling methodologies, proposing a new approach for corpus-based research on SNS. The social media crawling techniques and content analysis presented in this study are expected to enable a deeper understanding of the rich linguistic and cultural features of Chinese social media content.

