LLM 기반 마약 은어 키워드 탐지 시스템

Vol. 35, No. 6, pp. 1611-1625, 12월. 2025
10.13089/JKIISC.2025.35.6.1611, Full Text:
Keywords: Drug Slang Detection, Social Media Mining, Large Language Model
Abstract

디지털 소통이 일상화되면서 온라인 마약 거래가 심각한 사회 문제로 부상하고 있다. 본 연구는 온라인 대화에서 한국어 기반의 마약을 일컫는 (알려지지 않은) 은어나 변형어를 자동으로 탐지하는 LLM (Large Language Model) 기반 탐지 시스템을 제안한다. 기존의 간단한 키워드 매칭 방식이나 텍스트를 벡터공간에서 의미와 문맥 정보를 파악하는 Word2Vec 기반 단어 임베딩 기술은 지속적으로 진화하는 은어와 의도적인 변형에 대응하기 어려운 한계점이 있다. 본 연구는 단어 빈도-역문서 빈도 (TF-IDF; Term Frequency-Inverse Document Frequency) 기반으로 통계적 가중치를 통해 자동으로 변형어를 생성하고, 이를 이용해 LLM 기반의 대규모 학습 데이터셋을 구축한다. 또한 슬라이딩 윈도우 기반으로 문맥을 인식하는 아키텍처와 이중 손실 함수를 활용한 메시지 수준의 어텐션 학습 모델을 이용한 마약 은어 키워드 탐지 시스템을 제안한다. KLUE/RoBERTa와 KLUE/BERT 모델을 활용한 실험 결과, 제안 시스템은 0.9816의 정확도와 0.9763의 재현율을 달성하였다.

Statistics
Show / Hide Statistics

Statistics (Cumulative Counts from December 1st, 2017)
Multiple requests among the same browser session are counted as one view.
If you mouse over a chart, the values of data points will be shown.


Cite this article
[IEEE Style]
김민석 and 구형준, "LLM-Based Drug Term Detection in Korean Messenger Conversations," Journal of The Korea Institute of Information Security and Cryptology, vol. 35, no. 6, pp. 1611-1625, 2025. DOI: 10.13089/JKIISC.2025.35.6.1611.

[ACM Style]
김민석 and 구형준. 2025. LLM-Based Drug Term Detection in Korean Messenger Conversations. Journal of The Korea Institute of Information Security and Cryptology, 35, 6, (2025), 1611-1625. DOI: 10.13089/JKIISC.2025.35.6.1611.