사실 회상 기반 소형 언어 모델의 백도어 취약 지점 분석에 관한 연구

Vol. 35, No. 6, pp. 1395-1405, 12월. 2025
10.13089/JKIISC.2025.35.6.1395, Full Text:
Keywords: Backdoor attack, Causal Tracing, Factual Recall, Small Language Model
Abstract

소형 언어 모델은 대형 언어 모델에 비해 경량화된 구조를 가져 온디바이스 환경에 상대적으로 적합하다. 그러나, 소형 언어 모델 역시 Transformer 구조를 근간으로 하므로, 대형 언어 모델이 갖는 백도어 취약성과 동일한 문제를 지니게 된다. 특히, 다수의 연구 결과 언어 모델은 사실적 지식을 특정 계층 및 모듈에 집중적으로 저장하는 경향이 있어, 이러한 구조적 특성은 역으로 모델 공격자가 악용할 수 있는 잠재적 위험 요소에 해당한다. 본 논문에서는 기존 인과 분석을 기반으로 Falcon-3, StableLM-Zephyr, Phi-4와 같은 소형 언어 모델의 지식 저장 및 회상 구조를 정량적으로 분석하였다. 그 결과, 모든 모델에서 초기 계층의 MLP 모듈이 사실 회상에 핵심적인 역할을 하는 것으로 나타났다. 이러한 특성은 지식 편집을 통한 백도어 삽입의 잠재적 경로로 활용될 수 있음을 시사한다. 해당 결과는 향후 백도어 탐지 및 방어 연구의 기반으로 활용될 것으로 기대한다.

Statistics
Show / Hide Statistics

Statistics (Cumulative Counts from December 1st, 2017)
Multiple requests among the same browser session are counted as one view.
If you mouse over a chart, the values of data points will be shown.


Cite this article
[IEEE Style]
최민영, 김현일, 임창훈, "A Study on Backdoor Vulnerability Analysis of Small Language Models Based on Factual Recall," Journal of The Korea Institute of Information Security and Cryptology, vol. 35, no. 6, pp. 1395-1405, 2025. DOI: 10.13089/JKIISC.2025.35.6.1395.

[ACM Style]
최민영, 김현일, and 임창훈. 2025. A Study on Backdoor Vulnerability Analysis of Small Language Models Based on Factual Recall. Journal of The Korea Institute of Information Security and Cryptology, 35, 6, (2025), 1395-1405. DOI: 10.13089/JKIISC.2025.35.6.1395.