데이터 예측 클래스 기반 적대적 공격 탐지 및 분류 모델

Vol. 31, No. 6, pp. 1227-1236, 12월. 2021
10.13089/JKIISC.2021.31.6.1227, Full Text:
Keywords: Adversarial attack, Evasion Attack, Deep Learning, Adversarial Example Detection
Abstract

딥러닝 분류 모델에 대한 공격 중 하나인 적대적 공격은 입력 데이터에 인간이 구별할 수 없는 섭동을 추가하여 딥러닝 분류 모델이 잘못 분류하도록 만드는 공격이며, 다양한 적대적 공격 알고리즘이 존재한다. 이에 따라 적대적 데이터를 탐지하는 연구는 많이 진행되었으나 적대적 데이터가 어떤 적대적 공격 알고리즘에 의해 생성되었는지 분류하는 연구는 매우 적게 진행되었다. 적대적 공격을 분류할 수 있다면, 공격 간의 차이를 분석하여 더욱 견고한 딥러닝 분류 모델을 구축할 수 있을 것이다. 본 논문에서는 공격 대상 딥러닝 모델이 예측하는 클래스를 기반으로 은닉층의 출력값에서 특징을 추출하고 추출된 특징을 입력으로 하는 랜덤 포레스트 분류 모델을 구축하여 적대적 공격을 탐지 및 분류하는 모델을 제안한다. 실험 결과 제안한 모델은 최신의 적대적 공격 탐지 및 분류 모델보다 정상데이터의 경우 3.02%, 적대적 데이터의 경우 0.80% 높은 정확도를 보였으며, 기존 연구에서 분류하지 않았던 새 로운 공격을 분류한다.

Statistics
Show / Hide Statistics

Statistics (Cumulative Counts from December 1st, 2017)
Multiple requests among the same browser session are counted as one view.
If you mouse over a chart, the values of data points will be shown.


Cite this article
[IEEE Style]
고은나래 and 문종섭, "데이터 예측 클래스 기반 적대적 공격 탐지 및 분류 모델," Journal of The Korea Institute of Information Security and Cryptology, vol. 31, no. 6, pp. 1227-1236, 2021. DOI: 10.13089/JKIISC.2021.31.6.1227.

[ACM Style]
고은나래 and 문종섭. 2021. 데이터 예측 클래스 기반 적대적 공격 탐지 및 분류 모델. Journal of The Korea Institute of Information Security and Cryptology, 31, 6, (2021), 1227-1236. DOI: 10.13089/JKIISC.2021.31.6.1227.