Attention 기법에 기반한 적대적 공격의 강건성 향상 연구

Vol. 33, No. 4, pp. 621-631, 8월. 2023
10.13089/JKIISC.2023.33.4.621, Full Text:
Keywords: adversarial training, Attention, Adversarial robustness, Adversarial Examples
Abstract

적대적 학습은 적대적 샘플에 대한 딥러닝 모델의 강건성을 향상시킨다. 하지만 기존의 적대적 학습 기법은 입력 단계의 작은 섭동마저도 은닉층의 특징에 큰 변화를 일으킨다는 점을 간과하여 adversarial loss function에만 집중한다. 그 결과로 일반 샘플 또는 다른 공격 기법과 같이 학습되지 않은 다양한 상황에 대한 정확도가 감소한다. 이 문제를 해결하기 위해서는 특징 표현 능력을 향상시키는 모델 아키텍처에 대한 분석이 필요하다. 본 논문에서는 입력 이미지의 attention map을 생성하는 attention module을 일반 모델에 적용하고 PGD 적대적 학습을 수행한다. CIFAR-10 dataset에서의 제안된 기법은 네트워크 구조에 상관없이 적대적 학습을 수행한 일반 모델보다 적대적 샘플에 대해 더 높은 정확도를 보였다. 특히 우리의 접근법은 PGD, FGSM, BIM과 같은 다양한 공격과 더 강력한 adversary에 대해서도 더 강건했다. 나아가 우리는 attention map을 시각화함으로써 attention module이 적대적 샘플에 대해서도 정확한 클래스의 특징을 추출한다는 것을 확인했다.

Statistics
Show / Hide Statistics

Statistics (Cumulative Counts from December 1st, 2017)
Multiple requests among the same browser session are counted as one view.
If you mouse over a chart, the values of data points will be shown.


Cite this article
[IEEE Style]
김재욱, 권태경, 박래현, 오명교, "Improving Adversarial Robustness via Attention," Journal of The Korea Institute of Information Security and Cryptology, vol. 33, no. 4, pp. 621-631, 2023. DOI: 10.13089/JKIISC.2023.33.4.621.

[ACM Style]
김재욱, 권태경, 박래현, and 오명교. 2023. Improving Adversarial Robustness via Attention. Journal of The Korea Institute of Information Security and Cryptology, 33, 4, (2023), 621-631. DOI: 10.13089/JKIISC.2023.33.4.621.