블랙 박스 모델의 출력값을 이용한 AI 모델 종류 추론 공격

Vol. 32, No. 5, pp. 817-826, 10월. 2022
10.13089/JKIISC.2022.32.5.817, Full Text:
Keywords: AI Security, Privacy, Exploratory Attack, inference attack
Abstract

AI 기술이 여러 분야에 성공적으로 도입되는 추세이며, 서비스로 환경에 배포된 모델들은 지적 재산권과 데이터를 보호하기 위해 모델의 정보를 노출시키지 않는 블랙 박스 상태로 배포된다. 블랙 박스 환경에서 공격자들은 모델 출력을 이용해 학습에 쓰인 데이터나 파라미터를 훔치려고 한다. 본 논문은 딥러닝 모델을 대상으로 모델 종류에 대한 정보를 추론하는 공격이 없다는 점에서 착안하여, 모델의 구성 레이어 정보를 직접 알아내기 위해 모델의 종류를 추론하는 공격 방법을 제안한다. MNIST 데이터셋으로 학습된 ResNet, VGGNet, AlexNet과 간단한 컨볼루션 신경망 모델까지 네 가지 모델의 그레이 박스 및 블랙 박스 환경에서의 출력값을 이용해 모델의 종류가 추론될 수 있다는 것을 보였다. 또한 본 논문이 제안하는 방식인 대소 관계 피쳐를 딥러닝 모델에 함께 학습시킨 경우 블랙 박스 환경에서 약 83%의 정확도로 모델의 종류를 추론했으며, 그 결과를 통해 공격자에게 확률 벡터가 아닌 제한된 정보만 제공되는 상황에서도 모델 종류가 추론될 수 있음을 보였다.

Statistics
Show / Hide Statistics

Statistics (Cumulative Counts from December 1st, 2017)
Multiple requests among the same browser session are counted as one view.
If you mouse over a chart, the values of data points will be shown.


Cite this article
[IEEE Style]
안윤수 and 최대선, "블랙 박스 모델의 출력값을 이용한 AI 모델 종류 추론 공격," Journal of The Korea Institute of Information Security and Cryptology, vol. 32, no. 5, pp. 817-826, 2022. DOI: 10.13089/JKIISC.2022.32.5.817.

[ACM Style]
안윤수 and 최대선. 2022. 블랙 박스 모델의 출력값을 이용한 AI 모델 종류 추론 공격. Journal of The Korea Institute of Information Security and Cryptology, 32, 5, (2022), 817-826. DOI: 10.13089/JKIISC.2022.32.5.817.