악성코드 패밀리 분류를 위한 API 특징 기반 앙상블 모델 학습

Vol. 29, No. 3, pp. 531-539, 5월. 2019
10.13089/JKIISC.2019.29.3.531, Full Text:
Keywords: Malware detection, Malware classification, Feature selection, Tree-based Ensemble
Abstract

본 논문에서는 악성코드 패밀리 분류를 위한 훈련 데이터의 특징을 제안하고, 앙상블 모델을 이용한 다중 분류 성능을 분석한다. 악성코드 실행 파일로부터 API와 DLL 데이터를 추출하여 훈련 데이터를 구성하며, 의사 결정 트리기반 Random Forest와 XGBoost 알고리즘으로 모델을 학습한다. 악성코드에서 빈번히 사용되는 API와 DLL 정보를 분석하며, 고차원의 훈련 데이터 특징을 저차원의 특징 표현으로 변환시켜, 악성코드 탐지와 패밀리 분류를 위한API, API-DLL, DLL-CM 특징을 제안한다. 제안된 특징 선택 방법은 데이터 차원 축소와 빠른 학습의 장점을 제공한다. 성능 비교에서 악성코드 탐지율은 Random Forest가 93.0%, 악성코드 패밀리 분류 정확도는 XGBoost가92.0%, 그리고 정상코드를 포함하는 테스트 오탐률은 Random Forest와 XGBoost가 3.5%이다.

Statistics
Show / Hide Statistics

Statistics (Cumulative Counts from December 1st, 2017)
Multiple requests among the same browser session are counted as one view.
If you mouse over a chart, the values of data points will be shown.


Cite this article
[IEEE Style]
이현종, 어성율, 황두성, "API Feature Based Ensemble Model for Malware Family Classification," Journal of The Korea Institute of Information Security and Cryptology, vol. 29, no. 3, pp. 531-539, 2019. DOI: 10.13089/JKIISC.2019.29.3.531.

[ACM Style]
이현종, 어성율, and 황두성. 2019. API Feature Based Ensemble Model for Malware Family Classification. Journal of The Korea Institute of Information Security and Cryptology, 29, 3, (2019), 531-539. DOI: 10.13089/JKIISC.2019.29.3.531.