유사성 해시 기반 악성코드 유형 분류 기법

김윤정; 김문선; 이만희

유사성 해시 기반 악성코드 유형 분류 기법

김윤정

김문선

이만희

Vol. 32, No. 5, pp. 945-954, 10월. 2022

10.13089/JKIISC.2022.32.5.945, Full Text:

Keywords: Malware, Malware classification, Machine Learning, Similarity hash, TLSH
Abstract

매년 수십억 건의 악성코드가 탐지되고 있지만, 이 중 신종 악성코드는 0.01%에 불과하다. 이러한 상황에 효과적인 악성코드 유형 분류 도구가 필요하지만, 선행 연구들은 복잡하고 방대한 양의 데이터 전처리 과정이 필요하여 많은 양의 악성코드를 신속하게 분석하기에는 한계가 있다. 이 문제를 해결하기 위해 본 논문은 유사성 해시를 기반으로 복잡한 데이터 전처리 과정 없이 악성코드의 유형을 분류하는 기법을 제안한다. 이 기법은 악성코드의 유사성 해시 정보를 바탕으로 XGBoost 모델을 학습하며, 평가를 위해 악성코드 분류 분야에 널리 활용되는 BIG-15 데이터셋을 사용했다. 평가 결과, 98.9%의 정확도로 악성코드를 분류했고, 3,432개의 일반 파일을 100% 정확도로 구분했다. 이 결과는 복잡한 전처리 과정 및 딥러닝 모델을 사용하는 대부분의 최신 연구들보다 우수하다. 따라서 제안한 접근법을 사용하면 보다 효율적인 악성코드 분류가 가능할 것으로 예상된다.

Statistics

Show / Hide Statistics

Cite this article

[IEEE Style]

김윤정, 김문선, 이만희, "유사성 해시 기반 악성코드 유형 분류 기법," Journal of The Korea Institute of Information Security and Cryptology, vol. 32, no. 5, pp. 945-954, 2022. DOI: 10.13089/JKIISC.2022.32.5.945.

[ACM Style]

김윤정, 김문선, and 이만희. 2022. 유사성 해시 기반 악성코드 유형 분류 기법. Journal of The Korea Institute of Information Security and Cryptology, 32, 5, (2022), 945-954. DOI: 10.13089/JKIISC.2022.32.5.945.