악성코드 패밀리 분포가 기계학습 모델 일반화 성능에 미치는영향

Vol. 35, No. 4, pp. 873-885, 8월. 2025
10.13089/JKIISC.2025.35.4.873, Full Text:
Keywords: Malware, Machine Learning, IID, OOD, API
Abstract

기계학습 기반 악성코드 탐지 모델은 학습셋에 존재하는 구조적 특성을 일반화하여 새로운 악성코드를탐지하는것을 목표로 한다. 그렇지만, 실제 악성코드 데이터셋은 특정 패밀리에 편향된 분포를 가지는 경향이있어, 모델이 본질적이지 않은 패턴에 의존하게 되고 이에 따라 일반화 성능이 저하될 수 있다. 본 연구는 학습셋의 패밀리 분포가 일반화 성능에 미치는 영향을 분석하기 위해 패밀리 중복 수준과 다양성을 조절해 학습셋을 구성하고, IID(Independent and Identically Distributed) 및 OOD(Out-of-Distribution) 환경에서 모델 성능을 측정했다. 실험 결과, 일정 수준의 패밀리 중복은 모델의 일반화 성능을 향상시킬 수 있었지만, 중복이 과도할 경우 모델의 일반화 성능이 저하될 수 있으며, 패밀리 다양성이 높을수록 성능이 뚜렷하게 향상되는 경향을 확인했다. 이러한 결과는 IID 환경에서는 나타나지 않았으며, 이는 악성코드 탐지 모델 개발 시 학습셋 구성과 OOD환경 기반의 평가가 필수적임을 시사한다.

Statistics
Show / Hide Statistics

Statistics (Cumulative Counts from December 1st, 2017)
Multiple requests among the same browser session are counted as one view.
If you mouse over a chart, the values of data points will be shown.


Cite this article
[IEEE Style]
조우진 and 김형식, "악성코드 패밀리 분포가 기계학습 모델 일반화 성능에 미치는영향," Journal of The Korea Institute of Information Security and Cryptology, vol. 35, no. 4, pp. 873-885, 2025. DOI: 10.13089/JKIISC.2025.35.4.873.

[ACM Style]
조우진 and 김형식. 2025. 악성코드 패밀리 분포가 기계학습 모델 일반화 성능에 미치는영향. Journal of The Korea Institute of Information Security and Cryptology, 35, 4, (2025), 873-885. DOI: 10.13089/JKIISC.2025.35.4.873.