머신러닝 기반의 자동화된 소스 싱크 분류 및 하이브리드 분석을 통한 개인정보 유출 탐지 방법

Vol. 30, No. 4, pp. 657-667, 8월. 2020
10.13089/JKIISC.2020.30.4.657, Full Text:
Keywords:
Abstract

안드로이드 프레임워크는 단 한번의 권한 허용을 통해 앱이 사용자의 정보를 자유롭게 이용할 수 있으며, 유출되 는 데이터가 개인정보임을 식별하기 어렵다는 문제가 있다. 따라서 본 논문에서는 어플리케이션을 통해 유출되는 데 이터를 분석하여, 해당 데이터가 실제로 개인정보에 해당하는 것인지를 파악하는 기준을 제시한다. 이를 위해 우리 는 제어 흐름 그래프를 기반으로 소스와 싱크를 추출하며, 소스에서 싱크까지의 흐름이 존재하는 경우 사용자의 개 인정보를 유출하는지 확인한다. 이 과정에서 우리는 구글에서 제공하는 위험한 권한 정보를 기준으로 개인정보와 직 결되는 소스와 싱크를 선별하며, 동적분석 툴을 통해 각 API에 대한 정보를 후킹한다. 후킹되는 데이터를 통해 사 용자는 해당 어플리케이션이 실제로 개인정보를 유출한다면 어떤 개인정보를 유출하는지 여부를 파악할 수 있다. 우 리는 툴을 최신 버전의 API에 적용하기 위해 머신러닝을 통해 최신 버전의 안드로이드의 소스와 싱크를 분류하였으 며, 이를 통해 86%의 정확도로 최신 배포 버전인 9.0 안드로이드의 API를 분류하였다. 또한 툴은 2,802개의 APK를 통해 평가되었으며, 개인정보를 유출하는 850개의 APK를 탐지하였다.

Statistics
Show / Hide Statistics

Statistics (Cumulative Counts from December 1st, 2017)
Multiple requests among the same browser session are counted as one view.
If you mouse over a chart, the values of data points will be shown.


Cite this article
[IEEE Style]
H. Shim and S. Jung, "Machine Learning Based Automated Source, Sink Categorization for Hybrid Approach of Privacy Leak Detection," Journal of The Korea Institute of Information Security and Cryptology, vol. 30, no. 4, pp. 657-667, 2020. DOI: 10.13089/JKIISC.2020.30.4.657.

[ACM Style]
Hyunseok Shim and Souhwan Jung. 2020. Machine Learning Based Automated Source, Sink Categorization for Hybrid Approach of Privacy Leak Detection. Journal of The Korea Institute of Information Security and Cryptology, 30, 4, (2020), 657-667. DOI: 10.13089/JKIISC.2020.30.4.657.