n-Gram 색인화와 Support Vector Machine을 사용한 스팸메일 필터링에 대한 연구

서정우; 손태식; 서정택; 문종섭

n-Gram 색인화와 Support Vector Machine을 사용한 스팸메일 필터링에 대한 연구

Vol. 14, No. 2, pp. 23-34, 4월. 2004

10.13089/JKIISC.2004.14.2.23, Full Text:

Keywords: Spam Mail Filtering, n-Gram Indexing, Support Vector Machine
Abstract

인터넷 환경의 급속한 발전으로 인하여 이메일을 통한 메시지 교환은 급속히 증가하고 있다. 그러나 이메일의 편리성에도 불구하고 개인이나 기업에서는 스팸메일로 인한 시간과 비용의 낭비가 크게 증가하고 있다. 이러한 스팸메일에 대한 문제들을 해결하기 위하여 많은 방법들이 연구되고 있으며, 대표적인 방법으로 키워드를 이용한 패턴매칭이나 나이의 베이지안 방식과 같은 확률을 이용한 방법들이 있다. 본 논문에서는 기존의 연구에 대한 문제점을 보완하기 위하여 패턴 분류문제에 있어서 우수한 성능을 보이는 Support Vector Machine을 사용하여 정상적인 메일과 스팸메일을 분류하는 방안을 제시하였으며, 특히 n-Gram을 사용하여 생성된 색인어와 단어사전을 학습데이터 생성에 사용함으로서 효율적인 학습을 수행하도록 하였다. 결론에서는 제안된 방법에 대한 성능을 검증하기 위하여 기존의 연구 결과와 비교함으로서 제안된 방법의 성능을 검증하였다.

Statistics

Show / Hide Statistics

Cite this article

[IEEE Style]

서정우, 손태식, 서정택, 문종섭, "A study on the Filtering of Spam E-mail using n-Gram indexing and Support Vector Machine," Journal of The Korea Institute of Information Security and Cryptology, vol. 14, no. 2, pp. 23-34, 2004. DOI: 10.13089/JKIISC.2004.14.2.23.

[ACM Style]

서정우, 손태식, 서정택, and 문종섭. 2004. A study on the Filtering of Spam E-mail using n-Gram indexing and Support Vector Machine. Journal of The Korea Institute of Information Security and Cryptology, 14, 2, (2004), 23-34. DOI: 10.13089/JKIISC.2004.14.2.23.