Sunil B. Rathod و Tareek M. Pattewar با استفاده از الگوریتم کلاس بندی Bayesian راه حلی را برای تشخیص پستهای الکترونیکی spam ارائه داده اند.
تعریفی که از فیلتر اسپم بر اساس محتوا داشته انداین گونه است که این فیلتر متن داخل پست الکترونیکی وهمچنین URL را چک میکند. روش کار به این صورت است که متن داخل پست الکترونیکی به صورت HTML tag removal Stop word Removal, Tokenizing , Word frequency محاسبه میشودتا احتمال رخداد لغات را برای تعیین اسپم بودن یا نبودن پست الکترونیکی مشخص کند.
آنها از کلاس بندی Bayesian استفاده کرده اند چراکه این کلاس بندی معولا برای فیلتر کردن پستهای الکترونیکی به کار برده میشود و از متد کلاس بندی متن برای شناسایی پستهای الکترونیکی اسپم استفاده میکند. از توکنها (لغات) پستهای الکترونیکی اسپم و سالم استفاده می کند تا به محاسبه احتمال برای شناسایی پستهای الکترونیکی ی اسپم و سالم بپردازد.
این کلاس بندی بر اساس تئوری NaIve Baye می باشد و این تئوری کلاس بندی های سطح بالایی را در بر می گیرد. معیارهای ارزیابی برای این کار عبارتند از: accuracy که از نظر آنها میزان کلاس بندی درست و Error که میزان کلاس بندی نادرست را بیان میکند و همین طور معیارهایی از قبیل recall و precision را هم در نظر گرفته اند.
در یک کلاس بندی باید header و بدنه و آدرس پست الکترونیکی را در نظر گرفت اما دراینجا فقط از بدنه و محتوا استفاده کرده اند تا با بررسی اطلاعات بدنه بتوانند اسپم بودن یا نبودن پست الکترونیکی را مشخص کنند.
مدل کلی آنها به صورت زیر است:
در قسمت training از data setای استفاده شده است که شامل پستهای الکترونیکی اسپم و غیر اسپم جمع آوری شده از Gmail است و برای پیش پردازش در فرمت HTML قرار دارند. این data set شامل مقادیر ۱۰۰۰، ۱۵۰۰، ۲۱۰۰ پست الکترونیکی می باشد
معیارهای ارزیابی را برای مقادیر مختلف data set در جدول زیر آورده شده است
منبع: