وبلاگ و اخبار

استفاده از الگوریتم کلاس بندی Bayesian برای تشخیص پست های الکترونیکی spam

وبلاگ و اخبار

Sunil B. Rathod و Tareek M. Pattewar با استفاده از الگوریتم کلاس بندی Bayesian راه حلی را برای تشخیص­  پست­های الکترونیکی spam ارائه داده ­اند.

تعریفی که از فیلتر اسپم بر اساس محتوا داشته­ اند­این گونه است که ­این فیلتر متن داخل­  پست الکترونیکی وهمچنین URL را چک می­کند. روش کار به ­این صورت است که متن داخل­  پست الکترونیکی به صورت HTML tag removal Stop word Removal, Tokenizing , Word frequency محاسبه می­شودتا احتمال رخداد لغات را برای تعیین اسپم بودن یا نبودن­  پست الکترونیکی مشخص کند.

آنها از کلاس بندی Bayesian استفاده کرده ­اند چراکه ­این کلاس بندی معولا برای فیلتر کردن­  پست­های الکترونیکی به کار برده می­شود و از متد کلاس بندی متن برای شناسایی­  پست­های الکترونیکی اسپم استفاده می­کند. از توکن­ها (لغات)­  پست­های الکترونیکی اسپم و سالم استفاده می ­کند تا به محاسبه احتمال برای شناسایی­  پست­های الکترونیکی ی اسپم و سالم بپردازد.­

این کلاس بندی بر اساس تئوری NaIve Baye می­ باشد و ­این تئوری کلاس بندی­ های سطح بالایی را در بر می گیرد. معیارهای ارزیابی برای­ این کار عبارتند از: accuracy که از نظر آنها میزان کلاس بندی درست و Error که میزان کلاس بندی نادرست را بیان می­کند و همین طور معیارهایی از قبیل recall و precision را هم در نظر گرفته­ اند.

در یک کلاس بندی باید header و بدنه و آدرس­  پست الکترونیکی را در نظر گرفت اما در­اینجا فقط از بدنه و محتوا استفاده کرده ­اند تا با بررسی اطلاعات بدنه بتوانند اسپم بودن یا نبودن­  پست الکترونیکی را مشخص کنند.

مدل کلی آنها به صورت زیر است:

الگوریتم کلاس بندی Bayesian

در قسمت training از data set­ای استفاده شده است که شامل­  پست­های الکترونیکی اسپم و غیر اسپم جمع آوری شده از Gmail است و برای پیش پردازش در فرمت HTML قرار دارند. ­این data set شامل مقادیر ۱۰۰۰، ۱۵۰۰، ۲۱۰۰­  پست الکترونیکی می­ باشد

معیار­های ارزیابی را برای مقادیر مختلف data set در جدول زیر آورده شده است


منبع:

http://ieeexplore.ieee.org/document/7322709/

شرکت پرساتک می تواند سیستم های امنیتی را برای شرکت های صنعتی راه اندازی کند

نوشته‌های مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لورم ایپسوم یا طرح‌ نما به متنی آزمایشی و بی‌معنی در صنعت چاپ، صفحه‌آرایی و طراحی گرافیک گفته می‌شود.