وبلاگ و اخبار

استفاده از الگوریتم کلاس بندی Bayesian برای تشخیص پست های الکترونیکی spam

وبلاگ و اخبار

Sunil B. Rathod و Tareek M. Pattewar با استفاده از الگوریتم کلاس بندی Bayesian راه حلی را برای تشخیص­  پست­های الکترونیکی spam ارائه داده ­اند.

تعریفی که از فیلتر اسپم بر اساس محتوا داشته­ اند­این گونه است که ­این فیلتر متن داخل­  پست الکترونیکی وهمچنین URL را چک می­کند. روش کار به ­این صورت است که متن داخل­  پست الکترونیکی به صورت HTML tag removal Stop word Removal, Tokenizing , Word frequency محاسبه می­شودتا احتمال رخداد لغات را برای تعیین اسپم بودن یا نبودن­  پست الکترونیکی مشخص کند.

آنها از کلاس بندی Bayesian استفاده کرده ­اند چراکه ­این کلاس بندی معولا برای فیلتر کردن­  پست­های الکترونیکی به کار برده می­شود و از متد کلاس بندی متن برای شناسایی­  پست­های الکترونیکی اسپم استفاده می­کند. از توکن­ها (لغات)­  پست­های الکترونیکی اسپم و سالم استفاده می ­کند تا به محاسبه احتمال برای شناسایی­  پست­های الکترونیکی ی اسپم و سالم بپردازد.­

این کلاس بندی بر اساس تئوری NaIve Baye می­ باشد و ­این تئوری کلاس بندی­ های سطح بالایی را در بر می گیرد. معیارهای ارزیابی برای­ این کار عبارتند از: accuracy که از نظر آنها میزان کلاس بندی درست و Error که میزان کلاس بندی نادرست را بیان می­کند و همین طور معیارهایی از قبیل recall و precision را هم در نظر گرفته­ اند.

در یک کلاس بندی باید header و بدنه و آدرس­  پست الکترونیکی را در نظر گرفت اما در­اینجا فقط از بدنه و محتوا استفاده کرده ­اند تا با بررسی اطلاعات بدنه بتوانند اسپم بودن یا نبودن­  پست الکترونیکی را مشخص کنند.

مدل کلی آنها به صورت زیر است:

الگوریتم کلاس بندی Bayesian

در قسمت training از data set­ای استفاده شده است که شامل­  پست­های الکترونیکی اسپم و غیر اسپم جمع آوری شده از Gmail است و برای پیش پردازش در فرمت HTML قرار دارند. ­این data set شامل مقادیر ۱۰۰۰، ۱۵۰۰، ۲۱۰۰­  پست الکترونیکی می­ باشد

معیار­های ارزیابی را برای مقادیر مختلف data set در جدول زیر آورده شده است


منبع:

http://ieeexplore.ieee.org/document/7322709/

شرکت پرساتک می تواند سیستم های امنیتی را برای شرکت های صنعتی راه اندازی کند

نوشته‌های مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

لورم ایپسوم یا طرح‌ نما به متنی آزمایشی و بی‌معنی در صنعت چاپ، صفحه‌آرایی و طراحی گرافیک گفته می‌شود.