وبلاگ و اخبار

استخراج ویژگی های مفید با استفاده از یادگیری ماشین در حملات ایمیل های اسپم

وبلاگ و اخبار

Shrawan Kumar Trivedi یک مدلی را برای کلاس بندی­ حملات ایمیل های اسپم ارائه کرده ­اند که بیشتر متد­های کلاس بندی را در بر خواهد گرفت . هدف آنها از ­این کار تمیز قرار دادن بین­ پست­های الکترونیکی اسپم و قانونی با دقت بالا و منفی کاذب پایین می­ باشد.

آنها برای استفاده از ویژگی­ های مفید از Enron email dataset version 5&6 استفاده کرده ­اند که در­اینجا شامل ۶۰۰۰ فایل ­ایمیل است که ۵۰ درصد آن به صورت اسپم می­باشد . اساس انتخاب ­این dataset ویژگی­ های گسترده­ ای است که برای حملات استفاده می ­شود و در فایل­ های­ ایمیل ­این dataset قرارداده شده است که به توانایی کلاس بندی آنها کمک می­کند .

آنها یک مقایسه بین الگوریتم های  یادگیری ماشین انجام داده ­اند  وبه ­این نتیجه رسیدن که ماشین بردار پشتیبان یا SVM بهترین عملکرد و دقت را دارد و همچنین دارای منفی کاذب کم می­ باشد. در­اینجا تمامی ­متد­های فیلتر اسپم تست شده است اما هیچ کدام عملکرد مطلوبی را از خود نشان نداده ­اند به هر حال­ این فیلتر­ها برای گیرنده گان­ ایمیل که می­خواهند اسپم­ ها را شناسایی کنند مفید هستند .

آنها در­این جا روی محتوا یا body ایمیل تمرکز بیشتری داشتند . در فاز پیش پردازش با استفاده از پروسه استخراج ویژگی­ها لغات و ویژگی­ها از فایل­های­ ایمیل استخراج می­ شوند . در­این مرحله اطلاعات با استفاده از متد string-to-word-vector ازایمیل فایل­ها استخراج می­ شوند تا بتوانند دیکشنری ویژگی­ها را ­ایجاد کنند.

بزرگترین مشکل فیلتر­های اسپم داشتن دامنه گسترده ­ای از ویژگی­ها است که منجر به غیر استاندارد شدن کلاس بندی­ ها و افزایش هزینه آنها می­ شود که می­توان با متد­های کاهش ابعاد در زمان انتخاب ویژگی این مشکل را برطرف کرد. انتخاب ویژگی ­ها بر اساس سه پروسه انجام شده است که عبارتند از:

۱- forward selection که به انتخاب ویژگی­ های درست اشاره دارد .

۲- backward selection که به حذف ویژگی­ های نادرست اشاره دارد .

۳- mixed selection ترکیبی از دو پروسه بالا است که به صورت هم زمان اتفاق می­افتد .

بعد از آنکه ویژگی­ های مفید استخراج شد با استفاده از متد­های binary representation می­ توان آنها را ارائه کرد . در این متد فایل­های­ ایمیل و لغات به صورت ماتریکس باینری در می ­آیند که به آن (Term Document Matrix (TDM می گویند .­ این متد همچنین به متد term weighting نیز اشاره می­کند . ­این ماتریس باینری به دو مقدار ۰ و ۱ اشاره دارد که ۱ به ویژگی­ های منحصر به فرد در فایل­های­ ایمیل اشاره دارد و ۰ به دیگر موارد .

برای ارزیابی کار خود از سه مقدار مثبت کاذب ، Training Timeو دقت یا F-measure استفاده کرده ­اند .

این گونه به نظر می­رسد که الگوریتم ماشین بردار پشتیبان بالاترین میزان دقت یا F-measure را دارا است و همچنین میزان منفی کاذب آن از همه کمتر است و فقط Naïve Bayes با آن برابری می­کند و میزان Training Time آن زیاد است که اشاره به مدت زمانی دارد که صرف ساخت الگوریتم می­شود و­این زمان برای Naïve Bayes از همه کمتر است. در حالت کلی و با نتایجی که به دست آورده­ اند نشان می­دهد که ماشین بردار پشتیبان بسیار مناسب تر است.

منبع:

http://ieeexplore.ieee.org/document/7743279/?anchor=authors

نوشته‌های مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

تعدادی از پروژه های پرساتک