استخراج ویژگی های مفید با استفاده از یادگیری ماشین در حملات ایمیل های اسپم

Shrawan Kumar Trivedi یک مدلی را برای کلاس بندی حملات ایمیل های اسپم ارائه کرده اند که بیشتر متدهای کلاس بندی را در بر خواهد گرفت . هدف آنها از این کار تمیز قرار دادن بین پستهای الکترونیکی اسپم و قانونی با دقت بالا و منفی کاذب پایین می باشد.

آنها برای استفاده از ویژگی های مفید از Enron email dataset version 5&6 استفاده کرده اند که دراینجا شامل ۶۰۰۰ فایل ایمیل است که ۵۰ درصد آن به صورت اسپم میباشد . اساس انتخاب این dataset ویژگی های گسترده ای است که برای حملات استفاده می شود و در فایل های ایمیل این dataset قرارداده شده است که به توانایی کلاس بندی آنها کمک میکند .

آنها یک مقایسه بین الگوریتم های یادگیری ماشین انجام داده اند وبه این نتیجه رسیدن که ماشین بردار پشتیبان یا SVM بهترین عملکرد و دقت را دارد و همچنین دارای منفی کاذب کم می باشد. دراینجا تمامی متدهای فیلتر اسپم تست شده است اما هیچ کدام عملکرد مطلوبی را از خود نشان نداده اند به هر حال این فیلترها برای گیرنده گان ایمیل که میخواهند اسپم ها را شناسایی کنند مفید هستند .

آنها دراین جا روی محتوا یا body ایمیل تمرکز بیشتری داشتند . در فاز پیش پردازش با استفاده از پروسه استخراج ویژگیها لغات و ویژگیها از فایلهای ایمیل استخراج می شوند . دراین مرحله اطلاعات با استفاده از متد string-to-word-vector ازایمیل فایلها استخراج می شوند تا بتوانند دیکشنری ویژگیها را ایجاد کنند.

بزرگترین مشکل فیلترهای اسپم داشتن دامنه گسترده ای از ویژگیها است که منجر به غیر استاندارد شدن کلاس بندی ها و افزایش هزینه آنها می شود که میتوان با متدهای کاهش ابعاد در زمان انتخاب ویژگی این مشکل را برطرف کرد. انتخاب ویژگی ها بر اساس سه پروسه انجام شده است که عبارتند از:

۱- forward selection که به انتخاب ویژگی های درست اشاره دارد .

۲- backward selection که به حذف ویژگی های نادرست اشاره دارد .

۳- mixed selection ترکیبی از دو پروسه بالا است که به صورت هم زمان اتفاق میافتد .

بعد از آنکه ویژگی های مفید استخراج شد با استفاده از متدهای binary representation می توان آنها را ارائه کرد . در این متد فایلهای ایمیل و لغات به صورت ماتریکس باینری در می آیند که به آن (Term Document Matrix (TDM می گویند . این متد همچنین به متد term weighting نیز اشاره میکند . این ماتریس باینری به دو مقدار ۰ و ۱ اشاره دارد که ۱ به ویژگی های منحصر به فرد در فایلهای ایمیل اشاره دارد و ۰ به دیگر موارد .

برای ارزیابی کار خود از سه مقدار مثبت کاذب ، Training Timeو دقت یا F-measure استفاده کرده اند .

این گونه به نظر میرسد که الگوریتم ماشین بردار پشتیبان بالاترین میزان دقت یا F-measure را دارا است و همچنین میزان منفی کاذب آن از همه کمتر است و فقط Naïve Bayes با آن برابری میکند و میزان Training Time آن زیاد است که اشاره به مدت زمانی دارد که صرف ساخت الگوریتم میشود واین زمان برای Naïve Bayes از همه کمتر است. در حالت کلی و با نتایجی که به دست آورده اند نشان میدهد که ماشین بردار پشتیبان بسیار مناسب تر است.

منبع:

http://ieeexplore.ieee.org/document/7743279/?anchor=authors

نوشته‌های مرتبط

وبلاگ و اخبار