وبلاگ و اخبار

انتخاب ویژگی های ترکیبی با استفاده از TFIDF و تئوری rough set در کلاس بندی پست های الکترونیکی اسپم

وبلاگ و اخبار

Masurah Mohamad و همکارانش آزمایشی را طراحی کردند تا تاثیر انتخاب ویژگی­ های ترکیبی با استفاده از TFIDF و تئوری rough set را در کلاس بندی­ های­  پست­های الکترونیکی ترکیبی ببینند.

آنها در ابتدا بیان کردند که ۲ روش فیلتر­  پست الکترونیکی اسپم وجود دارد که یکی با استفاده یادگیری ماشین کار می­ کند و دیگری بدون استفاده از زبان یادگیری ماشین ­این عمل را انجام می­ دهد . که روش یادگیری ماشین تاثیر به سزایی دارد و این روش به دو دسته تقسیم بندی می­شود که هر کدام معایب ومزایا خود را به شرح زیر دارد.

۱- فیلتر­هایی که بر اساس محتوا عمل می­کنند .

۲- فیلتر­هایی که بر اساس محتوا عمل نمی­کنند یا به صورت meta data می­ باشند مانند HTML Tag .

بر اساس ­این دسته بندی که انجام داده ­اند الگوریتم­ های یادگیری ماشین را به صورت زیر لیست کرده ­اند.

استفاده از TFIDF

آنها همچنین متد­های انتخاب ویژگی را به صورت زیر دسته بندی کرده ­اند که عبارت است از :

(Information Gain (IG

Gini Index

X2statistic

(Fuzzy Adaptive Particle Swarm Optimization (FAPSO

( Term Frequency Inverse Document Frequency (TF-IDF

آنها  از متد­های انتخاب ویژگی (Term Frequency Inverse Document Frequency (TF-IDF  و rough set در راه حل خود استفاده کرده ­اند که عملکرد بسیار خوبی دارند. با­ این حال ممکن است که­ این دو متد به خاطر اطلاعات ناکافی عملکرد بدی از خود نشان بدهند.

این راه حل از سه فاز تشکیل شده که عبارتند از:

۱-فاز pre processing که برای­ پست­های الکترونیکی عکس و متن به کار برده می­ شود

۲-فاز انتخاب ویژگی

۳-فاز کلاس بندی

شکل زیر فاز های راه حل های ارائه شده را نمایش می دهد.

استفاده از TFIDF

در مرحله اول برای تست و آنالیز از ۱۶۹­ پست الکترونیکی استفاده کرده ­اند که­ این پست­های الکترونیکی به صورت text وتصاویر بوده ­است و همه انها به صورت text file درآمده ­اند و ۱۱۴ عدد از­این text file­ ها به عنوان اسپم شناسایی شد و ۵۵ عدد به عنوان سالم.­

این­ پست­های الکترونیکی به دو دسته که ۶۰ درصد به عنوان داده های سلسله ای یا training data و ۴۰ درصد هم به عنوان داده های تست یا testing data می­ باشد تقسیم شدند.

در مرحله دوم تمامی ­این­ پست­های الکترونیکی اول پیش پردازش می ­شوند که از آن به عنوان استخراج ویژگی یاد می­شود . در­این مرحله تمامی­ پست­های الکترونیکی از لغات غیر ضروری پاک می­ شوند چرا که می ­توانند در عمل کرد الگوریتم تاثیر بگذارند. در­این آزمایش از تکنیک (Optical Character Recognition (OCR برای پی بردن به کلمات جا سازی شده درتصاویر استفاده شده است.

در مرحله سوم بعد از آنکه تمامی­ این­ پست­های الکترونیکی پاک سازی شد آنها به سمت انتخاب ویژگی می­ روند که ویژگی­ های ترکیبی با استفاده از تکنیک­های TFIDF و rough set انتخاب می­ شوند.

برای پاک کردن لغات نامربوط از data set از ابزار (Rough Set Exploration System (RSES استفاده کردند. همچنین از­این ابزار برای انتخاب ویژگی و کلاس بندی استفاده می­ شود. در زمان انتخاب ویژگی­ ها قوانین باید توسط کاربر به صورت دستی یا توسط سیستم به صورت اتوماتیک تنظیم شود . شکل زیر پروسه انتخاب ویژگی­ ها را نمایش می­ دهد.

استفاده از TFIDF

آنها برای ساده سازی صفت ها از روش الگوریتم ژنتیک استفاده کرده ­اند که ­این کار باعث افزایش میزان دقت کلاس بندی ، کاهش زمان پردازش و ساده سازی نتایج کلاس بندی می­ شود . آنها برای­ این کار عدد ۱۰ را انتخاب کردند که تعداد کلمات و صفات ناخواسته را نشان می­ دهد و در حالت کلی اگر سایز کلمات و صفات از ۱۰ بیشتر بود در نظر نمی ­گیردکه ­این عمل در شکل زیر نمایان است.

 

استفاده از TFIDF

میزان دقت برای مقادیر مختلف ساده سازی صفات در جدول زیر نمایش داده شده است

استفاده از TFIDF

در نهایت به مقایسه استفاده ترکیبی متد TF-IDF به همراه متد­های دیگر پرداختند که نشان می­دهد استفاده از متد decision tree به همراه TF-IDF عملکرد بهتری از خود نسبت به سایر متد­ها نشان می­دهد که در شکل زیر نمایان است

استفاده از TFIDF


منبع:

http://ieeexplore.ieee.org/document/7219571/

نوشته‌های مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

تعدادی از پروژه های پرساتک