Masurah Mohamad و همکارانش آزمایشی را طراحی کردند تا تاثیر انتخاب ویژگی های ترکیبی با استفاده از TFIDF و تئوری rough set را در کلاس بندی های پستهای الکترونیکی ترکیبی ببینند.
آنها در ابتدا بیان کردند که ۲ روش فیلتر پست الکترونیکی اسپم وجود دارد که یکی با استفاده یادگیری ماشین کار می کند و دیگری بدون استفاده از زبان یادگیری ماشین این عمل را انجام می دهد . که روش یادگیری ماشین تاثیر به سزایی دارد و این روش به دو دسته تقسیم بندی میشود که هر کدام معایب ومزایا خود را به شرح زیر دارد.
۱- فیلترهایی که بر اساس محتوا عمل میکنند .
۲- فیلترهایی که بر اساس محتوا عمل نمیکنند یا به صورت meta data می باشند مانند HTML Tag .
بر اساس این دسته بندی که انجام داده اند الگوریتم های یادگیری ماشین را به صورت زیر لیست کرده اند.
آنها همچنین متدهای انتخاب ویژگی را به صورت زیر دسته بندی کرده اند که عبارت است از :
(Information Gain (IG
Gini Index
X2statistic
(Fuzzy Adaptive Particle Swarm Optimization (FAPSO
( Term Frequency Inverse Document Frequency (TF-IDF
آنها از متدهای انتخاب ویژگی (Term Frequency Inverse Document Frequency (TF-IDF و rough set در راه حل خود استفاده کرده اند که عملکرد بسیار خوبی دارند. با این حال ممکن است که این دو متد به خاطر اطلاعات ناکافی عملکرد بدی از خود نشان بدهند.
این راه حل از سه فاز تشکیل شده که عبارتند از:
۱-فاز pre processing که برای پستهای الکترونیکی عکس و متن به کار برده می شود
۲-فاز انتخاب ویژگی
۳-فاز کلاس بندی
شکل زیر فاز های راه حل های ارائه شده را نمایش می دهد.
در مرحله اول برای تست و آنالیز از ۱۶۹ پست الکترونیکی استفاده کرده اند که این پستهای الکترونیکی به صورت text وتصاویر بوده است و همه انها به صورت text file درآمده اند و ۱۱۴ عدد ازاین text file ها به عنوان اسپم شناسایی شد و ۵۵ عدد به عنوان سالم.
این پستهای الکترونیکی به دو دسته که ۶۰ درصد به عنوان داده های سلسله ای یا training data و ۴۰ درصد هم به عنوان داده های تست یا testing data می باشد تقسیم شدند.
در مرحله دوم تمامی این پستهای الکترونیکی اول پیش پردازش می شوند که از آن به عنوان استخراج ویژگی یاد میشود . دراین مرحله تمامی پستهای الکترونیکی از لغات غیر ضروری پاک می شوند چرا که می توانند در عمل کرد الگوریتم تاثیر بگذارند. دراین آزمایش از تکنیک (Optical Character Recognition (OCR برای پی بردن به کلمات جا سازی شده درتصاویر استفاده شده است.
در مرحله سوم بعد از آنکه تمامی این پستهای الکترونیکی پاک سازی شد آنها به سمت انتخاب ویژگی می روند که ویژگی های ترکیبی با استفاده از تکنیکهای TFIDF و rough set انتخاب می شوند.
برای پاک کردن لغات نامربوط از data set از ابزار (Rough Set Exploration System (RSES استفاده کردند. همچنین ازاین ابزار برای انتخاب ویژگی و کلاس بندی استفاده می شود. در زمان انتخاب ویژگی ها قوانین باید توسط کاربر به صورت دستی یا توسط سیستم به صورت اتوماتیک تنظیم شود . شکل زیر پروسه انتخاب ویژگی ها را نمایش می دهد.
آنها برای ساده سازی صفت ها از روش الگوریتم ژنتیک استفاده کرده اند که این کار باعث افزایش میزان دقت کلاس بندی ، کاهش زمان پردازش و ساده سازی نتایج کلاس بندی می شود . آنها برای این کار عدد ۱۰ را انتخاب کردند که تعداد کلمات و صفات ناخواسته را نشان می دهد و در حالت کلی اگر سایز کلمات و صفات از ۱۰ بیشتر بود در نظر نمی گیردکه این عمل در شکل زیر نمایان است.
میزان دقت برای مقادیر مختلف ساده سازی صفات در جدول زیر نمایش داده شده است
در نهایت به مقایسه استفاده ترکیبی متد TF-IDF به همراه متدهای دیگر پرداختند که نشان میدهد استفاده از متد decision tree به همراه TF-IDF عملکرد بهتری از خود نسبت به سایر متدها نشان میدهد که در شکل زیر نمایان است
منبع: