در قسمت قبل به طور کلی مدل را معرفی کردیم که می توانید از این لینک آن را بررسی کنید و در این قسمت ویژگی ها و نتایج به دست آمده را تشریح خواهیم کرد.
آنها در کل از ۲۳ ویژگی استفاده کرده اند که ۸ ویژگی مربوط به header و ۱۴ ویژگی هم مربوط به محتوا پست الکترونیکی و یک ویژگی هم در هر دو به صورت مشترک قرار دارد. که تمام این ویژگیها از data set استخراج می شوند.این ویژگیها عبارتند از:
۱- Compare message ID domain and sender domain: یک ویژگی باینری است که چک می کند domain name فرستنده پست الکترونیکی با message ID domain برابر باشد.
۲- HTML email: یک ویژگی باینری است که چک می کند محتوا پست الکترونیکی به صورت TEXT/HTML باشد.
۳- Multi part: یک ویژگی باینری است که چک می کند محتوا پست الکترونیکی به صورت Multi part باشد.
۴- HTMLform: یک ویژگی باینری است که چک میکند محتوا پست الکترونیکی به صورت یک المان HTML form باشد.
۵- Number of links:تعداد Hyperlink که در بدنه پست الکترونیکی وجود دارد را محاسبه می کند.
۶- Number of different domains: تعداد domainهای متفاوتی که به عنوان Hyperlink در بدنه پست الکترونیکی وجود دارد را محاسبه میکند.
۷- Hyperlink target different from hyperlink text: تعداد Hyperlinkهایی که دارای hyper link text هستند اما domain name را در برنمیگیرند را محاسبه میکند.
۸- Hyperlink domain different from sender domain: چه تعداد Hyperlink از domain ای استفاده می کنند که برابرdomain فرستنده نیست
۹- Number of dots in a domain:تعداد نقطه هایی که در هر Hyperlink استفاده می شود را محاسبه می کند و مقدار max را بر می گرداند.
۱۰- URL contains IP address: چه تعداد از Hyperlink از آدرس IP استفاده می کنند
۱۱- @ URL contains : چه تعداد از لینکها در بدنه پست الکترونیکی از کاراکتر @ استفاده می کنند .
۱۲- URL contains hexadecimal characters: چه تعداد از Hyperlink در بدنه پست الکترونیکی اعداد hexadecimal را در بر می گیرند.
۱۳- URL contains a non standard port: چه تعداد از Hyperlink در بدنه پست الکترونیکی پورت های غیر استاندارد را در بر می گیرند.
۱۴- Use of JavaScript pop-ups:یک ویژگی باینری است که چک می کند محتوا پست الکترونیکی شامل JavaScript pop-ups هست یا خیر؟
۱۵- Number of a images used as hyperlink: تعدا تصاویری که به عنوان Hyperlink استفاده می شوند را محاسبه می کند.
۱۶- Image maps used as hyperlink: تعداد تصاویری که map شده و به عنوان Hyperlink استفاده می شود را می شمارد.
۱۷- URL contains non-ASCII characters:چه تعداد از لینک ها شامل کاراکترهای ASCII غیر استاندارد هستند را می شمارد.
۱۸- SSL Self Signed:تعداد Hyperlink هایی را می شمارد که به وب سایت هایی هدایت می کنند که ارتباطات آنها توسط self-signed certificate امن شده باشد.
۱۹- Message size:اندازه پیام پست الکترونیکی را به بایت بر می گرداند.
۲۰- Compares DNS and reverse DNS of links: چه تعداد ازdomain nameها دارای corresponding reverse DNS entry نمی باشند اگر جواب درست بود مقدارtrue و در غیراین صورت false را بر می گرداند.
۲۱- Text email: چک می کند که محتوا پست الکترونیکی به صورت text/plain هست یا خیر؟
۲۲- Number of attachment: تعداد پیوستهای درون پست الکترونیکی را می شمارد.
۲۳- Number of receiver: تعداد گیرنده های پست الکترونیکی را که در header آمده است می شمارد.
برای آزمایش از sample size های متفاوتی از پستهای الکترونیکی و برای کلاس بندی از الگوریتم j48 استفاده کرده اند نتایج آنها نشان داد استفاده از ویژگیهای ترکیبی برای کلاس بندی نسبت به راه حل هایی که بر مبنای ویژگیهای محتوا بودن عملکرد بهتری دارد.
علاوه بر این پیش پردازش برروی نتایج برای همه استانداردها تاثیر زیادی دارد. علاوه بر j48 از چند الگوریتم دیگر هم استفاده کرده اند که نتایج آنها در جدول زیر آورده شده است.
منبع: