وبلاگ و اخبار

استفاده از زبان برنامه نویسی java برای استخراج ۲۳ویژگی header و body پست الکترونیکی (قسمت دوم)

وبلاگ و اخبار

در قسمت قبل به طور کلی مدل را معرفی کردیم  که می توانید از این لینک آن را بررسی کنید و در این قسمت ویژگی ها و نتایج به دست آمده را تشریح خواهیم کرد.

آنها در کل از ۲۳ ویژگی استفاده کرده ­اند که ۸ ویژگی مربوط به header و ۱۴ ویژگی هم مربوط به محتوا­  پست الکترونیکی و یک ویژگی هم در هر دو به صورت مشترک قرار دارد. که تمام ­این ویژگی­ها از data set استخراج می ­شوند.­این ویژگی­ها عبارتند از:

۱- Compare message ID domain and sender domain: یک ویژگی باینری است که چک می­ کند domain name فرستنده­  پست الکترونیکی با message ID domain برابر باشد.

۲- HTML email: یک ویژگی باینری است که چک می­ کند محتوا پست الکترونیکی به صورت TEXT/HTML  باشد.

۳- Multi part: یک ویژگی باینری است که چک می ­کند محتوا­  پست الکترونیکی به صورت Multi part باشد.

۴- HTMLform: یک ویژگی باینری است که چک می­کند محتوا­  پست الکترونیکی به صورت یک المان HTML form باشد.

۵- Number of links:تعداد   Hyperlink که در بدنه­  پست الکترونیکی وجود دارد را محاسبه می کند.

۶- Number of different domains: تعداد domain­های متفاوتی که به عنوان Hyperlink در بدنه­  پست الکترونیکی وجود دارد را محاسبه می­کند.

۷- Hyperlink target different from hyperlink text: تعداد Hyperlink­هایی که دارای hyper link text هستند اما domain name را در برنمی­گیرند را محاسبه می­کند.

۸- Hyperlink domain different from sender domain: چه تعداد Hyperlink از domain ای استفاده می­ کنند که برابرdomain فرستنده نیست

۹- Number of dots in a domain:تعداد نقطه هایی که در هر Hyperlink استفاده می­ شود را محاسبه می ­کند و مقدار max را بر می گرداند.

۱۰- URL contains IP address: چه تعداد از Hyperlink از آدرس IP استفاده می­ کنند

۱۱-  @ URL contains : چه تعداد از لینک­ها در بدنه­  پست الکترونیکی از کاراکتر @ استفاده می­ کنند .

۱۲- URL contains hexadecimal characters: چه تعداد از Hyperlink در بدنه پست الکترونیکی اعداد hexadecimal را در بر می گیرند.

۱۳- URL contains a non standard port:  چه تعداد از Hyperlink در بدنه­  پست الکترونیکی پورت­ های غیر استاندارد را در بر می گیرند.

۱۴- Use of JavaScript pop-ups:یک ویژگی باینری است که چک می­ کند محتوا­  پست الکترونیکی شامل JavaScript pop-ups هست یا خیر؟

۱۵- Number of a images used as hyperlink: تعدا تصاویری که به عنوان Hyperlink استفاده می­ شوند را محاسبه می­ کند.

۱۶- Image maps used as hyperlink: تعداد تصاویری که map شده و به عنوان Hyperlink استفاده می ­شود را می­ شمارد.

۱۷- URL contains non-ASCII characters:چه تعداد از لینک­ ها شامل کاراکتر­های ASCII غیر استاندارد هستند را می ­شمارد.

۱۸- SSL Self Signed:تعداد Hyperlink­ هایی را می­ شمارد که به وب سایت ­هایی هدایت می­ کنند که ارتباطات آنها توسط self-signed certificate امن شده باشد.

۱۹- Message size:­اندازه پیام­  پست الکترونیکی را به بایت بر می گرداند.

۲۰- Compares DNS and reverse DNS of links: چه تعداد ازdomain name­ها دارای corresponding reverse DNS entry نمی­ باشند اگر جواب درست بود مقدارtrue و در غیر­این صورت false را بر می گرداند.

۲۱- Text email: چک می­ کند که محتوا­  پست الکترونیکی به صورت text/plain هست یا خیر؟

۲۲- Number of attachment: تعداد  پیوست­های درون­ پست الکترونیکی را می­ شمارد.

۲۳- Number of receiver: تعداد گیرنده­ های­ پست الکترونیکی را که در header آمده است می­ شمارد.

برای آزمایش از sample size­ های متفاوتی از پست­های الکترونیکی و برای کلاس بندی از الگوریتم j48 استفاده کرده ­اند نتایج آنها نشان داد استفاده از ویژگی­های ترکیبی برای کلاس بندی نسبت به راه حل­ هایی که بر مبنای ویژگی­های محتوا بودن عملکرد بهتری دارد.

علاوه بر ­این پیش پردازش برروی نتایج برای همه استانداردها تاثیر زیادی دارد. علاوه بر j48 از چند الگوریتم دیگر هم استفاده کرده ­اند که نتایج آنها در جدول زیر آورده شده است.


منبع:

http://ieeexplore.ieee.org/document/7399985/

شرکت پرساتک می تواند سیستم های امنیتی را برای شرکت های صنعتی راه اندازی کند

نوشته‌های مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لورم ایپسوم یا طرح‌ نما به متنی آزمایشی و بی‌معنی در صنعت چاپ، صفحه‌آرایی و طراحی گرافیک گفته می‌شود.