وبلاگ و اخبار

استفاده از زبان برنامه نویسی java برای استخراج ۲۳ویژگی header و body پست الکترونیکی (قسمت دوم)

وبلاگ و اخبار

در قسمت قبل به طور کلی مدل را معرفی کردیم  که می توانید از این لینک آن را بررسی کنید و در این قسمت ویژگی ها و نتایج به دست آمده را تشریح خواهیم کرد.

آنها در کل از ۲۳ ویژگی استفاده کرده ­اند که ۸ ویژگی مربوط به header و ۱۴ ویژگی هم مربوط به محتوا­  پست الکترونیکی و یک ویژگی هم در هر دو به صورت مشترک قرار دارد. که تمام ­این ویژگی­ها از data set استخراج می ­شوند.­این ویژگی­ها عبارتند از:

۱- Compare message ID domain and sender domain: یک ویژگی باینری است که چک می­ کند domain name فرستنده­  پست الکترونیکی با message ID domain برابر باشد.

۲- HTML email: یک ویژگی باینری است که چک می­ کند محتوا پست الکترونیکی به صورت TEXT/HTML  باشد.

۳- Multi part: یک ویژگی باینری است که چک می ­کند محتوا­  پست الکترونیکی به صورت Multi part باشد.

۴- HTMLform: یک ویژگی باینری است که چک می­کند محتوا­  پست الکترونیکی به صورت یک المان HTML form باشد.

۵- Number of links:تعداد   Hyperlink که در بدنه­  پست الکترونیکی وجود دارد را محاسبه می کند.

۶- Number of different domains: تعداد domain­های متفاوتی که به عنوان Hyperlink در بدنه­  پست الکترونیکی وجود دارد را محاسبه می­کند.

۷- Hyperlink target different from hyperlink text: تعداد Hyperlink­هایی که دارای hyper link text هستند اما domain name را در برنمی­گیرند را محاسبه می­کند.

۸- Hyperlink domain different from sender domain: چه تعداد Hyperlink از domain ای استفاده می­ کنند که برابرdomain فرستنده نیست

۹- Number of dots in a domain:تعداد نقطه هایی که در هر Hyperlink استفاده می­ شود را محاسبه می ­کند و مقدار max را بر می گرداند.

۱۰- URL contains IP address: چه تعداد از Hyperlink از آدرس IP استفاده می­ کنند

۱۱-  @ URL contains : چه تعداد از لینک­ها در بدنه­  پست الکترونیکی از کاراکتر @ استفاده می­ کنند .

۱۲- URL contains hexadecimal characters: چه تعداد از Hyperlink در بدنه پست الکترونیکی اعداد hexadecimal را در بر می گیرند.

۱۳- URL contains a non standard port:  چه تعداد از Hyperlink در بدنه­  پست الکترونیکی پورت­ های غیر استاندارد را در بر می گیرند.

۱۴- Use of JavaScript pop-ups:یک ویژگی باینری است که چک می­ کند محتوا­  پست الکترونیکی شامل JavaScript pop-ups هست یا خیر؟

۱۵- Number of a images used as hyperlink: تعدا تصاویری که به عنوان Hyperlink استفاده می­ شوند را محاسبه می­ کند.

۱۶- Image maps used as hyperlink: تعداد تصاویری که map شده و به عنوان Hyperlink استفاده می ­شود را می­ شمارد.

۱۷- URL contains non-ASCII characters:چه تعداد از لینک­ ها شامل کاراکتر­های ASCII غیر استاندارد هستند را می ­شمارد.

۱۸- SSL Self Signed:تعداد Hyperlink­ هایی را می­ شمارد که به وب سایت ­هایی هدایت می­ کنند که ارتباطات آنها توسط self-signed certificate امن شده باشد.

۱۹- Message size:­اندازه پیام­  پست الکترونیکی را به بایت بر می گرداند.

۲۰- Compares DNS and reverse DNS of links: چه تعداد ازdomain name­ها دارای corresponding reverse DNS entry نمی­ باشند اگر جواب درست بود مقدارtrue و در غیر­این صورت false را بر می گرداند.

۲۱- Text email: چک می­ کند که محتوا­  پست الکترونیکی به صورت text/plain هست یا خیر؟

۲۲- Number of attachment: تعداد  پیوست­های درون­ پست الکترونیکی را می­ شمارد.

۲۳- Number of receiver: تعداد گیرنده­ های­ پست الکترونیکی را که در header آمده است می­ شمارد.

برای آزمایش از sample size­ های متفاوتی از پست­های الکترونیکی و برای کلاس بندی از الگوریتم j48 استفاده کرده ­اند نتایج آنها نشان داد استفاده از ویژگی­های ترکیبی برای کلاس بندی نسبت به راه حل­ هایی که بر مبنای ویژگی­های محتوا بودن عملکرد بهتری دارد.

علاوه بر ­این پیش پردازش برروی نتایج برای همه استانداردها تاثیر زیادی دارد. علاوه بر j48 از چند الگوریتم دیگر هم استفاده کرده ­اند که نتایج آنها در جدول زیر آورده شده است.


منبع:

http://ieeexplore.ieee.org/document/7399985/

شرکت پرساتک می تواند سیستم های امنیتی را برای شرکت های صنعتی راه اندازی کند

نوشته‌های مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

لورم ایپسوم یا طرح‌ نما به متنی آزمایشی و بی‌معنی در صنعت چاپ، صفحه‌آرایی و طراحی گرافیک گفته می‌شود.