وبلاگ و اخبار

استفاده از زبان برنامه نویسی java برای استخراج ۲۳ویژگی header و body پست الکترونیکی (قسمت اول)

وبلاگ و اخبار

Smadi و همکارانش  اعتقاد داشتند که بیشتر راه حل­ هایی که برای حملات فیشینگ ارائه شده است میزان مثبت کاذب بالا و میزان دقت یا accuracy پایینی دارند. بیشتر راه حل­ها از الگوریتم­ های داده کاوی برای استخراج ویژگی ­ها استفاده می­ کنند و بعضی از راه حل ها از لیست­های سفید و سیاه که چندان اثر ندارد چرا که طول عمر وب سایت­های فیشنگ کمتر از ۲٫۵ روز است.

یک سری از راه حل­ ها  هم به صورت  content base به همراه lexical URL می­ باشد. راه حلی که برای شناسایی حملات فیشینگ ارائه داده ­اند به صورت استخراج ویژگی­ ها از­  پست­های الکترونیکی بر اساس زبان برنامه نویسی JAVA می ­باشد.­این پروسه شامل استخراج ویژگی­ ها در header و بدنه­  پست الکترونیکی است که ترکیب ­این دو کل ظاهر­ پست الکترونیکی را پوشش می­دهد.

بخش اصلی کار آنها عبارت است از:

۱-انتخاب ویژگی­ ها در سیستم شناسایی

۲- به کار گرفتن یک متد برای پیش پردازش data set

۳- تعیین بهترین الگوریتم داده کاوی.

آنها پس از بررسی کار­های مشابه به­ این نتیجه رسیدند که بهترین کلاس بندی­  پست­های الکترونیکی بر اساس ویژگی­های ترکیبی است که از header و محتوا­  پست الکترونیکی با استفاده از تکنیک­ های داده کاوی استخراج می­ شود. و مشاهده کرده ­اند که تحقیقات قبلی از  مثبت کاذب بالا و میزان پایین accuracy بهره می ­برند علاوه بر­ این تحقیقات انجام شده از data set مناسبی برخوردار نبوده و یا تعداد کمی­ از موارد نشان دهنده حملات فیشینگ را مورد تجزیه و تحلیل قرار داده ­اند.

پروسه داده کاوی آنها از ۷ فاز تشکیل شده است که عبارتند از:

۱-باید data set از اطلاعات نویز دار و مشکل دار پاک سازی شود که شامل­  پست­های الکترونیکی فیشینگ و سالم می­باشد.

۲-جمع آوری اطلاعات از منابع مختلف است  که با هم ترکیب شده اند و شامل ۴۵۵۹­  پست الکترونیکی فیشینگ از منبع  Nazarioو ۴۵۵۹­  پست الکترونیکی از spam assassin  project

۳- انتخاب داده،  که مناسب بودن  داده­ ها  را برای آنالیز بررسی و این داده ها  از طریق data set به دست می ­ایند.

۴-انتقال اطلاعات یا data transformation  جایی که اطلاعات از فرمت eml به فرمت arff تبدیل می­شوند که برای داده کاوی مناسب است و به وسیله آن می­ توان به استخراج دانش و ویژگی­های مورد نظر از data set پرداخت.

۵- داده کاوی :­این قسمت بسیار ضروری می­ باشد به علت­ اینکه  الگوی داده ­ها استخراج می ­شود و همین طورمی توان  مدل شناسایی را در­این قسمت ­ایجاد کرد بسیاری از الگوریتم­های داده کاوی در­این قسمت­ ایجاد می­ شوند.

۶- ارزیابی الگو یا pattern evaluation  که برای شناسایی الگو­های درست و نمایش دانش بر اساس داده ­های درست مورد استفاده قرار می­گیرد.

۷- در­این قسمت که فاز پایانی است برای ارائه نتیجه به کار برده می ­شود به عبارت دیگر از تکنیک­های  visualization برای ارائه نتیجه به کاربر مورد استفاده قرار می­گیرد.

شکل زیر نمای کلی از طرح آنها را نمایش می دهد.

استفاده از TFIDF

عمل پیش پردازش یا Preprocessing  بسیار مرحله مهمی ­می­ باشد به دلیل­ اینکه استخراج داده از data set در­این مرحله اتفاق می ­افتد و برنامه JAVA می­ تواند با خواندن­ پست­های الکترونیکی از system file به صورت اتوماتیک داده را استخراج نماید.­این عمل در ۳ فاز تقسیم می­شود.

در فاز اول header­  پست الکترونیکی استخراج می­ شود تا چک شود domain پیام با domain  فرستنده یکی است یا خیر؟ونتیجه آن به صورت یک فایل arrf ذخیره می­شود تا به عنوان فایل ورودی الگوریتم کلاس بندی مورد استفاده قرار گیرد.بعد از آن برنامه قبل از آن که به فاز دو برود محتویات­  پست الکترونیکی را چک می­کند تا ببیند به صورت text است یا html و یا ترکیبی از آن دو .

در فاز دوم چهار ویژگی از محتویات­  پست الکترونیکی استخراج می­ شود به­ این صورت که برنامه چک می­ کند که بدنه دارای فرم html است یا javascript popups و سپس تعداد تصاویری که به عنوان لینک قرار داده شده و تعداد تصاویری که به لینک­ها map شده است را می­ شمارد. تمامی­ این داده­ ها به صورت فایل arrf ذخیره می ­شوند و تمامی­Hyperlink ­ها در درون بدنه­  پست الکترونیکی قبل از آن که وارد فاز ۳ شوند استخراج می­شود.

فاز ۳ بیان گر ­این است که ویژگی ­هایی که از Hyperlink استخراج می­ شود و در بدنه­  پست الکترونیکی قرار دارد بسیار مهم است چرا که مهاجم از آنها برای هدایت قربانی به سایت مخرب استفاده می­ کند

در قسمت بعد ویژگی های استفاده شده در پست های الکترونیکی تشریح خواهد شد.


منبع:

http://ieeexplore.ieee.org/document/7399985/

شرکت پرساتک می تواند سیستم های امنیتی را برای شرکت های صنعتی راه اندازی کند

نوشته‌های مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

لورم ایپسوم یا طرح‌ نما به متنی آزمایشی و بی‌معنی در صنعت چاپ، صفحه‌آرایی و طراحی گرافیک گفته می‌شود.