وبلاگ و اخبار

استفاده از زبان برنامه نویسی java برای استخراج ۲۳ویژگی header و body پست الکترونیکی (قسمت اول)

وبلاگ و اخبار

Smadi و همکارانش  اعتقاد داشتند که بیشتر راه حل­ هایی که برای حملات فیشینگ ارائه شده است میزان مثبت کاذب بالا و میزان دقت یا accuracy پایینی دارند. بیشتر راه حل­ها از الگوریتم­ های داده کاوی برای استخراج ویژگی ­ها استفاده می­ کنند و بعضی از راه حل ها از لیست­های سفید و سیاه که چندان اثر ندارد چرا که طول عمر وب سایت­های فیشنگ کمتر از ۲٫۵ روز است.

یک سری از راه حل­ ها  هم به صورت  content base به همراه lexical URL می­ باشد. راه حلی که برای شناسایی حملات فیشینگ ارائه داده ­اند به صورت استخراج ویژگی­ ها از­  پست­های الکترونیکی بر اساس زبان برنامه نویسی JAVA می ­باشد.­این پروسه شامل استخراج ویژگی­ ها در header و بدنه­  پست الکترونیکی است که ترکیب ­این دو کل ظاهر­ پست الکترونیکی را پوشش می­دهد.

بخش اصلی کار آنها عبارت است از:

۱-انتخاب ویژگی­ ها در سیستم شناسایی

۲- به کار گرفتن یک متد برای پیش پردازش data set

۳- تعیین بهترین الگوریتم داده کاوی.

آنها پس از بررسی کار­های مشابه به­ این نتیجه رسیدند که بهترین کلاس بندی­  پست­های الکترونیکی بر اساس ویژگی­های ترکیبی است که از header و محتوا­  پست الکترونیکی با استفاده از تکنیک­ های داده کاوی استخراج می­ شود. و مشاهده کرده ­اند که تحقیقات قبلی از  مثبت کاذب بالا و میزان پایین accuracy بهره می ­برند علاوه بر­ این تحقیقات انجام شده از data set مناسبی برخوردار نبوده و یا تعداد کمی­ از موارد نشان دهنده حملات فیشینگ را مورد تجزیه و تحلیل قرار داده ­اند.

پروسه داده کاوی آنها از ۷ فاز تشکیل شده است که عبارتند از:

۱-باید data set از اطلاعات نویز دار و مشکل دار پاک سازی شود که شامل­  پست­های الکترونیکی فیشینگ و سالم می­باشد.

۲-جمع آوری اطلاعات از منابع مختلف است  که با هم ترکیب شده اند و شامل ۴۵۵۹­  پست الکترونیکی فیشینگ از منبع  Nazarioو ۴۵۵۹­  پست الکترونیکی از spam assassin  project

۳- انتخاب داده،  که مناسب بودن  داده­ ها  را برای آنالیز بررسی و این داده ها  از طریق data set به دست می ­ایند.

۴-انتقال اطلاعات یا data transformation  جایی که اطلاعات از فرمت eml به فرمت arff تبدیل می­شوند که برای داده کاوی مناسب است و به وسیله آن می­ توان به استخراج دانش و ویژگی­های مورد نظر از data set پرداخت.

۵- داده کاوی :­این قسمت بسیار ضروری می­ باشد به علت­ اینکه  الگوی داده ­ها استخراج می ­شود و همین طورمی توان  مدل شناسایی را در­این قسمت ­ایجاد کرد بسیاری از الگوریتم­های داده کاوی در­این قسمت­ ایجاد می­ شوند.

۶- ارزیابی الگو یا pattern evaluation  که برای شناسایی الگو­های درست و نمایش دانش بر اساس داده ­های درست مورد استفاده قرار می­گیرد.

۷- در­این قسمت که فاز پایانی است برای ارائه نتیجه به کار برده می ­شود به عبارت دیگر از تکنیک­های  visualization برای ارائه نتیجه به کاربر مورد استفاده قرار می­گیرد.

شکل زیر نمای کلی از طرح آنها را نمایش می دهد.

استفاده از TFIDF

عمل پیش پردازش یا Preprocessing  بسیار مرحله مهمی ­می­ باشد به دلیل­ اینکه استخراج داده از data set در­این مرحله اتفاق می ­افتد و برنامه JAVA می­ تواند با خواندن­ پست­های الکترونیکی از system file به صورت اتوماتیک داده را استخراج نماید.­این عمل در ۳ فاز تقسیم می­شود.

در فاز اول header­  پست الکترونیکی استخراج می­ شود تا چک شود domain پیام با domain  فرستنده یکی است یا خیر؟ونتیجه آن به صورت یک فایل arrf ذخیره می­شود تا به عنوان فایل ورودی الگوریتم کلاس بندی مورد استفاده قرار گیرد.بعد از آن برنامه قبل از آن که به فاز دو برود محتویات­  پست الکترونیکی را چک می­کند تا ببیند به صورت text است یا html و یا ترکیبی از آن دو .

در فاز دوم چهار ویژگی از محتویات­  پست الکترونیکی استخراج می­ شود به­ این صورت که برنامه چک می­ کند که بدنه دارای فرم html است یا javascript popups و سپس تعداد تصاویری که به عنوان لینک قرار داده شده و تعداد تصاویری که به لینک­ها map شده است را می­ شمارد. تمامی­ این داده­ ها به صورت فایل arrf ذخیره می ­شوند و تمامی­Hyperlink ­ها در درون بدنه­  پست الکترونیکی قبل از آن که وارد فاز ۳ شوند استخراج می­شود.

فاز ۳ بیان گر ­این است که ویژگی ­هایی که از Hyperlink استخراج می­ شود و در بدنه­  پست الکترونیکی قرار دارد بسیار مهم است چرا که مهاجم از آنها برای هدایت قربانی به سایت مخرب استفاده می­ کند

در قسمت بعد ویژگی های استفاده شده در پست های الکترونیکی تشریح خواهد شد.


منبع:

http://ieeexplore.ieee.org/document/7399985/

شرکت پرساتک می تواند سیستم های امنیتی را برای شرکت های صنعتی راه اندازی کند

نوشته‌های مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

لورم ایپسوم یا طرح‌ نما به متنی آزمایشی و بی‌معنی در صنعت چاپ، صفحه‌آرایی و طراحی گرافیک گفته می‌شود.