وبلاگ و اخبار

استفاده از مدل n-gram برای تشخیص پست های الکترونیکی مخرب

وبلاگ و اخبار

M. Darling و همکارانش یک مدل n gram برای کلاس بندی آدرس­های مخرب URL در حملات فیشینگ توسعه دادند. وبه میزان دقت ۹۹٫۱ درصد و نرخ مثبت کاذب به میزان۰٫۴درصد رسیدند. به عبارتی دیگر از مدل n gram برای محاسبه رخداد کاراکتر­ها در آدرس­های URL استفاده کرده ­اند و آنها از ۸۷ ویژگی URL برای کلاس بندی استفاده کرده و به گروه­های lengths, counts, binaries, ratios تقسیم بندی کرده ­اند و برای کلاس بندی از الگوریتم درخت تصمیم ­گیری استفاده کرده ­اند.

در روش استاتیک براساس آدرس URL و محتوا وب سایت بدون اجرا کردن آن به کلاس بندی می­ پردازد اما ­این روش موفقیت محدودی دارد و نتایج  پیچیده ­ای را در برخواهد داشت. الگوریتم یاد گیری ماشین به تنهایی قادر است بالاترین میزان دقت یا accuracy را داشته باشد و با آنالیز آدرس URL به شناسایی محتوای مخرب بپردازد. در­این کار تحقیقاتی آنها از ویژگی­های lexical به همراه یک مدل bag-of-word استفاده کرده ­اند که نتیجه آن یک بردار ویژگی بزرگ می­ باشد به عبارتی دیگر در­این پژوهش از ویژگی­های آدرسURL به همراه اطلاعات hosting استفاده شده است که با مراجعه به remote server به دست می ­آید.

آنها در­این کار پژوهشی راه حلی را ارائه داده ­اند که بر اساس مدل n-gram عمل خواهد کرد و یک سیستم کلاس بندی جدیدی را ارائه می­ دهد. آنها از الگوریتم درخت تصمیم J48 برای کلاس بندی ویژگی­های استخراج شده از مدل n-gram استفاده کرده ­اند.

الگوریتم J48 یک اجرا open source از الگوریتم C4.5 می­ باشد و در برابر الگوریتم­ هایی نظیر Naïve Bayes، Bayesian Logistic Regression ، Logistic Regression، Knn دارای میزان دقت ۹۹ درصد برای مدل n-gram دارد. کلاس بندی که بر اساس آدرس URL انجام داده ­اند قادر است­  پست­های الکترونیکی فیشینگ و malware را شناسایی کند. مجموعه داده­ ها یا data set­ای که در نظر گرفته­ اند شامل ۱۳۱۴۰۲ آدرسURL است که ۵۰ درصد از آنها بی ضرر و ۵۰درصد دیگر مخرب می­ باشد.

در واقع هدف کلی آنها­ این است که چگونه سریع و با دقت بالا بر اساس آدرس URL به کلاس بندی وب سایت­ها بپردازند. بیشتر ویژگی­ها از کاراکتر­های داخل URL استخراج می­ شوند بنابراین آنها به جمع آوری آدرس­هایURL از لیست­های سیاه و وب سایت­های قابل اعتماد پرداختند و آنها را بر اساس مخرب و غیر مخرب بودن برچسب گذاری کردند. آنها دو نوع از آدرس­های URL را جمع آوری کردند که فیشینگ و malware نام دارد و آدرس­های URL فیشینگ معمولا با token های مخرب پر شده ­اند.

آنها برای جلوگیری از هدر رفتن زمان از back-of-word استفاده کرده ­اند و برای ­افزایش کارایی سیستم  از مدل n-gram استفاده شده است.در واقع به دنبال مدل کردن زبان URL از مدل n-gram  استفاده می­ کنند تا احتمال رخداد دنباله­ای از کاراکتر­ها را در آدرس­های URL به دست آورند. هرکدام از gram­ها می­توانند معرف لغات، شماره تماس،هجا و سایر کاراکترها باشند. ومدل n-gram از طریق الگوریتم Markov chain ساخته می­شود.

Back- of-model هم برای نشانه گذاری URL استفاده می­شود.به­ این صورت که اگر هر کدام از token­های آدرس URL در back-of-model وجود داشته باشد ارزش ۱ و در غیر­این صورت ارزش ۰ را خواهد گرفت. زمانی که از  back-of-model  استفاده شد میانگین سلسله داده­ های آنها شامل ۱۲۲۰۰۰ ویژگی باینری بود. آدرس­ های URL فیشینگ از تعداد زیادی لغت و سمبل تشکیل شده ­اند که می­ توانند کاربر را فریب بدهند. آنها آدرس­های URL را به ۳قسمت hostname, path, parameter تقسیم کرده ­اند. هر کدام از­این قسمت­ها بهtokenهای مختلف تقسیم بندی شده­اند. شکل زیر مولفه های URL را نمایش می دهد.

مدل n-gram

درحالت کلی آنها۸۷ ویژگی را گسترش داده­ اند و انها را به ۵ گروه تقسیم بندی کرده­ اند که عبارتند از:  n-grams, lengths, counts, binaries, ratios.

الف) Length feature: در­اینجا از ۱۰ ویژگی طول استفاده شده است که عبارتنداز:

hostname, first-directory, URL ,path, parameters, top-level domain ,second-level domain. به همین ترتیب به محاسبه بیشترین token درhostname, path ,parameters, URL پرداختند.

ب) counting feature : تعداد رخ داد کاراکتر­ها را شامل می­شود برای مثال می­توانیم به @,_,?,=,., اعداد،حروف الفبا و… اشاره کرد که در­اینجا از ۲۹ ویژگی استفاده شده.

ج)pattern feature :شامل الگوی خاصی از آدرس URL می ­شود که تعداد رخ داد آن الگو را بررسی می­ کند. برای مثال می­توان به الگو تغییر، تعداد رخ داد پیاپی یک کاراکتر، tokenهایی که بیشتر تکرار شده­ اند، میزان شباهتی که در black list یافت شده است، میزان تکرار در black list اشاره کرده که از ۱۵ الگو استفاده شده است.

د)binary feature :­این ویژگی­ها شامل: com, IP address for hostname ،

خ)Ratio feature :­این ویژگی شامل محاسبه نسبت بین کاراکتر­های و tokenها می­ شود که عبارتند از:vowel(نسبت حروف بی صدا) ،digit(نسبت حروف الفبا)، میانگین طول بین token های آدرس URL که از ۱۲ ویژگی در­اینجا استفاده می ­شود.

برای مجموعه داده یا dataset از ۶ منبع استفاده کرده ­اندکه عبارتند از:

Alexa, DMOZ ,Phishtank ,OpenPhish ,MalwareDomains ,MalwareDomainList

نکته ای که وجود دارد این است که  در کلاس بندی میزان منفی کاذب بسیار مهم تر از مثبت کاذب است و بیشتر سیستم را تحت تاثیر قرار می­ دهد. و ضرر بیشتری را به همراه دارد.آنها همچنین به محاسبه information Gain پرداختند تا میزان آنتروپی را درمحاسبه الگوریتم J48 کوچک کنند. پارامتر­های مهمی­ که به محاسبه آنها پرداخته ­اند شامل:  مثبت کاذب، منفی کاذب  و دیگر معیارهای ارزیابی است. برای کاهش میزان مثبت کاذب و منفی کاذب به میزان سازی یا tuning کلاس بندی پرداختند.


منبع:

https://ieeexplore.ieee.org/document/7237040/

نوشته های مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

تعدادی از پروژه های پرساتک