استفاده از مدل n-gram برای تشخیص پست های الکترونیکی مخرب

M. Darling و همکارانش یک مدل n gram برای کلاس بندی آدرسهای مخرب URL در حملات فیشینگ توسعه دادند. وبه میزان دقت ۹۹٫۱ درصد و نرخ مثبت کاذب به میزان۰٫۴درصد رسیدند. به عبارتی دیگر از مدل n gram برای محاسبه رخداد کاراکترها در آدرسهای URL استفاده کرده اند و آنها از ۸۷ ویژگی URL برای کلاس بندی استفاده کرده و به گروههای lengths, counts, binaries, ratios تقسیم بندی کرده اند و برای کلاس بندی از الگوریتم درخت تصمیم گیری استفاده کرده اند.

در روش استاتیک براساس آدرس URL و محتوا وب سایت بدون اجرا کردن آن به کلاس بندی می پردازد اما این روش موفقیت محدودی دارد و نتایج پیچیده ای را در برخواهد داشت. الگوریتم یاد گیری ماشین به تنهایی قادر است بالاترین میزان دقت یا accuracy را داشته باشد و با آنالیز آدرس URL به شناسایی محتوای مخرب بپردازد. دراین کار تحقیقاتی آنها از ویژگیهای lexical به همراه یک مدل bag-of-word استفاده کرده اند که نتیجه آن یک بردار ویژگی بزرگ می باشد به عبارتی دیگر دراین پژوهش از ویژگیهای آدرسURL به همراه اطلاعات hosting استفاده شده است که با مراجعه به remote server به دست می آید.

آنها دراین کار پژوهشی راه حلی را ارائه داده اند که بر اساس مدل n-gram عمل خواهد کرد و یک سیستم کلاس بندی جدیدی را ارائه می دهد. آنها از الگوریتم درخت تصمیم J48 برای کلاس بندی ویژگیهای استخراج شده از مدل n-gram استفاده کرده اند.

الگوریتم J48 یک اجرا open source از الگوریتم C4.5 می باشد و در برابر الگوریتم هایی نظیر Naïve Bayes، Bayesian Logistic Regression ، Logistic Regression، Knn دارای میزان دقت ۹۹ درصد برای مدل n-gram دارد. کلاس بندی که بر اساس آدرس URL انجام داده اند قادر است پستهای الکترونیکی فیشینگ و malware را شناسایی کند. مجموعه داده ها یا data setای که در نظر گرفته اند شامل ۱۳۱۴۰۲ آدرسURL است که ۵۰ درصد از آنها بی ضرر و ۵۰درصد دیگر مخرب می باشد.

در واقع هدف کلی آنها این است که چگونه سریع و با دقت بالا بر اساس آدرس URL به کلاس بندی وب سایتها بپردازند. بیشتر ویژگیها از کاراکترهای داخل URL استخراج می شوند بنابراین آنها به جمع آوری آدرسهایURL از لیستهای سیاه و وب سایتهای قابل اعتماد پرداختند و آنها را بر اساس مخرب و غیر مخرب بودن برچسب گذاری کردند. آنها دو نوع از آدرسهای URL را جمع آوری کردند که فیشینگ و malware نام دارد و آدرسهای URL فیشینگ معمولا با token های مخرب پر شده اند.

آنها برای جلوگیری از هدر رفتن زمان از back-of-word استفاده کرده اند و برای افزایش کارایی سیستم از مدل n-gram استفاده شده است.در واقع به دنبال مدل کردن زبان URL از مدل n-gram استفاده می کنند تا احتمال رخداد دنبالهای از کاراکترها را در آدرسهای URL به دست آورند. هرکدام از gramها میتوانند معرف لغات، شماره تماس،هجا و سایر کاراکترها باشند. ومدل n-gram از طریق الگوریتم Markov chain ساخته میشود.

Back- of-model هم برای نشانه گذاری URL استفاده میشود.به این صورت که اگر هر کدام از tokenهای آدرس URL در back-of-model وجود داشته باشد ارزش ۱ و در غیراین صورت ارزش ۰ را خواهد گرفت. زمانی که از back-of-model استفاده شد میانگین سلسله داده های آنها شامل ۱۲۲۰۰۰ ویژگی باینری بود. آدرس های URL فیشینگ از تعداد زیادی لغت و سمبل تشکیل شده اند که می توانند کاربر را فریب بدهند. آنها آدرسهای URL را به ۳قسمت hostname, path, parameter تقسیم کرده اند. هر کدام ازاین قسمتها بهtokenهای مختلف تقسیم بندی شدهاند. شکل زیر مولفه های URL را نمایش می دهد.

درحالت کلی آنها۸۷ ویژگی را گسترش داده اند و انها را به ۵ گروه تقسیم بندی کرده اند که عبارتند از: n-grams, lengths, counts, binaries, ratios.

الف) Length feature: دراینجا از ۱۰ ویژگی طول استفاده شده است که عبارتنداز:

hostname, ﬁrst-directory, URL ,path, parameters, top-level domain ,second-level domain. به همین ترتیب به محاسبه بیشترین token درhostname, path ,parameters, URL پرداختند.

ب) counting feature : تعداد رخ داد کاراکترها را شامل میشود برای مثال میتوانیم به @,_,?,=,., اعداد،حروف الفبا و… اشاره کرد که دراینجا از ۲۹ ویژگی استفاده شده.

ج)pattern feature :شامل الگوی خاصی از آدرس URL می شود که تعداد رخ داد آن الگو را بررسی می کند. برای مثال میتوان به الگو تغییر، تعداد رخ داد پیاپی یک کاراکتر، tokenهایی که بیشتر تکرار شده اند، میزان شباهتی که در black list یافت شده است، میزان تکرار در black list اشاره کرده که از ۱۵ الگو استفاده شده است.

د)binary feature :این ویژگیها شامل: com, IP address for hostname ،

خ)Ratio feature :این ویژگی شامل محاسبه نسبت بین کاراکترهای و tokenها می شود که عبارتند از:vowel(نسبت حروف بی صدا) ،digit(نسبت حروف الفبا)، میانگین طول بین token های آدرس URL که از ۱۲ ویژگی دراینجا استفاده می شود.

برای مجموعه داده یا dataset از ۶ منبع استفاده کرده اندکه عبارتند از:

Alexa, DMOZ ,Phishtank ,OpenPhish ,MalwareDomains ,MalwareDomainList

نکته ای که وجود دارد این است که در کلاس بندی میزان منفی کاذب بسیار مهم تر از مثبت کاذب است و بیشتر سیستم را تحت تاثیر قرار می دهد. و ضرر بیشتری را به همراه دارد.آنها همچنین به محاسبه information Gain پرداختند تا میزان آنتروپی را درمحاسبه الگوریتم J48 کوچک کنند. پارامترهای مهمی که به محاسبه آنها پرداخته اند شامل: مثبت کاذب، منفی کاذب و دیگر معیارهای ارزیابی است. برای کاهش میزان مثبت کاذب و منفی کاذب به میزان سازی یا tuning کلاس بندی پرداختند.

منبع:

https://ieeexplore.ieee.org/document/7237040/

نوشته های مرتبط

استفاده از مدل n-gram حملات فیشینگ

وبلاگ و اخبار