سلام

۱ مطلب در مهر ۱۳۹۱ ثبت شده است

شناسایی هرزنوشته ها

شنبه, ۲۹ مهر ۱۳۹۱، ۰۴:۵۷ ب.ظ

شاید تا کنون در هنگام جستجوی خود به سایتهای برخورد کرده اید که موتورهای جستجو آنها را به عنوان یک نتیجه مناسب معرفی می کنند ولی محتوای آنها هیچ ارتباطی با درخواست شما ندارند و عموما پر از تبلیغات است. اصطلاحا به اینگونه صفحات هرزنوشته گفته می شود. به عبارت دیگر هرزنوشته (‌اسپم)‌ به صفحه ای گفته می شود که از تکنیکهای فریب موتورهای جستجو استفاده کرده و نتایج نامربوط به درخواست کاربر و عموما تبلیغاتی را نمایش می دهند. 
تیم تحقیقاتی سلام با بررسی دقیق نمونه های مختلفی از سایتهای هرزنوشته و غیرهرزنوشته،‌ حدود ۱۰۰ عامل را برای شناسایی صفحات اسپم از غیر اسپم مفید تشخیص داد. سپس تعداد زیادی صفحه توسط عده ای از دانشجویان با دو عنوان اسپم و غیر اسپم علامتگذاری شد. حاصل این علامتگذاری یک مجموعه از سایتهای اسپم و یک مجموعه از سایتهای غیر اسپم بود.

در مرحله بعد این داده ها به عنوان داده آموزشی به چند classifier مختلف داده شد تا اهمیت هر عامل را در شناسایی صفحات اسپم مشخص شود. از ترکیب چهار classifier مختلف، یک مدل هوشمند برای شناسایی صفحات هرزنوشته ساخته شد. این مدل بازهم توسط تعداد زیادی صفحات جدید به صورت نیمه-نظارتی دقیقتر شد. حال از این مدل برای شناسایی خودکار صفحات اسپم با دقت بسیار خوبی استفاده می شود. بدیهی است با افزایش داده های آموزشی، ممکن است تشخیص مدل کمی تغییر کند.