سلام

شناسایی هرزنوشته ها

شنبه, ۲۹ مهر ۱۳۹۱، ۰۴:۵۷ ب.ظ

شاید تا کنون در هنگام جستجوی خود به سایتهای برخورد کرده اید که موتورهای جستجو آنها را به عنوان یک نتیجه مناسب معرفی می کنند ولی محتوای آنها هیچ ارتباطی با درخواست شما ندارند و عموما پر از تبلیغات است. اصطلاحا به اینگونه صفحات هرزنوشته گفته می شود. به عبارت دیگر هرزنوشته (‌اسپم)‌ به صفحه ای گفته می شود که از تکنیکهای فریب موتورهای جستجو استفاده کرده و نتایج نامربوط به درخواست کاربر و عموما تبلیغاتی را نمایش می دهند. 
تیم تحقیقاتی سلام با بررسی دقیق نمونه های مختلفی از سایتهای هرزنوشته و غیرهرزنوشته،‌ حدود ۱۰۰ عامل را برای شناسایی صفحات اسپم از غیر اسپم مفید تشخیص داد. سپس تعداد زیادی صفحه توسط عده ای از دانشجویان با دو عنوان اسپم و غیر اسپم علامتگذاری شد. حاصل این علامتگذاری یک مجموعه از سایتهای اسپم و یک مجموعه از سایتهای غیر اسپم بود.

در مرحله بعد این داده ها به عنوان داده آموزشی به چند classifier مختلف داده شد تا اهمیت هر عامل را در شناسایی صفحات اسپم مشخص شود. از ترکیب چهار classifier مختلف، یک مدل هوشمند برای شناسایی صفحات هرزنوشته ساخته شد. این مدل بازهم توسط تعداد زیادی صفحات جدید به صورت نیمه-نظارتی دقیقتر شد. حال از این مدل برای شناسایی خودکار صفحات اسپم با دقت بسیار خوبی استفاده می شود. بدیهی است با افزایش داده های آموزشی، ممکن است تشخیص مدل کمی تغییر کند.


  • سید علی رکنی دزفولی

نظرات  (۱۰)

سلام علیکم
بد نیست روشی را قرار دهید که مردم نیز بتوانند به هرز نامه بودن یا نبودن یک سایت و یا یک لینک رای دهند.
چون مواردی دیده شده است که اصلا هرزنامه نیستند ولی هرزنامه گزارش شده اند.
برعکس مواردی هرزنامه اند ولی به عنوان هرز نامه گزارش نشده اسند.

مثال
با انجام سرچ زیر، لینک زیر هرزنامه گزارش می شود. در حالی که یکی از بهترین لینک های این موضوع می باشد


با تشکر
پاسخ:
تشکر از توجه شما.
مطلب مورد نظر شما در حال پیاده سازی است. ولی توجه داشته باشید که گزارش های مردمی، هیچ گاه بدون بررسی ملاک تصمیم گیری قرار نمی گیرند.

در مورد سایت مثال دقت کنید که طراحی سایت بسیار شبیه به سایتهای اسپم است. گذاشتن مطالب در موضوعات کاملا نامرتبط به هم در یک سایت، این احتمال را که محتوای سایت کپی باشد، افزایش می دهد. تبلیغات فراوان و نامرتبط به مطالب در اطراف صفحه و ... نشانه هایی از طراحی سایت های اسپم است.
توجه داشته باشید نمی توان ادعا کرد که شناسایی یک سایت به عنوان هرزنوشته همواره درست است، ولی با طراحی بهتر سایت ها احتمال هزرنوشتگی پایین می آید.

سلام / این قابلیت خیلی خوبی است که فقط من در سلام دیدم. همین قابلیت باعث شده تا سلام رو به عنوان جستجوگر انتخاب کنم / ممنون از زحماتتون

سلام خسته نباشید

نمیدونم مبنای هرز نوشته ها تون چیه ولی سایتی مثل chare.ir  رو هرزنامه تشخیص داده که درست نیست

 

 

پاسخ:
ممنون از تماس شما
این لینک جستجوی چاره است. که در آن چاره هرزنامه نیست.
http://salam.ir/results?q=chare
لطفا عبارتی که جستجو کرده اید را برای ما بفرستید
دمه شما گرم ...
در حد توانم از شما حمایت میکنم :)
ان شاء الله روز به روز ، به روز تر بشید. دعاتون میکنیم .
آیا برنامه ای برای جستجو در دامنه وبلاگ های ایرانی یا در خود blog.ir ندارید؟
با سلام
چرا اطلاع رسانی شما این اندازه ضعیفه؟
شما به این خوبی کار کردید اما وقتی کسی نمیدونه چه فایده ایداره؟
واقعا باید از شما تشکر کرد.
فقط یک چیزی در این سایت کم دارید و اون یک مترجمه متنه که جاش خیلی خالیه.
یک پیشنهاد هم من دارم شما به عنوانه اولین سایت امکانه تبدیله گفار به نوشتار رو به این محیط اضافه کنید.
سلام
تبریک میگم
فضای چشم نوازی رو خلق کردید
اطلاع رسانیتون رو بیشتر کنید
بدون شک آینده ی روشنی خواهید داشت
پایدار باشید
  • نیکی سادات دادگستر
  • کاش میشد با سلام وبلاگ ها رو هم جست و جو کرد .

    سلام وقت بخیر من قصد ثبت آدرس سایت در جستوجو گر سلام را داشتم اما با روال اون آشنا نبودم همچنین سایت ما و قسمت فروشگاهی ما در این سامانه ثبت نشده و نتیجه ای ندارند.

    ارسال نظر

    کاربران بیان میتوانند بدون نیاز به تأیید، نظرات خود را ارسال کنند.
    اگر قبلا در بیان ثبت نام کرده اید لطفا ابتدا وارد شوید، در غیر این صورت می توانید ثبت نام کنید.
    شما میتوانید از این تگهای html استفاده کنید:
    <b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">
    تجدید کد امنیتی