السلام عليكم.
أشكر الأخ [سجل الدخول لترى الرابط]على هذا التساؤل التي طرحه. وأشكرك أيضاً أخي علي على مجهودك. أنا أيضاً لدي ملاحظات وحلول جدرية أو نسبية.
هذه المواقع تعتمد على محتوى منسوخ أو مركب من عدة مواقع للتصدر. يعني أنها تفهم جيداً كيفية عمل محرك البحث جوجل وتعمل على إيجاد الثغرات دائماً. كل المحتوى على هذه المواقع ستجده إما منسوخ من مقال واحج أو مقال واحد يجتمع فيه محتوى مع عدة مقالات أو من جميع المقالات التي تظهر في الصفحة الأولى من جوجل.
بهذا، يمكننا القول أن كل المحتوى يتم سحبه وإعادة هيكلة ومن ثم نشره بنفس العناوين ونفس الفقرات.
من أشهر السكرابيرز هي Scrapy و MechanicalSoup و WebScarab و MobSF
في الووردبريس هناك خاصيتان للتحكم في عملية سحب المستوى: على العموم الووردبريس يتيح سحب المحتوى بطريقتين هما RSS feeds و ATOM feeds واحدة مخصصة للمحتوى RSS FEED وواحة مخصصة للفهرسة وهيكلة الموقع ATOM Feefs وهي عبرة عن XML أو HTML.
لتعطيب Rss Feeds نقوم بإضافة المود التالي إلى function.php
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود تسجيل الدخول لعرض الكود تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
تسجيل الدخول لعرض الكود
أما تعطيل atom فلا يُنصح بذلك.
هذه الطريقة المذكوة أعلاه قد تكون مجدية في بعض الحالات، ولكنها بالطبع لن تنجح إلا مع من يستخدمون feed لسحب المحتوى. أما web scraping أو الزحف للمحتوى وعمل سكرابين فلن تجدي.
للتعامل مع الويب سكرابين هناك طريقتين أيضا:
1.جمع الأيبيات ip الخاصة بالمواقع والروبوتات التي تزحف للموقع لعمل سكرابين وحظرها
هذه المواقع التي تنشر هذا المحتوى وتتصدر تعتمد على بوت مُصمم لسحب المحتوى. هذا البوت قد يكون موجود على نفس الموقع وقد يكون موجود على سيرفر أو موقع أو دومين آخر. يعني عند عليك جميع الأيبيات الخاصة بالموقع وبالبوت أيضاً.
لعمل هذا نحتاج إلى تصميم سكريبت python أو بي اتس بي يقوم بقراءة أيبي الزائر مهما كانت طبيعته. سواء كان بوت تابع لجوجل أو غيرها من الأخيار ههه أو بوت هذه المواقع أو أيبي الزائر.
عندما يدخل أيُ زائر يمت التأكد أنه ليس بوت جوجل أو من الأخيار ( إنشاء قائمة بهم)، وإذا كان بوت مشكوك فيه غير تابع لجهة معروفة يتم حظره ويمكن إظهار صفحة فارغة له.
الخظر يتم إما عن طريق .htaccess أو عن طريق الاستضافة الخاصة بك.
قائمة الأيبيات البوتات الخاصة بجوجل كلها وبينغ وغيرها يجب أن تكون متوفرة لمن يرد عم هذا السكريب. وكذلك يجب أن يحصل على قائمة الأيبيات المظورة عالميا والمعروفة على أنها لمواقع والتهكير.
بيعا رغم أن العملية بسيطة إلا أنه لا ينصح بهذه الطريقة إلا للمتمكنين والخبراء. أي شخص لديه الفكرة فقط لا يتم لفعل هذا.
هناك حل آخر نسبي وهو تعطيل REST APIs ، هذه الميزة رائعة في الوودبريس لكن من لا يستخدمها قد تتسبب في أشياء جد سيئة لموقعه.
REST APIs هي ميزة يمكنك أي شخص يصل الموقع بأي طريقة خصوصا إذا كان أدمين أو فقد شخص مصرح له بالدخول يمكنك تفعيها وأخد المعطيات, وفي النهاية يعتمد عليها لعمل السكرابين نقي.
الكود المناسب لتعطيلها هو:
function qode_disable_rest_api( $access ) {
return new WP_Error( 'rest_disabled', __( 'The WordPress REST API has been disabled.' ), array( 'status' => rest_authorization_required_code() ) );
}
add_filter( 'rest_authentication_errors', 'qode_disable_rest_api' );
طلبعاً لا أنصج بتعطيل REST APIs للمواقع المتوسطة والكبيرة.
كل ما ذكر أعلاه هو جيد وممتاز ولكن كما تلاحظ غير عملي خصوصا للمبتدئين أو لا ينصح ببعضها، فما الحل؟
هناك حلول أخرى وهي:
- تحديد سقف لعدد الطلابات لكل أي بي ( مثلا طلب كل 30 ثانية على الأقل)
- إخفاء المحتوى خلف CAPTCHAs ، الزائر العدي فقط من يمكنه الدخول.
- احظر طلبات الزحف على الويب باستخدام ملف robots.txt ( يبقى الكود مجرد سطر لأن الربوتات لن تحترمه حتى لإنه ملف إرشادي ولا يمنع)
- الاستعانة بإضافة أمن ثمل securi لتحكم في الأشياء الأعلاه ولو جزئيا.
- حظر الأيبيات الخاصة بدولة أو منطقة معية ( خصوصا إذا لم يكن لديك زوار من هذا البلد، مثلا معضم المواقع التي تصدرت مأخراُ وتعمل بالسكرابين في إما امتدادها .FR أز .es i ، إذا لم يكن لديك زوار من هذه البدان فم بحظرها كلها) وهذا يبقى أفضل حل.
ملاحظة: رغم أن السكرابين يشكل مشكل للعديد من الأشخاص والمواقع إلا أنه يبقى مفيد أحيانا. مثلا. ahrefs و سيم راش وجين رانك ويوست سيو وموز وشات جي بي تي وجميع أدوات التسويق والذكاء الإصطناعي تعمل به رغم أنها لا تنشره، ولكن تعمل سكرابين في قواعد البيانيات لعمل البحوث والمقارانات والفهرية ودراسة المحتوى وتدريب الذكاءات الإصطناعية وربوتات الدردشة المستلقة والروبوتات الآلية.
أعتذر عن الإطالة، وأعتذر عن أي خطأ لغوي أو معرفي.