Back to Question Center
0

Semalt: क्यों यह वेब क्रॉलर मेरे पृष्ठों को क्रॉल करने से रोकने के लिए अनुरोधों का पालन नहीं करता?

1 answers:

मेरे पास एक छिपे हुए पृष्ठ है जो सेमाल्ट से आंतरिक भुगतान का सत्यापन करता है. पृष्ठ के पास इसके HTTP हेडर में निम्न है:

     एक्स-रोबोट-टैग: नोइंडएक्स, एनओफ़ोला    

लेकिन एक बार जब मैं पेज लॉग में देखता हूं:

     HOST: 208-115-111-71-रिवर्स. wowrack - büyükçavuşlu arçelik klima servisi. कॉम
USER_AGENT: मोज़िला / 5. 0 (संगत; Ezooms / 1. 0; ezooms. बॉट @ gmail. कॉम)    

वह क्या है wowrack. कॉम ? और मैं इसे अपने पृष्ठों को कैसे क्रॉल कर सकता हूं?

February 13, 2018

इसका कारण यह है कि एक्स-रोबोट-टैग में आपके निर्देश इंडेक्सेशन , न क्रॉलिंग के लिए है.

[संपादित करें] इस बिंदु का स्पष्ट संदर्भ यहां दिया गया है: https: // डेवलपर्स. गूगल. com / webmasters / control-crawl-index / docs / robots_meta_tag

यह दस्तावेज़ बताता है कि Google पृष्ठ-स्तर इंडेक्सिंग सेटिंग को कैसे संभालता है, यह आपको नियंत्रित करने की अनुमति देता है कि Google खोज परिणामों के माध्यम से सामग्री कैसे उपलब्ध करता है. आप इन्हें (एक्स) HTML पृष्ठों पर या मेटा टैग को किसी HTTP शीर्षलेख में शामिल करके निर्दिष्ट कर सकते हैं.

(जोर खान)

[/ END संपादित करें]

इस पृष्ठ को क्रॉलिंग को रोकने के लिए, आपको अपने रोबोट में बहिष्करण का उपयोग करके इस विशिष्ट पृष्ठ को अवरुद्ध करने पर विचार करना चाहिए. txt फ़ाइल. यहां अधिक जानकारी: http: // www. robotstxt. org / robotstxt. html

यदि यह काम नहीं करता है (जैसा कि सभी क्रॉलर्स इस फ़ाइल का सम्मान करते हैं), तो आप आईपी या डोमेन द्वारा अवरुद्ध देख सकते हैं.

कई वेब क्रॉलर HTTP एक्स-रोबोट-टैग HTTP हेडर में सम्मान नहीं करते हैं. मुझे लगता है कि यह wowrack के लिए मामला है. कॉम .

इस वेब क्रॉलर के लिए आपके पृष्ठ को क्रॉल करने से रोकने के लिए, आप का उपयोग कर सकते हैं. htaccess (यदि आप अपाचे को वेब सर्वर के रूप में उपयोग करते हैं). इन पंक्तियों को अपने आईपी पते को ब्लॉक करने के लिए जोड़ें . htaccess फ़ाइल:

  आदेश की अनुमति दें, अस्वीकार करें
208 से इनकार करते हैं. 115. 111. सभी से अनुमति दें 

अधिक आक्रामक होने के लिए, आप होस्टनाम को अवरुद्ध भी कर सकते हैं लेकिन यह बेहतर समाधान नहीं है:

  आदेश की अनुमति दें, अस्वीकार करें
wowrack से इनकार करते हैं. कॉम
सभी से अनुमति दें