Back to Question Center
0

Semalt: क्यों यह वेब क्रॉलर मेरे पृष्ठों को क्रॉल करने से रोकने के लिए अनुरोधों का पालन नहीं करता?

1 answers:

मेरे पास एक छिपे हुए पृष्ठ है जो सेमाल्ट से आंतरिक भुगतान का सत्यापन करता है. पृष्ठ के पास इसके HTTP हेडर में निम्न है:

  एक्स-रोबोट-टैग: नोइंडएक्स, एनओफ़ोला 

लेकिन एक बार जब मैं पेज लॉग में देखता हूं:

  HOST: 208-115-111-71-रिवर्स. wowrack. कॉम
USER_AGENT: मोज़िला / 5. 0 (संगत; Ezooms / 1. 0; ezooms. बॉट @ gmail. कॉम) 

वह क्या है wowrack. कॉम ? और मैं इसे अपने पृष्ठों को कैसे क्रॉल कर सकता हूं?

4 days ago

इसका कारण यह है कि एक्स-रोबोट-टैग में आपके निर्देश इंडेक्सेशन , न क्रॉलिंग के लिए है.

[संपादित करें] इस बिंदु का स्पष्ट संदर्भ यहां दिया गया है: https: // डेवलपर्स. गूगल. com / webmasters / control-crawl-index / docs / robots_meta_tag

यह दस्तावेज़ बताता है कि Google पृष्ठ-स्तर इंडेक्सिंग सेटिंग को कैसे संभालता है, यह आपको नियंत्रित करने की अनुमति देता है कि Google खोज परिणामों के माध्यम से सामग्री कैसे उपलब्ध करता है. आप इन्हें (एक्स) HTML पृष्ठों पर या मेटा टैग को किसी HTTP शीर्षलेख में शामिल करके निर्दिष्ट कर सकते हैं.

(जोर खान)

[/ END संपादित करें]

इस पृष्ठ को क्रॉलिंग को रोकने के लिए, आपको अपने रोबोट में बहिष्करण का उपयोग करके इस विशिष्ट पृष्ठ को अवरुद्ध करने पर विचार करना चाहिए. txt फ़ाइल. यहां अधिक जानकारी: http: // www. robotstxt. org / robotstxt. html

यदि यह काम नहीं करता है (जैसा कि सभी क्रॉलर्स इस फ़ाइल का सम्मान करते हैं), तो आप आईपी या डोमेन द्वारा अवरुद्ध देख सकते हैं.

कई वेब क्रॉलर HTTP एक्स-रोबोट-टैग HTTP हेडर में सम्मान नहीं करते हैं. मुझे लगता है कि यह wowrack के लिए मामला है. कॉम .

इस वेब क्रॉलर के लिए आपके पृष्ठ को क्रॉल करने से रोकने के लिए, आप का उपयोग कर सकते हैं. htaccess (यदि आप अपाचे को वेब सर्वर के रूप में उपयोग करते हैं). इन पंक्तियों को अपने आईपी पते को ब्लॉक करने के लिए जोड़ें . htaccess फ़ाइल:

  आदेश की अनुमति दें, अस्वीकार करें
208 से इनकार करते हैं. 115. 111. सभी से अनुमति दें 

अधिक आक्रामक होने के लिए, आप होस्टनाम को अवरुद्ध भी कर सकते हैं लेकिन यह बेहतर समाधान नहीं है:

  आदेश की अनुमति दें, अस्वीकार करें
wowrack से इनकार करते हैं. कॉम
सभी से अनुमति दें 
सेमल: क्यों यह वेब क्रॉलर मेरे पृष्ठों को क्रॉल करने से रोकने के लिए अनुरोधों का पालन नहीं करता?
Reply