सेमल्ट: Google Chrome एक्सटेंशन का उपयोग करके वेब पेज को कैसे परिमार्जन करें

स्क्रीन स्क्रैपर एक स्क्रिप्ट है जो साइटों को पढ़ती है और वेब से उपयोगी जानकारी निकालती है। स्क्रीन स्क्रैपिंग वेबसाइटों और वेब पेजों से लेकर Microsoft Excel तक वास्तविक डेटा प्राप्त करने का अंतिम समाधान है। Google क्रोम एक्सटेंशन स्क्रैपर एक शक्तिशाली स्क्रीन स्क्रैपिंग टूल है जो विंडोज और मैक ओएस दोनों पर काम करता है।

Google Chrome एक्सटेंशन स्क्रैपर क्यों?

Google Chrome एक्सटेंशन स्क्रेपर एक जबरदस्त स्क्रीन स्क्रैपिंग टूल है जो Chrome वेब स्टोर पर मुफ़्त में जा रहा है। यह स्क्रैपिंग टूल एक प्लगइन के रूप में क्रोम ब्राउज़र में स्थापित है। प्लगइन एक तत्व पर राइट क्लिक करके वेब पेज से ब्लॉगर्स और मार्केटर्स को डेटा पुनर्प्राप्त करने की अनुमति देता है। यदि आप किसी तत्व को राइट-क्लिक करते हैं, तो स्क्रीन पर 'स्क्रैप समान' को पॉप अप करना चाहिए।

XPaths का परिचय

XPath एक प्रोग्रामिंग भाषा है जिसका उपयोग XML संरचनाओं में महत्वपूर्ण जानकारी खोजने के लिए किया जाता है। HTML फ़ाइल XML संरचना का एक उत्कृष्ट उदाहरण है। XPath आमतौर पर लक्षित नोड्स का चयन करने के लिए उपयोग किया जाता है। इस संदर्भ में, XPaths का उपयोग वेब पृष्ठ पर निकाले जाने वाले पाठ को निर्धारित करने के लिए किया जाएगा। XPaths पार्टी के नाम और स्वीडिश सांसदों के फोन नंबर की पहचान करने में मदद करेंगे।

349 स्वीडिश सांसदों के पते के विवरण तक पहुंचने के लिए Google Chrome के स्क्रैपर का उपयोग करना

Chrome के स्क्रैपर के साथ, वेब पेज से जानकारी निकालना न केवल सरल है, बल्कि शानदार भी है। आप इस प्रक्रिया और तकनीक का आनंद लेंगे।

वेबसाइट सभी स्वीडिश सदस्यों और उनके पते सूचीबद्ध करती है। आरंभ करने के लिए, किसी भी एमपी पर राइट क्लिक करें और "स्क्रैप समान" चुनें। आपको अपनी स्क्रीन पर निम्न प्रदर्शन देखना चाहिए।

वेब पेज को परिमार्जन करने के तरीके के बारे में स्टेप बाय स्टेप गाइड

यदि आप एक एमपी पर राइट-क्लिक करते हैं और "इंस्पेक्ट एलिमेंट" का चयन करते हैं, तो "ग्रिड_6 अल्फा ओमेगा सर्च रिजल्ट कंटेनर क्लिस्ट" क्लास के तहत एक अल्फाबेटिकल लिस्ट बनाई जाएगी। इस वेब पेज को खंगालने के लिए दो चरणों का इस्तेमाल किया जाएगा। चरण एक का चयन करना शामिल होगा। एक्सपीथ के साथ एमपी डेटा के टैग शामिल हैं। चरण दो में पार्टी के नाम, नाम और फोन नंबर जैसे डेटा के विशिष्ट भागों को शामिल करना और कॉलम में डेटा को व्यवस्थित करना शामिल है।

चरण 1

HTML संरचना में गहराई से खोदें और तत्वों को बरकरार रखें। अपनी संरचना के तत्वों के साथ टैग की संख्या की पहचान करने के लिए टैग इंगित करें। लक्षित डेटा वाले अंतिम टैग की पहचान करें। "स्क्रैप" पर क्लिक करके संरचना पर एक XPath परीक्षण चलाएं।

349 पंक्तियों वाली एक सूची आपकी स्क्रीन पर प्रदर्शित होगी। 349 स्वीडिश सांसदों की कुल संख्या का प्रतिनिधित्व करते हैं।

चरण 2

प्रस्तुत डेटा को कॉलम में विभाजित करें। आपके द्वारा उपयोग किए जा रहे वेबपेज पर HTML कोड का निरीक्षण करें। इस मामले में, निकाले जाने वाले टुकड़े इस समय पीले रंग में हाइलाइट किए गए हैं। निर्मित किए गए कॉलम फ़ील्ड में XPaths डालें और प्लगइन को चलाने के लिए "स्क्रैप" पर क्लिक करें।

यदि आपको XPaths का बुनियादी ज्ञान है, तो प्रोग्रामिंग को समझना आपके लिए एक कठिन कार्य नहीं होगा। उपरोक्त हाइलाइट किए गए चरण आपको वेब पेज को परिमार्जन करने के तरीके के बारे में बताते हैं। यदि आप कई वेब पृष्ठों को स्क्रैप करने पर काम कर रहे हैं, तो आपके पास प्रोग्रामिंग कौशल होना चाहिए।

mass gmail