selenium - हेडलेस ब्राउज़र और स्क्रैपिंग-समाधान




web-scraping scrapy (2)

जेएस-आधारित सेलेनियम का एक प्रकार Dalek.js । यह न केवल स्वचालित फ्रंटेंड-टेस्ट का लक्ष्य रखता है, आप इसके साथ स्क्रीनशॉट भी कर सकते हैं। इसमें सभी महत्वपूर्ण ब्राउज़रों के लिए वेबड्राइवर हैं। दुर्भाग्यवश उन वेबड्राइवरों में सुधार करने लायक लग रहा है (केवल फ़ायरफ़ॉक्स में "छोटी गाड़ी" नहीं कहें)।

मैं स्क्रैप करने में सक्षम ब्राउज़र स्वचालित परीक्षण सूट और हेडलेस ब्राउज़र प्लेटफॉर्म के लिए संभावित समाधानों की सूची डालने की कोशिश कर रहा हूं।

ब्राउजर परीक्षण / स्क्रैपिंग:

  • सेलेनियम - ब्राउज़र स्वचालन में पॉलीग्लोट फ्लैगशिप, पाइथन, रूबी, जावास्क्रिप्ट, सी #, हास्केल और अधिक के लिए बाइंडिंग, फ़ायरफ़ॉक्स के लिए आईडीई (विस्तार के रूप में) तेजी से परीक्षण परिनियोजन के लिए। एक सर्वर के रूप में कार्य कर सकते हैं और इसमें कई सुविधाएं हैं।

JAVASCRIPT

  • PhantomJS - जावास्क्रिप्ट , स्क्रीन कैप्चर और ऑटोमेशन के साथ हेडलेस परीक्षण, वेबकिट का उपयोग करता है। संस्करण 1.8 सेलेनियम की वेबड्राइवर एपीआई लागू की गई है, इसलिए आप किसी भी वेबड्राइवर बाध्यकारी का उपयोग कर सकते हैं और परीक्षण सेलेनियम के साथ संगत होंगे
  • SlimerJS - SlimerJS समान, वेबकिट के बजाए गेको (फ़ायरफ़ॉक्स) का उपयोग करता है
  • CasperJS - जावास्क्रिप्ट , दोनों फैंटॉमजेएस और स्लिमरजेएस पर निर्मित, इसमें अतिरिक्त सुविधाएं हैं
  • भूत चालक - फैंटॉमजेएस के लिए वेबड्राइवर वायर प्रोटोकॉल का जावास्क्रिप्ट कार्यान्वयन।
  • नया PhantomCSS - सीएसएस रिग्रेशन परीक्षण। फैंटॉमजेएस और Resemble.js के साथ दृश्य प्रतिगमन परीक्षण स्वचालित करने के लिए एक CasperJS मॉड्यूल।
  • नया WebdriverCSS - विजुअल रिग्रेशन परीक्षण स्वचालित करने के लिए Webdriver.io के लिए प्लगइन
  • नया PhantomFlow - परीक्षण के माध्यम से उपयोगकर्ता प्रवाह का वर्णन और कल्पना करें। वेब उपयोगकर्ता इंटरफ़ेस परीक्षण के लिए एक प्रयोगात्मक दृष्टिकोण।
  • नया trifleJS - इंटरनेट एक्सप्लोरर इंजन का उपयोग करने के लिए PhantomJS एपीआई बंदरगाहों।
  • नया कैस्परजेएस आईडीई (वाणिज्यिक)

Node.js

  • Node-phantom - PhantomJS और node.js के बीच का अंतर पुल
  • WebDriverJs - सेलेनियम वेबड्राइवर बाइंडिंग सेलेनियम टीम द्वारा node.js के लिए
  • WD.js - WD.js / सेलेनियम 2 के लिए नोड मॉड्यूल
  • yiewd - WD.js रैपर नवीनतम सद्भाव जनरेटर का उपयोग कर! उपज के साथ कॉलबैक पिरामिड से छुटकारा पाएं
  • ZombieJs - node.js का उपयोग कर बेहद तेज़, हेडलेस पूर्ण-स्टैक परीक्षण
  • NightwatchJs - सेलेनियम वेबड्राइवर का उपयोग कर नोड जेएस आधारित परीक्षण समाधान
  • Chimera - चिमेरा: सब कुछ कर सकता है जो phantomJS करता है, लेकिन एक पूर्ण जेएस पर्यावरण में
  • Dalek.js - सेलेनियम वेबड्राइवर के माध्यम से जावास्क्रिप्ट के साथ स्वचालित क्रॉस ब्राउज़र परीक्षण
  • Webdriver.io - पूर्वनिर्धारित 50+ कार्यों के साथ वेबड्राइवर बाइंडिंग का बेहतर कार्यान्वयन
  • Nightmare - एक उच्च स्तरीय एपीआई के साथ इलेक्ट्रॉन पुल।
  • jsdom - वेब स्क्रैपिंग की ओर तैयार किया गया। Node.js में लागू एक बहुत हल्का डीओएम, यह जावास्क्रिप्ट वाले पृष्ठों का समर्थन करता है।

वेब स्क्रैपिंग / खनन

  • स्केपर - पायथन , मुख्य रूप से एक स्क्रैपर / खनिक - तेज़, अच्छी तरह से प्रलेखित और, अच्छा खनन तैनाती के लिए Django गतिशील स्क्रैपर से जोड़ा जा सकता है, या पाएएस (सर्वर-कम) परिनियोजन के लिए स्केपर क्लाउड , टर्मिनल में काम करता है या सर्वर स्टैंड-अलोन प्रोसेस , मुर्गी के शीर्ष पर बनाया गया Celery के साथ इस्तेमाल किया जा सकता है
  • Snailer - node.js मॉड्यूल, अभी तक untested।
  • Node-Crawler - node.js मॉड्यूल, अभी तक untested।

ऑनलाइन उपकरण

  • नया ऑनलाइन HTTP क्लाइंट - समर्पित SO उत्तर
  • मृत कैस्परबॉक्स - ऑनलाइन कैस्परजेएस स्क्रिप्ट चलाएं

संबंधित लिंक और संसाधन

प्रशन:

  • कोई शुद्ध नोड.जेएस समाधान या नोडजेस फेंथॉमजेएस / कैस्परजेएस मॉड्यूल जो वास्तव में काम करता है और दस्तावेज किया जाता है?

उत्तर: चिमेरा उस दिशा में जाना प्रतीत होता है, चेकआउट Chimera

  • सेलेनियम की तुलना में आसान जावास्क्रिप्ट इंजेक्शन करने में सक्षम अन्य समाधान?

  • क्या आप किसी शुद्ध रूबी समाधान जानते हैं?

उत्तर: रूबी आधारित समाधानों के साथ आरजेके द्वारा बनाई गई सूची को चेकआउट करें

  • क्या आप किसी भी संबंधित तकनीक या समाधान जानते हैं?

इस सवाल को दोबारा मुक्त करने के लिए स्वतंत्र महसूस करें और अपनी इच्छानुसार सामग्री जोड़ें! आपके योगदानों के लिए धन्यवाद!

अपडेट

  1. सूची में SlimerJS जोड़ा
  2. Snailer और Node-Crawler और Node-phantom जोड़ा गया
  3. yiewd WebDriver yiewd जोड़ा गया
  4. जोड़ा WebDriverJs और WD.js
  5. भूत चालक जोड़ा
  6. स्क्रीन स्क्रैपर ब्लॉग पर वेबक्रैपिंग सॉफ्टवेयर का संपीड़न जोड़ा गया
  7. जोड़ा ZombieJs
  8. PhantomFlow और PhantomCSS और PhantomFlow , वर्गीकृत और पुन: सामग्री सामग्री जोड़ा
  9. 04.01.2014, Chimera ने दो सवालों का जवाब दिया
  10. जोड़ा NightwatchJs
  11. जोड़ा Dalek.js
  12. जोड़ा WebdriverCSS
  13. जोड़ा कैस्परबॉक्स
  14. जोड़ा trifleJS
  15. कैस्परजेएस आईडीई जोड़ा गया
  16. Nightmare जोड़ा
  17. जोड़ा jsdom
  18. ऑनलाइन HTTP क्लाइंट जोड़ा गया, अद्यतन कैस्परबॉक्स (मृत)

यदि रूबी आपकी बात है, तो आप यह भी कोशिश कर सकते हैं:

भी, नोकोगिरी मणि का उपयोग स्क्रैपिंग के लिए किया जा सकता है:

पैकिंग प्रकाशन द्वारा स्क्रैपिंग के लिए नोकोगिरी का उपयोग करने के तरीके के बारे में एक समर्पित पुस्तक है





casperjs