apache spark - स्पार्क के लिए मुझे किस क्लस्टर प्रकार का चयन करना चाहिए?




apache-spark yarn (3)

मुझे लगता है कि स्पार्क पर काम करने वालों को जवाब देना सबसे अच्छा लगता है। तो, लर्निंग स्पार्क से

यदि यह एक नई तैनाती है, तो स्टैंडअलोन क्लस्टर के साथ प्रारंभ करें। स्टैंडअलोन मोड सेट करना सबसे आसान है और यदि आप केवल स्पार्क चला रहे हैं तो अन्य क्लस्टर प्रबंधकों के रूप में लगभग सभी सुविधाएँ प्रदान करेंगे।

यदि आप स्पार्क को अन्य अनुप्रयोगों के साथ चलाना चाहते हैं, या समृद्ध संसाधन शेड्यूलिंग क्षमताओं (जैसे कतारें) का उपयोग करना चाहते हैं, तो YARN और मेसोस दोनों ये सुविधाएँ प्रदान करते हैं। इनमें से, YARN संभवतः कई Hadoop वितरण में पूर्वस्थापित किया जाएगा।

YARN और स्टैंडअलोन मोड दोनों पर मेसोस का एक लाभ इसका ठीक-ठाक साझाकरण विकल्प है, जो स्पार्क शेल जैसे इंटरैक्टिव अनुप्रयोगों को कमांड के बीच अपने सीपीयू आवंटन को कम करता है। यह उन वातावरणों में आकर्षक बनाता है जहां कई उपयोगकर्ता इंटरैक्टिव गोले चला रहे हैं।

सभी मामलों में, स्टोरेज पर तेज पहुंच के लिए एचडीएफएस के समान नोड्स पर स्पार्क को चलाना सबसे अच्छा है। आप मेसोस या स्टैंडअलोन क्लस्टर मैनेजर को एक ही नोड पर मैन्युअल रूप से स्थापित कर सकते हैं, या अधिकांश Hadoop वितरण पहले से ही YARN और HDFS को एक साथ स्थापित कर सकते हैं।

मैं अपाचे स्पार्क के लिए नया हूं, और मैंने अभी सीखा कि स्पार्क तीन प्रकार के क्लस्टर का समर्थन करता है:

  • स्टैंडअलोन - मतलब स्पार्क अपने स्वयं के क्लस्टर का प्रबंधन करेगा
  • YARN - Hadoop के YARN संसाधन प्रबंधक का उपयोग करना
  • मेसोस - अपाचे की समर्पित संसाधन प्रबंधक परियोजना

चूंकि मैं स्पार्क में नया हूं, इसलिए मुझे लगता है कि मुझे पहले स्टैंडअलोन की कोशिश करनी चाहिए। लेकिन मुझे आश्चर्य है कि कौन सा अनुशंसित है। कहते हैं, भविष्य में मुझे एक बड़ा क्लस्टर (सैकड़ों उदाहरण) बनाने की जरूरत है, मुझे किस क्लस्टर प्रकार पर जाना चाहिए?


मेसोस में अधिक परिष्कृत शेड्यूलिंग डिज़ाइन है, जिससे स्पार्क जैसे एप्लिकेशन इसके साथ बातचीत कर सकते हैं। यह आज अनुप्रयोगों की विविधता के लिए अधिक उपयुक्त है। मुझे यह साइट वास्तव में बहुत आनंददायक लगी:

https://www.oreilly.com/ideas/a-tale-of-two-clusters-mesos-and-yarn

"... YARN को Hadoop की समय-सारणी के लिए अनुकूलित किया गया है, जो ऐतिहासिक (और अभी भी आम तौर पर) लंबे समय के साथ बैच की नौकरियां हैं। इसका मतलब है कि YARN को लंबे समय तक चलने वाली सेवाओं के लिए डिज़ाइन नहीं किया गया था, और न ही अल्पकालिक संवादात्मक प्रश्नों के लिए (जैसे छोटे) और फास्ट स्पार्क जॉब्स), और जब यह संभव हो तो अन्य प्रकार के वर्कलोड को शेड्यूल करना संभव है, यह एक आदर्श मॉडल नहीं है। संसाधन की मांग, निष्पादन मॉडल, और MapReduce की वास्तु संबंधी मांगें लंबे समय से चलने वाली सेवाओं से बहुत अलग हैं, जैसे वेब सर्वर या SOA एप्लिकेशन या वास्तविक समय के वर्कलोड जैसे स्पार्क या स्टॉर्म के रूप में ... "


स्पार्क स्टैंडअलोन मैनेजर : स्पार्क के साथ शामिल एक साधारण क्लस्टर मैनेजर जो क्लस्टर स्थापित करना आसान बनाता है। डिफ़ॉल्ट रूप से, प्रत्येक एप्लिकेशन क्लस्टर में उपलब्ध सभी नोड्स का उपयोग करता है।

स्टैंडअलोन और मेसोस पर यार्न के कुछ benefits :

  1. YARN आपको सभी चौखटों के बीच क्लस्टर संसाधनों के समान पूल को गतिशील रूप से साझा करने और केंद्रीय रूप से कॉन्फ़िगर करने की अनुमति देता है।

  2. आप वर्कलोड को वर्गीकृत करने, अलग करने और प्राथमिकता देने के लिए YARN अनुसूचियों की सभी विशेषताओं का लाभ उठा सकते हैं।

  3. स्पार्क स्टैंडअलोन मोड को क्लस्टर में प्रत्येक नोड पर एक निष्पादक को चलाने के लिए प्रत्येक एप्लिकेशन की आवश्यकता होती है; YARN के साथ, आप उपयोग करने के लिए निष्पादकों की संख्या चुनते हैं

  4. YARN सीधे आपके अनुरोधों में रैक और मशीन इलाके को संभालता है, जो सुविधाजनक है।

  5. मेसोस में संसाधन अनुरोध मॉडल, अजीब तरह से, पीछे की ओर है। YARN में , आप (ढांचा) किसी दिए गए विनिर्देशन के साथ कंटेनरों का अनुरोध करते हैं और स्थानीयता को प्राथमिकता देते हैं। मेसोस में आपको संसाधन "ऑफ़र" मिलते हैं और अपनी स्वयं की शेड्यूलिंग नीति के आधार पर उन लोगों को स्वीकार या अस्वीकार करने के लिए चुनते हैं। मेसोस मॉडल यकीनन अधिक लचीला है, लेकिन रूपरेखा को लागू करने वाले व्यक्ति के लिए प्रतीत होता है कि अधिक काम करता है।

  6. यदि आपके पास पहले से ही एक बड़ा Hadoop क्लस्टर है, तो YARN बेहतर विकल्प है।

  7. स्टैंडअलोन प्रबंधक के लिए आवश्यक है कि उपयोगकर्ता साझा किए गए रहस्य के साथ प्रत्येक नोड को कॉन्फ़िगर करे। मेसस के डिफ़ॉल्ट प्रमाणीकरण मॉड्यूल, साइरस एसएएसएल को कस्टम मॉड्यूल के साथ बदल दिया जा सकता है। YARN के पास प्रमाणीकरण, सेवा स्तर प्राधिकरण, वेब कंसोल के लिए प्रमाणीकरण और डेटा गोपनीयता के लिए सुरक्षा है। Hadoop प्रमाणीकरण Kerberos का उपयोग यह सत्यापित करने के लिए करता है कि प्रत्येक उपयोगकर्ता और सेवा Kerberos द्वारा प्रमाणित है।

  8. सभी तीन क्लस्टर प्रबंधकों द्वारा उच्च उपलब्धता की पेशकश की जाती है, लेकिन Hadoop YARN को एक अलग चिड़ियाघरकीपर विफलता नियंत्रक चलाने की आवश्यकता नहीं है।

उपयोगी कड़ियाँ:

spark प्रलेखन पृष्ठ

agildata लेख





apache-spark-standalone