file - अन्य प्रारूपों की तुलना में भोज प्रारूप के पेशेवरों और विपक्ष क्या हैं?




hadoop hdfs (2)

अपाचे लकड़ी की छत के लक्षण हैं:

  • स्व का वर्णन
  • स्तंभकार प्रारूप
  • भाषा-स्वतंत्र

एवरो, सीक्वेंस फाइल्स, आरसी फाइल आदि की तुलना में मैं प्रारूपों का अवलोकन चाहता हूं। मैंने पहले ही पढ़ा है: हादोप फाइल फॉर्मेट्स के साथ इम्पाला कैसे काम करता है , यह प्रारूपों पर कुछ जानकारी देता है, लेकिन मैं यह जानना चाहूंगा कि इनमें से प्रत्येक प्रारूप में डेटा का संग्रहण और डेटा का उपयोग कैसे किया जाता है। दूसरों पर भोज का एक फायदा कैसे है?


एवरो हाडोप के लिए एक पंक्ति-आधारित भंडारण प्रारूप है।

Parquet Hadoop के लिए एक स्तंभ-आधारित संग्रहण प्रारूप है।

यदि आपका उपयोग मामला आमतौर पर प्रत्येक क्वेरी में एक पंक्ति में सभी फ़ील्ड्स को स्कैन या पुनर्प्राप्त करता है, तो एवरो आमतौर पर सबसे अच्छा विकल्प होता है।

यदि आपके डेटासेट में कई कॉलम हैं, और आपके उपयोग के मामले में आम तौर पर पूरे रिकॉर्ड के बजाय उन कॉलम के सबसेट के साथ काम करना शामिल है, तो उस तरह के काम के लिए Parquet अनुकूलित है।

Source


टॉम का जवाब काफी विस्तृत और विस्तृत है, लेकिन आप इस साधारण अध्ययन में रुचि भी ले सकते हैं, Allstate Insurance में किए गए Parquet vs Avro के बारे में, यहाँ संक्षेप में प्रस्तुत किया गया है:

"कुल मिलाकर, Parquet ने प्रत्येक परीक्षण [Avro] की तुलना में समान या बेहतर परिणाम दिखाए। Parquet के पक्ष में बड़े डेटासेट पर क्वेरी-प्रदर्शन अंतर आंशिक रूप से संपीड़न परिणामों के कारण हैं; जब व्यापक डेटासेट को क्वेरी करते हुए, स्पार्क को 3.5x पढ़ना था; एवरो की तुलना में Parquet के लिए कम डेटा। पूरे डेटासेट को संसाधित करते समय एवरो ने अच्छा प्रदर्शन नहीं किया, जैसा कि संदिग्ध था। "





parquet