Hadoop के ऊपर स्ट्रीमिंग चौखटे जो ORC का समर्थन करते हैं, लकड़ी की छत फ़ाइल स्वरूपों




mapreduce hive (2)

बल्कि पुरानी खबर है, लेकिन मैं कुछ समय पहले इस के साथ संघर्ष किया। मुझे इसके लिए कोई समाधान नहीं मिला, परिणामस्वरूप, मैंने इनपुट / आउटपुट स्वरूपों का एक सेट बनाया है जो एवेरो और लकड़ी की छत फाइलों को सादे टेक्स्ट और जेसन से परिवर्तित करते हैं। यह http://github.com/whale2/iow-hadoop-streaming पर पाया जा सकता है। कोई भी ORC समर्थन नहीं है, लेकिन Avro और लकड़ी की छत समर्थित हैं। उम्मीद है की यह मदद करेगा।

क्या हडोप स्ट्रीमिंग नए कॉलमार स्टोरेज प्रारूपों को ओआरसी और लकड़ी की छत जैसे समर्थन करता है या वहाँ हडोप के शीर्ष पर चौखटे हैं जो आपको ऐसे स्वरूपों को पढ़ने की अनुमति देता है?


आप ORC फ़ाइल को पढ़ने के लिए HCatalog का उपयोग कर सकते हैं। https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat

यह आपको ORC, पाठ, अनुक्रम, आरसी फाइलों को पढ़ने के लिए एक अमूर्त प्रदान करता है। मुझे यकीन नहीं है कि वहाँ लकड़ी की छत का समर्थन है। फिर भी अगर यह उचित नहीं लगता है, तो आप ORC फ़ाइलों को पढ़ने के लिए हाइव कोड बेस में ORC रिकॉर्ड पाठकों का उपयोग कर सकते हैं (ORCInputFormat, ORCOutputFormat)।





hadoop-streaming