Hadoop के ऊपर स्ट्रीमिंग चौखटे जो ORC का समर्थन करते हैं, लकड़ी की छत फ़ाइल स्वरूपों




mapreduce hive (2)

आप ORC फ़ाइल को पढ़ने के लिए HCatalog का उपयोग कर सकते हैं। https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat

यह आपको ORC, पाठ, अनुक्रम, आरसी फाइलों को पढ़ने के लिए एक अमूर्त प्रदान करता है। मुझे यकीन नहीं है कि वहाँ लकड़ी की छत का समर्थन है। फिर भी अगर यह उचित नहीं लगता है, तो आप ORC फ़ाइलों को पढ़ने के लिए हाइव कोड बेस में ORC रिकॉर्ड पाठकों का उपयोग कर सकते हैं (ORCInputFormat, ORCOutputFormat)।

क्या हडोप स्ट्रीमिंग नए कॉलमार स्टोरेज प्रारूपों को ओआरसी और लकड़ी की छत जैसे समर्थन करता है या वहाँ हडोप के शीर्ष पर चौखटे हैं जो आपको ऐसे स्वरूपों को पढ़ने की अनुमति देता है?


बल्कि पुरानी खबर है, लेकिन मैं कुछ समय पहले इस के साथ संघर्ष किया। मुझे इसके लिए कोई समाधान नहीं मिला, परिणामस्वरूप, मैंने इनपुट / आउटपुट स्वरूपों का एक सेट बनाया है जो एवेरो और लकड़ी की छत फाइलों को सादे टेक्स्ट और जेसन से परिवर्तित करते हैं। यह http://github.com/whale2/iow-hadoop-streaming पर पाया जा सकता है। कोई भी ORC समर्थन नहीं है, लेकिन Avro और लकड़ी की छत समर्थित हैं। उम्मीद है की यह मदद करेगा।





hadoop-streaming