solr कैसे नमक के साथ html और पार्स करने के लिए एसक्यूएल सूचकांक निर्दिष्ट टैग?




nutch apache-tika (4)

मैंने एक वेबसाइट क्रॉल करने और उसमें खोज करने के लिए nutch और सॉल्टर स्थापित किया है; जैसा कि आप जानते हैं कि हम वेब पेजों के मेटा टैग्स को एनएलआर में पार्स मेटा टैग प्लगइन के साथ सॉल्टर में भेज सकते हैं। (http://wiki.apache.org/nutch/IndexMetatags) अब मुझे पता है कि कोई अन्य HTML टैग को क्रॉल करने का कोई तरीका है solr कि मेटा नहीं है? (प्लगइन या वैसे भी) इस तरह:

<div id=something>
      me specific tag
</div>

वास्तव में मैं एक ऐसे क्षेत्र को जोड़ना चाहता हूं जो कि इस पेज में "मुझे विशिष्ट टैग" के मूल्य वाले सॉल्टर (कुछ) में है

कोई उपाय?


आप नच प्लगइन की जांच करना चाह सकते हैं, जिससे आपको वेब पेज से एक तत्व निकालने की अनुमति मिलनी चाहिए।


मैंने ऐसा कुछ करने के लिए अपना स्वयं का प्लगइन बनाया है NutchDocument को SolrDocument के मानचित्रण के लिए कॉन्फ़िग फ़ाइल $ NUTCH_HOME / conf / solrindex-mapping.xml में है । यहां आप अपने खुद के टैग जोड़ सकते हैं लेकिन फिर भी आपको अपने टैग्स को कहीं न कहीं भरना होगा।

यहां प्लगइन के लिए कुछ युक्तियां दी गई हैं:

  • http://wiki.apache.org/nutch/WritingPluginExample पढ़ें, यहां आप पा सकते हैं कि आपका प्लग इन कितना आसान है
  • आपके प्लग इन में पार्सफ़िल्टर और इंडेक्सिंगफ़िल्टर का विस्तार करें
  • YourParseFilter में आप अपने विशिष्ट div को खोजने के लिए NodeWalker का उपयोग कर सकते हैं
  • आपके पार्स किए गए सूचनाओं को इस तरह से पृष्ठ मेटाडेटा में डाल दिया गया है

    page.putToMetadata(new Utf8("yourKEY"), ByteBuffer.wrap(YourByteArrayParsedFromMetaData));

  • YourIndexingFilter में पृष्ठ से मेटाडाटा को जोड़ने (page.getMetadata) से NutchDocument

    doc.add("your_specific_tag", value);

  • सबसे महत्वपूर्ण!!!!!

  • के fileds के लिए your_specific_tag डाल:

    • Solr config फ़ाइल schema.xml (और Solr को पुनरारंभ करें)

    फ़ील्ड नाम = "your_specific_tag" type = "string" संग्रहीत = "सच" इंडेक्स = "सच"

    • Nutch Config file schema.xml (पता नहीं है कि यह वास्तव में आवश्यक है)
    • नच कॉन्फ़िग फाइल सॉल्रैंडएक्स-मैपिंग। एक्सएमएल

    फ़ील्ड dest = "your_specific_tag" source = "your_specific_tag"