php - खोज इंजन प्रासंगिक सामग्री कैसे ढूंढते हैं?




parsing screen-scraping relevance (12)

वेब को पार्स करते समय Google प्रासंगिक सामग्री कैसे ढूंढता है?

मान लीजिए, उदाहरण के लिए, Google सामग्री को पार्स करने के लिए PHP मूल DOM लाइब्रेरी का उपयोग करता है। वेब पेज पर सबसे प्रासंगिक सामग्री खोजने के लिए वे किन तरीकों के लिए होंगे?

मेरे विचार यह होगा कि यह सभी अनुच्छेदों की खोज करेगा, प्रत्येक पैराग्राफ की लंबाई से आदेश देगा और फिर संभावित खोज तारों से और क्वेरी पैराम प्रत्येक पैराग्राफ प्रासंगिकता के प्रतिशत का काम करेगा।

मान लें कि हमारे पास यह यूआरएल था:

http://domain.tld/posts/-dominates-the-world-wide-web.html

अब उस यूआरएल से मैं काम करता हूं कि एचटीएमएल फ़ाइल का नाम उच्च प्रासंगिकता का होगा, इसलिए मैं देखता हूं कि पेज में सभी पैराग्राफ के साथ उस स्ट्रिंग की तुलना कितनी करीब है!

जब आप एक पृष्ठ साझा करते हैं, तो इसका एक अच्छा उदाहरण फेसबुक शेयर होगा। फेसबुक जल्दी से लिंक को बॉट करता है और छवियों, सामग्री इत्यादि को वापस लाता है।

मैं सोच रहा था कि आस-पास के तत्वों और मेटा डेटा के आधार पर प्रासंगिकता के% को काम करने के लिए कुछ प्रकार की गणनात्मक विधि सर्वोत्तम होगी।

क्या सामग्री पार्सिंग के सर्वोत्तम प्रथाओं पर कोई किताबें / जानकारी है जो किसी साइट से सर्वोत्तम सामग्री कैसे प्राप्त करती है, किसी भी एल्गोरिदम के बारे में बात की जा सकती है या किसी गहराई से जवाब दिया जा सकता है?

मेरे मन में कुछ विचार हैं:

  • सादे पाठ की लंबाई से सभी पैराग्राफ और ऑर्डर पाएं
  • किसी भी तरह से div कंटेनर की चौड़ाई और ऊंचाई (डब्ल्यू + एच) - @ बेनोइट खोजें
  • पैराग्राफ के भीतर मेटा कीवर्ड, शीर्षक, विवरण और प्रासंगिकता की जांच करें
  • मुख्य रूप से सभी अनुच्छेद टैग और ऑर्डर को मुख्य पैराग्राफ से दूर करें, और नोड्स की लंबाई खोजें
  • ऑब्जेक्ट डेटा की जांच करें, जैसे वीडियो और सबसे बड़े अनुच्छेद / सामग्री div से नोड्स गिनें
  • पार्स किए गए पिछले पृष्ठों से समानताएं करें

मुझे इस जानकारी की आवश्यकता क्यों है:

मैं एक वेबसाइट बना रहा हूं जहां वेबमास्टर्स हमें लिंक भेजते हैं और फिर हम अपने पृष्ठों को सूचीबद्ध करते हैं, लेकिन मैं वेबमास्टर को एक लिंक सबमिट करना चाहता हूं, फिर मैं जाता हूं और उस पृष्ठ को निम्नलिखित जानकारी ढूंढता हूं।

  • एक छवि (यदि लागू हो)
  • पाठ के सर्वोत्तम टुकड़े से <255 पैराग्राफ
  • कीवर्ड जो हमारे खोज इंजन के लिए उपयोग किए जाएंगे, (स्टैक ओवरफ़्लो शैली)
  • मेटा डेटा कीवर्ड, विवरण, सभी छवियां, परिवर्तन-लॉग (संयम और प्रशासन उद्देश्यों के लिए)

आशा है कि आप लोग समझ सकते हैं कि यह एक खोज इंजन के लिए नहीं है, लेकिन खोज इंजन सामग्री खोज से निपटने के तरीके के समान संदर्भ में है जैसा मुझे चाहिए।

मैं व्यापार रहस्यों के लिए नहीं पूछ रहा हूं, मैं पूछ रहा हूं कि इसका आपका व्यक्तिगत दृष्टिकोण क्या होगा।


Answers

एक टैग सूप से प्रासंगिक सामग्री निकालने के लिए बहुत ही परिष्कृत एल्गोरिदम हैं। यदि आप कुछ स्वयं को प्रयोग करने योग्य बनाने के लिए देख रहे हैं, तो आप readability के लिए स्रोत कोड पर एक नज़र डाल सकते हैं और इसे PHP पर बंद कर सकते हैं। मैंने हाल ही में कुछ ऐसा किया (दुर्भाग्य से कोड साझा नहीं कर सकता)।

पठनीयता का मूल तर्क सभी ब्लॉक स्तर टैग ढूंढना और बच्चों की गणना नहीं करना, उनमें टेक्स्ट की लंबाई गिनना है। फिर प्रत्येक अभिभावक नोड को अपने प्रत्येक बच्चे के वजन का एक टुकड़ा (आधा) दिया जाता है। इसका उपयोग सबसे बड़े ब्लॉक स्तर टैग को फंड करने के लिए किया जाता है जिसमें सादा पाठ की सबसे बड़ी मात्रा होती है। यहां से, सामग्री को और साफ कर दिया गया है।

यह किसी भी माध्यम से बुलेट प्रमाण नहीं है, लेकिन यह ज्यादातर मामलों में अच्छी तरह से काम करता है।


मुझे अभी एक ही समस्या का सामना करना पड़ रहा है, और कुछ प्रयासों के बाद मुझे कुछ ऐसा मिला जो वेबपृष्ठ स्निपेट बनाने के लिए काम करता है (ठीक-ठीक होना चाहिए):

  • सभी एचटीएमएल ले लो
  • शरीर के अंदर उनकी सामग्री के साथ स्क्रिप्ट और स्टाइल टैग हटाएं (महत्वपूर्ण)
  • अनावश्यक रिक्त स्थान, टैब, न्यूलाइन हटाएं।
  • अब प्रत्येक के लिए div, p, आलेख, टीडी (दूसरों?) को पकड़ने के लिए डोम के माध्यम से नेविगेट करें। वर्तमान तत्व के एचटीएमएल ले लो। तत्व सामग्री का "केवल पाठ" संस्करण लें। इस तत्व को स्कोर को असाइन करें: टेक्स्ट लेंस * टेक्स्ट लेंस / एचटीएमएल लेंस
  • अब सभी स्कोर क्रमबद्ध करें, सबसे बड़ा ले लो।

यह सामान्य सामग्री में क्या होता है, जैसे मार्कअप के अपेक्षाकृत कम संतुलन के साथ सबसे लंबे ग्रंथों की पहचान करने के लिए एक त्वरित (और गंदे) तरीका है। मेरे परीक्षणों में यह वास्तव में अच्छा लगता है। बस थोड़ा पानी डाले ;)

इसके अतिरिक्त आप "ओजी:" मेटा टैग, शीर्षक और विवरण, एच 1 और कई अन्य मामूली तकनीकों की खोज कर सकते हैं।


मैं बस पाठ का पहला 'पैराग्राफ' ले जाऊंगा। जिस तरह से ज्यादातर लोग कहानियां / समस्याएं लिखते हैं / जो कुछ भी वे सबसे महत्वपूर्ण बात बताते हैं, और फिर विस्तृत करते हैं। यदि आप किसी भी यादृच्छिक पाठ को देखते हैं और आप देख सकते हैं कि यह ज्यादातर समय समझ में आता है।

उदाहरण के लिए, आप इसे अपने मूल प्रश्न में स्वयं करते हैं। यदि आप अपने मूल प्रश्न के पहले तीन वाक्यों को लेते हैं, तो आप जो भी करने की कोशिश कर रहे हैं उसका एक बहुत अच्छा सारांश है।

और, मैंने अभी भी इसे स्वयं किया है: मेरी टिप्पणी का सारांश पहले पैराग्राफ में सारांशित है। बाकी सिर्फ उदाहरण और विस्तार है। यदि आप आश्वस्त नहीं हैं, तो Google समाचार से अर्ध-यादृच्छिक रूप से चुने गए few recent articles पर नज़र डालें। ठीक है, वह अंतिम अर्ध-यादृच्छिक नहीं था, मैं मानता हूं;)

वैसे भी, मुझे लगता है कि यह वास्तव में एक सरल दृष्टिकोण है जो ज्यादातर समय काम करता है। आप हमेशा मेटा-विवरण, शीर्षक और कीवर्ड देख सकते हैं, लेकिन यदि वे वहां नहीं हैं, तो यह एक विकल्प हो सकता है।

उम्मीद है की यह मदद करेगा।


यह एक बहुत ही सामान्य सवाल है लेकिन एक बहुत अच्छा विषय है! निश्चित रूप से अपरिवर्तित :) हालांकि मैं अब तक दिए गए उत्तरों से संतुष्ट नहीं हूं, इसलिए मैंने इस पर एक लंबा जवाब लिखने का फैसला किया।

कारण मैं संतुष्ट नहीं हूं कि उत्तर मूल रूप से सभी सत्य हैं (मुझे विशेष रूप से कोवशेनिन (+1) का उत्तर पसंद है, जो बहुत ग्राफ सिद्धांत से संबंधित है ...), लेकिन सभी कुछ कारकों पर भी बहुत विशिष्ट हैं या भी सामान्य।

यह पूछना है कि कैसे केक सेंकना है और आपको निम्न उत्तर मिलते हैं:

  • आप एक केक बनाते हैं और आप इसे ओवन में डाल देते हैं।
  • आपको निश्चित रूप से चीनी की आवश्यकता है!
  • एक केक क्या है?
  • यह एक झूठा वायदा है!

आप संतुष्ट नहीं होंगे क्योंकि आप यह जानना नहीं चाहते कि एक अच्छा केक क्या बनाता है। और निश्चित रूप से बहुत सारे या व्यंजन हैं।

बेशक Google सबसे महत्वपूर्ण खिलाड़ी है, लेकिन, उपयोग के मामले के आधार पर, एक खोज इंजन में बहुत अलग कारक शामिल हो सकते हैं या उन्हें अलग-अलग वजन हो सकता है।

उदाहरण के लिए नए स्वतंत्र संगीत कलाकारों की खोज के लिए एक खोज इंजन कलाकारों की वेबसाइटों पर बहुत सारे बाहरी लिंक के साथ एक माल डाल सकता है।

एक मुख्यधारा के खोज इंजन शायद आपको "प्रासंगिक परिणाम" प्रदान करने के लिए सटीक विपरीत होगा।

Google द्वारा प्रकाशित 200 से अधिक कारकों (जैसा कि पहले से ही कहा गया है) हैं। तो वेबमास्टर्स जानते हैं कि उनकी वेबसाइटों को कैसे अनुकूलित किया जाए। बहुत अधिक संभावना है कि जनता को पता नहीं है (Google के मामले में)।

लेकिन बहुत बोराड और अमूर्त शब्द SEO अनुकूलन में आप आम तौर पर महत्वपूर्ण समूहों को दो समूहों में अलग कर सकते हैं:

  1. जवाब सवाल से कितना अच्छा है? या: पृष्ठ सामग्री खोज शब्दों से कितनी अच्छी तरह मेल खाती है?

  2. उत्तर कितना लोकप्रिय / अच्छा है? या: पेजरैंक क्या है?

दोनों मामलों में महत्वपूर्ण बात यह है कि मैं पूरी वेबसाइट या डोमेन के बारे में बात नहीं कर रहा हूं, मैं एक अद्वितीय यूआरएल वाले एकल पृष्ठों के बारे में बात कर रहा हूं।

यह भी महत्वपूर्ण है कि पेजरैंक सभी कारकों का प्रतिनिधित्व नहीं करता है, केवल वे लोग जिन्हें Google लोकप्रियता के रूप में वर्गीकृत करता है। और अच्छे से मेरा मतलब है अन्य कारक जिनके पास लोकप्रियता के साथ कुछ भी नहीं है।

Google के मामले में आधिकारिक बयान यह है कि वे उपयोगकर्ता को प्रासंगिक परिणाम देना चाहते हैं। मतलब यह है कि सभी एल्गोरिदम अनुकूलित किए जाएंगे जो उपयोगकर्ता चाहता है।

तो इस लंबे परिचय के बाद (खुशी है कि आप अभी भी मेरे साथ हैं ...) मैं आपको उन कारकों की एक सूची दूंगा जो मुझे बहुत महत्वपूर्ण मानते हैं (इस समय):

श्रेणी 1 (उत्तर प्रश्न से कितना अच्छा है?

आप देखेंगे कि दस्तावेज़ की संरचना के लिए बहुत कुछ नीचे आता है!

  • पृष्ठ मुख्य रूप से सटीक प्रश्न से संबंधित है।

मतलब: प्रश्न शब्द पृष्ठ शीर्षक टेक्स्ट में या पैराग्राफ पैराग्राफ शीर्षक में दिखाई देते हैं। वही कीवर्ड की स्थिति के लिए भी यही है। पहले पृष्ठ में बेहतर है। अक्सर बार-बार दोहराया जाता है (यदि बहुत अधिक नहीं है जो कीवर्ड भरने के नाम पर जाता है)।

  • पूरी वेबसाइट विषय से संबंधित है (कीवर्ड डोमेन / सबडोमेन में दिखाई देते हैं)

  • शब्द इस पृष्ठ में एक महत्वपूर्ण विषय हैं (आंतरिक लिंक एंकर ग्रंथ कीवर्ड या एंकर ग्रंथों / लिंक ग्रंथों की स्थिति में कूदते हैं, जिसमें कीवर्ड होता है)।

  • वही होता है यदि बाहरी लिंक इस पृष्ठ से लिंक करने के लिए लिंक टेक्स्ट में कीवर्ड का उपयोग करते हैं

श्रेणी 2 (पृष्ठ कितना महत्वपूर्ण / लोकप्रिय है?)

आप देखेंगे कि सभी कारक इस सटीक लक्ष्य की ओर इंगित नहीं करते हैं। कुछ शामिल हैं (विशेष रूप से Google द्वारा) केवल पृष्ठों को बढ़ावा देने के लिए, ... अच्छा ... यह सिर्फ योग्य / अर्जित किया गया है।

  • सामग्री राजा है!

अनूठी सामग्री का अस्तित्व जो पाया जा सकता है या वेब के बाकी हिस्सों में बहुत ही कम नहीं है, उसे बढ़ावा मिलता है। यह ज्यादातर ऐसी वेबसाइट पर शब्दों के अनियंत्रित संयोजनों द्वारा मापा जाता है जिन्हें आमतौर पर बहुत कम (महत्वपूर्ण शब्द) का उपयोग किया जाता है। लेकिन वहां बहुत अधिक परिष्कृत तरीके भी हैं।

  • आवृत्ति - नया बेहतर है

  • ऐतिहासिक परिवर्तन (पृष्ठ को कितनी बार अतीत में अपडेट किया गया है। बदलना अच्छा है।)

  • बाहरी लिंक लोकप्रियता (कितने लिंक?)

यदि कोई पृष्ठ किसी अन्य पृष्ठ से लिंक करता है तो लिंक अधिक मूल्यवान होता है यदि पृष्ठ में उच्च पेजरैंक होता है।

  • बाहरी लिंक विविधता

मूल रूप से विभिन्न रूट डोमेन से लिंक होते हैं, लेकिन अन्य कारक भी भूमिका निभाते हैं। भौगोलिक दृष्टि से लिंक करने वाले वेबसेवर (उनके आईपी पते के अनुसार) के कारक भी कितने अलग हैं।

  • ट्रस्ट रैंक

उदाहरण के लिए यदि बड़ी, भरोसेमंद, स्थापित रेडियोधर्मी सामग्री वाली साइटें आपको लिंक करती हैं, तो आपको ट्रस्ट रैंक मिलता है। यही कारण है कि न्यूयॉर्क टाइम्स का एक लिंक कुछ अजीब नई वेबसाइट की तुलना में अधिक मूल्यवान है, भले ही यह पेजरैंक अधिक हो!

  • डोमेन ट्रस्ट

यदि आपका डोमेन विश्वसनीय है तो आपकी पूरी वेबसाइट आपकी सामग्री को बढ़ावा देती है। अच्छी तरह से अलग कारक यहां गिनती हैं। निश्चित रूप से विश्वसनीय डोमेन से आपके डोमेन पर लिंक, लेकिन यदि आप एक ही डेटासेंटर में महत्वपूर्ण वेबसाइटों के रूप में हैं तो यह भी अच्छा होगा।

  • विषय विशिष्ट लिंक में।

यदि ऐसी वेबसाइटें जिन्हें आपके लिए किसी विषय से हल किया जा सकता है और क्वेरी को इस विषय पर भी हल किया जा सकता है, तो यह अच्छा है।

  • समय के साथ लिंक का वितरण।

यदि आपने थोड़े समय में बहुत से लिंक अर्जित किए हैं, तो यह इस समय और निकट भविष्य में आपको अच्छा लगेगा। लेकिन समय के बाद में इतना अच्छा नहीं है। यदि आप धीमे और स्थिर कमाई लिंक करते हैं तो यह आपको "कालातीत" सामग्री के लिए अच्छा लगेगा।

  • प्रतिबंधित डोमेन से लिंक

एक .gov डोमेन से एक लिंक बहुत लायक है।

  • उपयोगकर्ता क्लिक व्यवहार

आपके खोज परिणाम का क्लिकर क्या है?

  • साइट पर बिताया समय

Google एनालिटिक्स ट्रैकिंग इत्यादि। यह भी ट्रैक किया जाता है यदि उपयोगकर्ता वापस क्लिक करता है या आपका खोलने के बाद किसी अन्य परिणाम पर क्लिक करता है।

  • एकत्रित उपयोगकर्ता डेटा

वोट, रेटिंग, आदि, जीमेल में संदर्भ, इत्यादि।

अब मैं एक तीसरी श्रेणी पेश करूंगा, और ऊपर से एक या दो अंक इस श्रेणी में जाएंगे, लेकिन मैंने इसके बारे में सोचा नहीं है ... श्रेणी है:

** सामान्य रूप से आपकी वेबसाइट कितनी महत्वपूर्ण / अच्छी है **

आपकी वेबसाइटों की गुणवत्ता के आधार पर आपके सभी पृष्ठों को थोड़ा सा रैंक किया जाएगा

कारकों में शामिल हैं:

  • अच्छी साइट आर्किटेक्चर (नेविगेट करने में आसान, संरचित। साइटमैप, आदि ...)

  • कैसे स्थापित (लंबे मौजूदा डोमेन अधिक मूल्यवान हैं)।

  • होस्टर की जानकारी (आपके पास कौन सी अन्य वेबसाइट होस्ट की जाती हैं?

  • अपने सटीक नाम की आवृत्ति खोजें।

आखिरी, लेकिन कम से कम, मैं यह कहना चाहता हूं कि इनमें से बहुत से सिद्धांत कारक अर्थपूर्ण तकनीक से समृद्ध हो सकते हैं और नए लोगों को पेश किया जा सकता है।

उदाहरण के लिए कोई टाइटैनिक की खोज कर सकता है और आपके पास बर्फबारी के बारे में एक वेबसाइट है ... जिसे सहसंबंध में सेट किया जा सकता है जो परिलक्षित हो सकता है।

हाल ही में अर्थपूर्ण पहचानकर्ताओं की शुरुआत की। उदाहरण के लिए OWL टैग का भविष्य में बड़ा प्रभाव हो सकता है।

उदाहरण के लिए टाइटैनिक फिल्म के बारे में एक ब्लॉग इस पृष्ठ पर एक संकेत डाल सकता है कि यह वही सामग्री है जो एक ही फिल्म के विकिपीडिया लेख पर समान सामग्री है।

इस प्रकार की लिंकिंग वर्तमान में भारी विकास और स्थापना के तहत है और कोई भी नहीं जानता कि इसका उपयोग कैसे किया जाएगा।

हो सकता है कि डुप्लिकेट सामग्री फ़िल्टर की गई हो, और केवल उसी सामग्री का सबसे महत्वपूर्ण प्रदर्शित होता है? या शायद दूसरी तरफ दौर? आपको बहुत सारे पेज प्रस्तुत किए जाते हैं जो आपकी क्वेरी से मेल खाते हैं। भले ही वे आपके कीवर्ड न हों?

Google आपकी खोज क्वेरी के विषय के आधार पर विभिन्न प्रासंगिकताओं में कारकों को भी लागू करता है!


यहां कुछ अच्छे उत्तर दिए गए हैं, लेकिन ऐसा लगता है जैसे वे आपके प्रश्न का उत्तर नहीं देते हैं। शायद यह एक होगा।

जो खोज रहे हैं उसे सूचना पुनर्प्राप्ति कहा जाता है

यह आमतौर पर बैग ऑफ वर्ड्स मॉडल का उपयोग करता है

मान लें कि आपके पास दो दस्तावेज़ हैं:

DOCUMENT A  
Seize the time, Meribor. Live now; make now always the most precious time. Now will never come again

और ये वाला

DOCUMENT B  
Worf, it was what it was glorious and wonderful and all that, but it doesn't mean anything

और आपके पास कोई प्रश्न है, या कुछ ऐसा है जिसके लिए आप अन्य प्रासंगिक दस्तावेज़ ढूंढना चाहते हैं

QUERY aka DOCUMENT C
precious wonderful life

वैसे भी, आप दो दस्तावेजों के सबसे "प्रासंगिक" की गणना कैसे करते हैं? ऐसे:

  1. प्रत्येक दस्तावेज़ को टोकननाइज़ करें (शब्दों में तोड़ें, सभी गैर अक्षरों को हटाएं)
  2. सब कुछ लोअरकेस
  3. स्टॉपवर्ड को हटाएं (और, आदि)
  4. स्टेमिंग पर विचार करें (प्रत्यय को हटाएं, पोर्टर या स्नोबॉल स्टेमिंग एल्गोरिदम देखें)
  5. एन-ग्राम का उपयोग करने पर विचार करें

"कीवर्ड" प्राप्त करने के लिए आप शब्द आवृत्ति को गिन सकते हैं।

फिर, आप प्रत्येक शब्द के लिए एक कॉलम बनाते हैं, और सभी दस्तावेजों में इसके महत्व के संबंध में दस्तावेज़ के लिए शब्द के महत्व की गणना करते हैं। इसे टीएफ-आईडीएफ मीट्रिक कहा जाता है।

अब आपके पास यह है:

Doc precious worf life...
A   0.5      0.0  0.2 
B   0.0      0.9  0.0
C   0.7      0.0  0.9

फिर, आप कोसाइन समानता माप का उपयोग करके दस्तावेजों के बीच समानता की गणना करते हैं। दस्तावेज़ सी के लिए उच्चतम समानता वाले दस्तावेज़ सबसे प्रासंगिक हैं।

अब, आप सबसे समान पैराग्राफ ढूंढना चाहते हैं, इसलिए बस प्रत्येक पैराग्राफ को एक दस्तावेज़ पर कॉल करें, या इसके बजाय दस्तावेज़ पर स्लाइडिंग विंडोज का उपयोग करने पर विचार करें।

आप यहां मेरा वीडियो देख सकते हैं। यह एक ग्राफिकल जावा उपकरण का उपयोग करता है, लेकिन अवधारणाओं को बताता है:

http://vancouverdata.blogspot.com/2010/11/text-analytics-with-rapidminer-part-4.html

यहां एक सभ्य आईआर पुस्तक है:

http://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf


अधिकांश खोज इंजन दस्तावेज़ के शीर्ष में शीर्षक और मेटा विवरण की तलाश करते हैं, फिर शरीर में एक और टेक्स्ट सामग्री का शीर्षक रखते हैं। छवि alt टैग और लिंक शीर्षक भी माना जाता है। आखिर में मैंने पढ़ा था याहू मेटा कीवर्ड टैग का उपयोग कर रहा था लेकिन अधिकांश नहीं।

आप Sourceforge https://sourceforge.net/projects/tsep/ पर सर्च इंजन प्रोजेक्ट (टीएसईपी) से ओपन सोर्स फाइलों को डाउनलोड करना चाहेंगे और https://sourceforge.net/projects/tsep/ कि वे इसे कैसे करते हैं।


मैं Google पर काम नहीं करता लेकिन लगभग एक साल पहले मैंने पढ़ा था कि उनके खोज परिणामों को रैंकिंग के लिए 200 से अधिक कारक हैं। बेशक शीर्ष रैंकिंग प्रासंगिक होगी, इसलिए आपका प्रश्न उस अर्थ में काफी दिलचस्प है।

प्रासंगिकता क्या है और आप इसकी गणना कैसे करते हैं? कई एल्गोरिदम हैं और मैं शर्त लगाता हूं कि Google का अपना स्वयं का है, लेकिन जिन लोगों के बारे में मुझे पता है वे पियरसन सहसंबंध और यूक्लिडियन दूरी हैं

एक अच्छी किताब जो मैं इस विषय पर सुझाव दूंगा (जरूरी नहीं कि खोज इंजन) टोबी सेगरन (ओ'रेली) द्वारा प्रोग्रामिंग कलेक्टिव इंटेलिजेंस है। पुस्तक के कुछ नमूने दिखाते हैं कि एपीआई या स्क्रीन-स्क्रैपिंग के माध्यम से तीसरे पक्ष की वेबसाइटों से डेटा कैसे प्राप्त करें, और इसी तरह की प्रविष्टियां ढूंढें, जो काफी अच्छी है।

वैसे भी, Google पर वापस। अन्य प्रासंगिकता तकनीक निश्चित रूप से पूर्ण-पाठ खोज हैं और आप उस मामले के लिए MySQL या स्फिंक्स पर एक अच्छी पुस्तक प्राप्त कर सकते हैं। @Chaoley द्वारा सुझाया गया टीएसईपी था जो भी काफी दिलचस्प है।

लेकिन वास्तव में, मैं येंडेक्स नामक एक रूसी सर्च इंजन से लोगों को जानता हूं, और वे जो कुछ भी करते हैं वह एनडीए के तहत होता है, इसलिए मुझे लगता है कि आप करीब आ सकते हैं, लेकिन जब तक आप Google पर काम नहीं करते, तब तक आप सही नहीं हो सकते;)

चीयर्स।


'वेब क्रॉलर, रोबोट, स्पाइडर और इंटेलिजेंट एजेंट्स' के लिए Google, व्यक्तिगत परिणामों को प्राप्त करने के लिए अलग-अलग प्रयास कर सकते हैं।

मुझे लगता है कि आप स्क्रीन स्क्रैपिंग (डीओएम के साथ) की तलाश में हैं जो स्टैक के पास क्यू एंड ए का एक टन है ।


मैं इन बिल्डिंग कोड पर विचार करता हूं

  • synonyms और शब्दकोष के लिए जाँच करें
  • टेक्स्ट के रूप में खोजने के लिए छवियों पर ओसीआर लागू करना (एबी फाइन रीडर और रिकोस्टार अच्छा है, Tesseract मुफ्त और ठीक है (ठीक पाठक के रूप में इतना अच्छा नहीं है :))
  • वज़न फ़ॉन्ट्स भी (आकार, साहस, अंडरलाइन, रंग)
  • पृष्ठ पर अपनी जगह के आधार पर वजन सामग्री (पृष्ठ के ऊपरी हिस्से पर सामग्री अधिक प्रासंगिक है)

इसके अलावा:

  • पृष्ठ को परिभाषित करने के लिए वेबमास्टर से एक ऑप्टिकल टेक्स्ट पूछा गया

आप यह भी जांच सकते हैं कि क्या आप Google खोज API पर कुछ भी उपयोगी पा सकते हैं: http://code.google.com/intl/tr/apis/ajaxsearch/


मुश्किल, लेकिन मैं एक स्टैब ले जाऊंगा:

एक छवि (यदि लागू हो)

  • पेज पर पहली छवि
  • एक नाम वाली छवि जिसमें अक्षरों "लोगो" शामिल हैं
  • वह छवि जो शीर्ष-बाएं (या शीर्ष-दाएं) के सबसे नज़दीक प्रस्तुत करती है
  • वह छवि जो साइट के अन्य पृष्ठों पर अक्सर दिखाई देती है
  • कुछ अधिकतम आयामों से छोटी छवि

पाठ के सर्वोत्तम टुकड़े से <255 पैराग्राफ

  • शीर्षक टैग की सामग्री
  • मेटा सामग्री विवरण टैग की सामग्री
  • पहले एच 1 टैग की सामग्री
  • पहले पी टैग की सामग्री

कीवर्ड जो हमारे खोज इंजन के लिए उपयोग किए जाएंगे, (ढेर ओवरफ्लो शैली)

  • डोमेन नाम का सबस्ट्रिंग
  • यूआरएल के सबस्ट्रिंग
  • शीर्षक टैग का सबस्ट्रिंग
  • शब्द और पृष्ठ के शीर्ष पर सबसे आम शब्द और पृष्ठ के शीर्ष के बीच निकटता

मेटा डेटा कीवर्ड, विवरण, सभी छवियां, परिवर्तन-लॉग (संयम और प्रशासन उद्देश्यों के लिए)

  • एके! गैग! वक्य रचना त्रुटि।

अपने किसी एक प्रश्न का उत्तर देने के लिए, मैं अभी निम्न पुस्तक पढ़ रहा हूं, और मैं इसकी अनुशंसा करता हूं: Google के पेजरैंक और परे , एमी लैंगविले और कार्ल मेयर द्वारा।

हल्के से गणितीय। एक ग्राफ सैद्धांतिक संदर्भ, eigenanalysis, Markov मॉडल, आदि में कुछ रैखिक बीजगणित का उपयोग करता है। मैंने उन हिस्सों का आनंद लिया जो रैखिक समीकरणों को हल करने के लिए पुनरावृत्तियों के तरीकों के बारे में बात करते हैं। मुझे नहीं पता था कि Google ने इन पुनरावृत्तियों को नियोजित किया है।

लघु पुस्तक, केवल 200 पेज। "Asides" शामिल है जो पाठ के मुख्य प्रवाह, साथ ही ऐतिहासिक परिप्रेक्ष्य से अलग हो जाते हैं। अन्य हालिया रैंकिंग सिस्टम को भी इंगित करता है।


http://kb.askmonty.org/v/mariadb-versus-mysql

सभी MySQL कनेक्टर (PHP, पर्ल, पायथन, जावा, MyODBC, रूबी, MySQL सी कनेक्टर आदि) मारियाडीबी के साथ अपरिवर्तित काम करता है।





php parsing screen-scraping relevance