php - खोज इंजन प्रासंगिक सामग्री कैसे ढूंढते हैं?




parsing screen-scraping (9)

'वेब क्रॉलर, रोबोट, स्पाइडर और इंटेलिजेंट एजेंट्स' के लिए Google, व्यक्तिगत परिणामों को प्राप्त करने के लिए अलग-अलग प्रयास कर सकते हैं।

मुझे लगता है कि आप स्क्रीन स्क्रैपिंग (डीओएम के साथ) की तलाश में हैं जो स्टैक के पास क्यू एंड ए का एक टन है ।

वेब को पार्स करते समय Google प्रासंगिक सामग्री कैसे ढूंढता है?

मान लीजिए, उदाहरण के लिए, Google सामग्री को पार्स करने के लिए PHP मूल DOM लाइब्रेरी का उपयोग करता है। वेब पेज पर सबसे प्रासंगिक सामग्री खोजने के लिए वे किन तरीकों के लिए होंगे?

मेरे विचार यह होगा कि यह सभी अनुच्छेदों की खोज करेगा, प्रत्येक पैराग्राफ की लंबाई से आदेश देगा और फिर संभावित खोज तारों से और क्वेरी पैराम प्रत्येक पैराग्राफ प्रासंगिकता के प्रतिशत का काम करेगा।

मान लें कि हमारे पास यह यूआरएल था:

http://domain.tld/posts/stackoverflow-dominates-the-world-wide-web.html

अब उस यूआरएल से मैं काम करता हूं कि एचटीएमएल फ़ाइल का नाम उच्च प्रासंगिकता का होगा, इसलिए मैं देखता हूं कि पेज में सभी पैराग्राफ के साथ उस स्ट्रिंग की तुलना कितनी करीब है!

जब आप एक पृष्ठ साझा करते हैं, तो इसका एक अच्छा उदाहरण फेसबुक शेयर होगा। फेसबुक जल्दी से लिंक को बॉट करता है और छवियों, सामग्री इत्यादि को वापस लाता है।

मैं सोच रहा था कि आस-पास के तत्वों और मेटा डेटा के आधार पर प्रासंगिकता के% को काम करने के लिए कुछ प्रकार की गणनात्मक विधि सर्वोत्तम होगी।

क्या सामग्री पार्सिंग के सर्वोत्तम प्रथाओं पर कोई किताबें / जानकारी है जो किसी साइट से सर्वोत्तम सामग्री कैसे प्राप्त करती है, किसी भी एल्गोरिदम के बारे में बात की जा सकती है या किसी गहराई से जवाब दिया जा सकता है?

मेरे मन में कुछ विचार हैं:

  • सादे पाठ की लंबाई से सभी पैराग्राफ और ऑर्डर पाएं
  • किसी भी तरह से div कंटेनर की चौड़ाई और ऊंचाई (डब्ल्यू + एच) - @ बेनोइट खोजें
  • पैराग्राफ के भीतर मेटा कीवर्ड, शीर्षक, विवरण और प्रासंगिकता की जांच करें
  • मुख्य रूप से सभी अनुच्छेद टैग और ऑर्डर को मुख्य पैराग्राफ से दूर करें, और नोड्स की लंबाई खोजें
  • ऑब्जेक्ट डेटा की जांच करें, जैसे वीडियो और सबसे बड़े अनुच्छेद / सामग्री div से नोड्स गिनें
  • पार्स किए गए पिछले पृष्ठों से समानताएं करें

मुझे इस जानकारी की आवश्यकता क्यों है:

मैं एक वेबसाइट बना रहा हूं जहां वेबमास्टर्स हमें लिंक भेजते हैं और फिर हम अपने पृष्ठों को सूचीबद्ध करते हैं, लेकिन मैं वेबमास्टर को एक लिंक सबमिट करना चाहता हूं, फिर मैं जाता हूं और उस पृष्ठ को निम्नलिखित जानकारी ढूंढता हूं।

  • एक छवि (यदि लागू हो)
  • पाठ के सर्वोत्तम टुकड़े से <255 पैराग्राफ
  • कीवर्ड जो हमारे खोज इंजन के लिए उपयोग किए जाएंगे, (स्टैक ओवरफ़्लो शैली)
  • मेटा डेटा कीवर्ड, विवरण, सभी छवियां, परिवर्तन-लॉग (संयम और प्रशासन उद्देश्यों के लिए)

आशा है कि आप लोग समझ सकते हैं कि यह एक खोज इंजन के लिए नहीं है, लेकिन खोज इंजन सामग्री खोज से निपटने के तरीके के समान संदर्भ में है जैसा मुझे चाहिए।

मैं व्यापार रहस्यों के लिए नहीं पूछ रहा हूं, मैं पूछ रहा हूं कि इसका आपका व्यक्तिगत दृष्टिकोण क्या होगा।


Google पेज रैंक नामक एक सिस्टम का भी उपयोग करता है, जहां यह जांचता है कि साइट के कितने लिंक हैं। मान लीजिए कि आप एक सी ++ ट्यूटोरियल की तलाश में हैं, और आप Google के लिए एक खोज करते हैं। आपको शीर्ष परिणाम के रूप में एक मिलता है, यह एक अच्छा ट्यूटोरियल है। Google इसे जानता है क्योंकि उसने वेब के कैश के माध्यम से खोज की और देखा कि हर कोई इस ट्यूटोरियल से जुड़ा हुआ था, जबकि यह कितना अच्छा था। Google धोखा देता है कि यह एक अच्छा ट्यूटोरियल है, और इसे शीर्ष परिणाम के रूप में रखता है।

यह वास्तव में ऐसा करता है क्योंकि यह सबकुछ कैश करता है, प्रत्येक पेज को पेज रैंक देता है, जैसा कि पहले कहा गया था, इसके लिंक के आधार पर।

उम्मीद है की यह मदद करेगा!


अपने किसी एक प्रश्न का उत्तर देने के लिए, मैं अभी निम्न पुस्तक पढ़ रहा हूं, और मैं इसकी अनुशंसा करता हूं: Google के पेजरैंक और परे , एमी लैंगविले और कार्ल मेयर द्वारा।

हल्के से गणितीय। एक ग्राफ सैद्धांतिक संदर्भ, eigenanalysis, Markov मॉडल, आदि में कुछ रैखिक बीजगणित का उपयोग करता है। मैंने उन हिस्सों का आनंद लिया जो रैखिक समीकरणों को हल करने के लिए पुनरावृत्तियों के तरीकों के बारे में बात करते हैं। मुझे नहीं पता था कि Google ने इन पुनरावृत्तियों को नियोजित किया है।

लघु पुस्तक, केवल 200 पेज। "Asides" शामिल है जो पाठ के मुख्य प्रवाह, साथ ही ऐतिहासिक परिप्रेक्ष्य से अलग हो जाते हैं। अन्य हालिया रैंकिंग सिस्टम को भी इंगित करता है।


एक टैग सूप से प्रासंगिक सामग्री निकालने के लिए बहुत ही परिष्कृत एल्गोरिदम हैं। यदि आप कुछ स्वयं को प्रयोग करने योग्य बनाने के लिए देख रहे हैं, तो आप readability के लिए स्रोत कोड पर एक नज़र डाल सकते हैं और इसे PHP पर बंद कर सकते हैं। मैंने हाल ही में कुछ ऐसा किया (दुर्भाग्य से कोड साझा नहीं कर सकता)।

पठनीयता का मूल तर्क सभी ब्लॉक स्तर टैग ढूंढना और बच्चों की गणना नहीं करना, उनमें टेक्स्ट की लंबाई गिनना है। फिर प्रत्येक अभिभावक नोड को अपने प्रत्येक बच्चे के वजन का एक टुकड़ा (आधा) दिया जाता है। इसका उपयोग सबसे बड़े ब्लॉक स्तर टैग को फंड करने के लिए किया जाता है जिसमें सादा पाठ की सबसे बड़ी मात्रा होती है। यहां से, सामग्री को और साफ कर दिया गया है।

यह किसी भी माध्यम से बुलेट प्रमाण नहीं है, लेकिन यह ज्यादातर मामलों में अच्छी तरह से काम करता है।


मुश्किल, लेकिन मैं एक स्टैब ले जाऊंगा:

एक छवि (यदि लागू हो)

  • पेज पर पहली छवि
  • एक नाम वाली छवि जिसमें अक्षरों "लोगो" शामिल हैं
  • वह छवि जो शीर्ष-बाएं (या शीर्ष-दाएं) के सबसे नज़दीक प्रस्तुत करती है
  • वह छवि जो साइट के अन्य पृष्ठों पर अक्सर दिखाई देती है
  • कुछ अधिकतम आयामों से छोटी छवि

पाठ के सर्वोत्तम टुकड़े से <255 पैराग्राफ

  • शीर्षक टैग की सामग्री
  • मेटा सामग्री विवरण टैग की सामग्री
  • पहले एच 1 टैग की सामग्री
  • पहले पी टैग की सामग्री

कीवर्ड जो हमारे खोज इंजन के लिए उपयोग किए जाएंगे, (ढेर ओवरफ्लो शैली)

  • डोमेन नाम का सबस्ट्रिंग
  • यूआरएल के सबस्ट्रिंग
  • शीर्षक टैग का सबस्ट्रिंग
  • शब्द और पृष्ठ के शीर्ष पर सबसे आम शब्द और पृष्ठ के शीर्ष के बीच निकटता

मेटा डेटा कीवर्ड, विवरण, सभी छवियां, परिवर्तन-लॉग (संयम और प्रशासन उद्देश्यों के लिए)

  • एके! गैग! वक्य रचना त्रुटि।

मैं Google पर काम नहीं करता लेकिन लगभग एक साल पहले मैंने पढ़ा था कि उनके खोज परिणामों को रैंकिंग के लिए 200 से अधिक कारक हैं। बेशक शीर्ष रैंकिंग प्रासंगिक होगी, इसलिए आपका प्रश्न उस अर्थ में काफी दिलचस्प है।

प्रासंगिकता क्या है और आप इसकी गणना कैसे करते हैं? कई एल्गोरिदम हैं और मैं शर्त लगाता हूं कि Google का अपना स्वयं का है, लेकिन जिन लोगों के बारे में मुझे पता है वे पियरसन सहसंबंध और यूक्लिडियन दूरी हैं

एक अच्छी किताब जो मैं इस विषय पर सुझाव दूंगा (जरूरी नहीं कि खोज इंजन) टोबी सेगरन (ओ'रेली) द्वारा प्रोग्रामिंग कलेक्टिव इंटेलिजेंस है। पुस्तक के कुछ नमूने दिखाते हैं कि एपीआई या स्क्रीन-स्क्रैपिंग के माध्यम से तीसरे पक्ष की वेबसाइटों से डेटा कैसे प्राप्त करें, और इसी तरह की प्रविष्टियां ढूंढें, जो काफी अच्छी है।

वैसे भी, Google पर वापस। अन्य प्रासंगिकता तकनीक निश्चित रूप से पूर्ण-पाठ खोज हैं और आप उस मामले के लिए MySQL या स्फिंक्स पर एक अच्छी पुस्तक प्राप्त कर सकते हैं। @Chaoley द्वारा सुझाया गया टीएसईपी था जो भी काफी दिलचस्प है।

लेकिन वास्तव में, मैं येंडेक्स नामक एक रूसी सर्च इंजन से लोगों को जानता हूं, और वे जो कुछ भी करते हैं वह एनडीए के तहत होता है, इसलिए मुझे लगता है कि आप करीब आ सकते हैं, लेकिन जब तक आप Google पर काम नहीं करते, तब तक आप सही नहीं हो सकते;)

चीयर्स।


मैं बस पाठ का पहला 'पैराग्राफ' ले जाऊंगा। जिस तरह से ज्यादातर लोग कहानियां / समस्याएं लिखते हैं / जो कुछ भी वे सबसे महत्वपूर्ण बात बताते हैं, और फिर विस्तृत करते हैं। यदि आप किसी भी यादृच्छिक पाठ को देखते हैं और आप देख सकते हैं कि यह ज्यादातर समय समझ में आता है।

उदाहरण के लिए, आप इसे अपने मूल प्रश्न में स्वयं करते हैं। यदि आप अपने मूल प्रश्न के पहले तीन वाक्यों को लेते हैं, तो आप जो भी करने की कोशिश कर रहे हैं उसका एक बहुत अच्छा सारांश है।

और, मैंने अभी भी इसे स्वयं किया है: मेरी टिप्पणी का सारांश पहले पैराग्राफ में सारांशित है। बाकी सिर्फ उदाहरण और विस्तार है। यदि आप आश्वस्त नहीं हैं, तो Google समाचार से अर्ध-यादृच्छिक रूप से चुने गए few recent articles पर नज़र डालें। ठीक है, वह अंतिम अर्ध-यादृच्छिक नहीं था, मैं मानता हूं;)

वैसे भी, मुझे लगता है कि यह वास्तव में एक सरल दृष्टिकोण है जो ज्यादातर समय काम करता है। आप हमेशा मेटा-विवरण, शीर्षक और कीवर्ड देख सकते हैं, लेकिन यदि वे वहां नहीं हैं, तो यह एक विकल्प हो सकता है।

उम्मीद है की यह मदद करेगा।


यह एक बहुत ही सामान्य सवाल है लेकिन एक बहुत अच्छा विषय है! निश्चित रूप से अपरिवर्तित :) हालांकि मैं अब तक दिए गए उत्तरों से संतुष्ट नहीं हूं, इसलिए मैंने इस पर एक लंबा जवाब लिखने का फैसला किया।

कारण मैं संतुष्ट नहीं हूं कि उत्तर मूल रूप से सभी सत्य हैं (मुझे विशेष रूप से कोवशेनिन (+1) का उत्तर पसंद है, जो बहुत ग्राफ सिद्धांत से संबंधित है ...), लेकिन सभी कुछ कारकों पर भी बहुत विशिष्ट हैं या भी सामान्य।

यह पूछना है कि कैसे केक सेंकना है और आपको निम्न उत्तर मिलते हैं:

  • आप एक केक बनाते हैं और आप इसे ओवन में डाल देते हैं।
  • आपको निश्चित रूप से चीनी की आवश्यकता है!
  • एक केक क्या है?
  • यह एक झूठा वायदा है!

आप संतुष्ट नहीं होंगे क्योंकि आप यह जानना नहीं चाहते कि एक अच्छा केक क्या बनाता है। और निश्चित रूप से बहुत सारे या व्यंजन हैं।

बेशक Google सबसे महत्वपूर्ण खिलाड़ी है, लेकिन, उपयोग के मामले के आधार पर, एक खोज इंजन में बहुत अलग कारक शामिल हो सकते हैं या उन्हें अलग-अलग वजन हो सकता है।

उदाहरण के लिए नए स्वतंत्र संगीत कलाकारों की खोज के लिए एक खोज इंजन कलाकारों की वेबसाइटों पर बहुत सारे बाहरी लिंक के साथ एक माल डाल सकता है।

एक मुख्यधारा के खोज इंजन शायद आपको "प्रासंगिक परिणाम" प्रदान करने के लिए सटीक विपरीत होगा।

Google द्वारा प्रकाशित 200 से अधिक कारकों (जैसा कि पहले से ही कहा गया है) हैं। तो वेबमास्टर्स जानते हैं कि उनकी वेबसाइटों को कैसे अनुकूलित किया जाए। बहुत अधिक संभावना है कि जनता को पता नहीं है (Google के मामले में)।

लेकिन बहुत बोराड और अमूर्त शब्द SEO अनुकूलन में आप आम तौर पर महत्वपूर्ण समूहों को दो समूहों में अलग कर सकते हैं:

  1. जवाब सवाल से कितना अच्छा है? या: पृष्ठ सामग्री खोज शब्दों से कितनी अच्छी तरह मेल खाती है?

  2. उत्तर कितना लोकप्रिय / अच्छा है? या: पेजरैंक क्या है?

दोनों मामलों में महत्वपूर्ण बात यह है कि मैं पूरी वेबसाइट या डोमेन के बारे में बात नहीं कर रहा हूं, मैं एक अद्वितीय यूआरएल वाले एकल पृष्ठों के बारे में बात कर रहा हूं।

यह भी महत्वपूर्ण है कि पेजरैंक सभी कारकों का प्रतिनिधित्व नहीं करता है, केवल वे लोग जिन्हें Google लोकप्रियता के रूप में वर्गीकृत करता है। और अच्छे से मेरा मतलब है अन्य कारक जिनके पास लोकप्रियता के साथ कुछ भी नहीं है।

Google के मामले में आधिकारिक बयान यह है कि वे उपयोगकर्ता को प्रासंगिक परिणाम देना चाहते हैं। मतलब यह है कि सभी एल्गोरिदम अनुकूलित किए जाएंगे जो उपयोगकर्ता चाहता है।

तो इस लंबे परिचय के बाद (खुशी है कि आप अभी भी मेरे साथ हैं ...) मैं आपको उन कारकों की एक सूची दूंगा जो मुझे बहुत महत्वपूर्ण मानते हैं (इस समय):

श्रेणी 1 (उत्तर प्रश्न से कितना अच्छा है?

आप देखेंगे कि दस्तावेज़ की संरचना के लिए बहुत कुछ नीचे आता है!

  • पृष्ठ मुख्य रूप से सटीक प्रश्न से संबंधित है।

मतलब: प्रश्न शब्द पृष्ठ शीर्षक टेक्स्ट में या पैराग्राफ पैराग्राफ शीर्षक में दिखाई देते हैं। वही कीवर्ड की स्थिति के लिए भी यही है। पहले पृष्ठ में बेहतर है। अक्सर बार-बार दोहराया जाता है (यदि बहुत अधिक नहीं है जो कीवर्ड भरने के नाम पर जाता है)।

  • पूरी वेबसाइट विषय से संबंधित है (कीवर्ड डोमेन / सबडोमेन में दिखाई देते हैं)

  • शब्द इस पृष्ठ में एक महत्वपूर्ण विषय हैं (आंतरिक लिंक एंकर ग्रंथ कीवर्ड या एंकर ग्रंथों / लिंक ग्रंथों की स्थिति में कूदते हैं, जिसमें कीवर्ड होता है)।

  • वही होता है यदि बाहरी लिंक इस पृष्ठ से लिंक करने के लिए लिंक टेक्स्ट में कीवर्ड का उपयोग करते हैं

श्रेणी 2 (पृष्ठ कितना महत्वपूर्ण / लोकप्रिय है?)

आप देखेंगे कि सभी कारक इस सटीक लक्ष्य की ओर इंगित नहीं करते हैं। कुछ शामिल हैं (विशेष रूप से Google द्वारा) केवल पृष्ठों को बढ़ावा देने के लिए, ... अच्छा ... यह सिर्फ योग्य / अर्जित किया गया है।

  • सामग्री राजा है!

अनूठी सामग्री का अस्तित्व जो पाया जा सकता है या वेब के बाकी हिस्सों में बहुत ही कम नहीं है, उसे बढ़ावा मिलता है। यह ज्यादातर ऐसी वेबसाइट पर शब्दों के अनियंत्रित संयोजनों द्वारा मापा जाता है जिन्हें आमतौर पर बहुत कम (महत्वपूर्ण शब्द) का उपयोग किया जाता है। लेकिन वहां बहुत अधिक परिष्कृत तरीके भी हैं।

  • आवृत्ति - नया बेहतर है

  • ऐतिहासिक परिवर्तन (पृष्ठ को कितनी बार अतीत में अपडेट किया गया है। बदलना अच्छा है।)

  • बाहरी लिंक लोकप्रियता (कितने लिंक?)

यदि कोई पृष्ठ किसी अन्य पृष्ठ से लिंक करता है तो लिंक अधिक मूल्यवान होता है यदि पृष्ठ में उच्च पेजरैंक होता है।

  • बाहरी लिंक विविधता

मूल रूप से विभिन्न रूट डोमेन से लिंक होते हैं, लेकिन अन्य कारक भी भूमिका निभाते हैं। भौगोलिक दृष्टि से लिंक करने वाले वेबसेवर (उनके आईपी पते के अनुसार) के कारक भी कितने अलग हैं।

  • ट्रस्ट रैंक

उदाहरण के लिए यदि बड़ी, भरोसेमंद, स्थापित रेडियोधर्मी सामग्री वाली साइटें आपको लिंक करती हैं, तो आपको ट्रस्ट रैंक मिलता है। यही कारण है कि न्यूयॉर्क टाइम्स का एक लिंक कुछ अजीब नई वेबसाइट की तुलना में अधिक मूल्यवान है, भले ही यह पेजरैंक अधिक हो!

  • डोमेन ट्रस्ट

यदि आपका डोमेन विश्वसनीय है तो आपकी पूरी वेबसाइट आपकी सामग्री को बढ़ावा देती है। अच्छी तरह से अलग कारक यहां गिनती हैं। निश्चित रूप से विश्वसनीय डोमेन से आपके डोमेन पर लिंक, लेकिन यदि आप एक ही डेटासेंटर में महत्वपूर्ण वेबसाइटों के रूप में हैं तो यह भी अच्छा होगा।

  • विषय विशिष्ट लिंक में।

यदि ऐसी वेबसाइटें जिन्हें आपके लिए किसी विषय से हल किया जा सकता है और क्वेरी को इस विषय पर भी हल किया जा सकता है, तो यह अच्छा है।

  • समय के साथ लिंक का वितरण।

यदि आपने थोड़े समय में बहुत से लिंक अर्जित किए हैं, तो यह इस समय और निकट भविष्य में आपको अच्छा लगेगा। लेकिन समय के बाद में इतना अच्छा नहीं है। यदि आप धीमे और स्थिर कमाई लिंक करते हैं तो यह आपको "कालातीत" सामग्री के लिए अच्छा लगेगा।

  • प्रतिबंधित डोमेन से लिंक

एक .gov डोमेन से एक लिंक बहुत लायक है।

  • उपयोगकर्ता क्लिक व्यवहार

आपके खोज परिणाम का क्लिकर क्या है?

  • साइट पर बिताया समय

Google एनालिटिक्स ट्रैकिंग इत्यादि। यह भी ट्रैक किया जाता है यदि उपयोगकर्ता वापस क्लिक करता है या आपका खोलने के बाद किसी अन्य परिणाम पर क्लिक करता है।

  • एकत्रित उपयोगकर्ता डेटा

वोट, रेटिंग, आदि, जीमेल में संदर्भ, इत्यादि।

अब मैं एक तीसरी श्रेणी पेश करूंगा, और ऊपर से एक या दो अंक इस श्रेणी में जाएंगे, लेकिन मैंने इसके बारे में सोचा नहीं है ... श्रेणी है:

** सामान्य रूप से आपकी वेबसाइट कितनी महत्वपूर्ण / अच्छी है **

आपकी वेबसाइटों की गुणवत्ता के आधार पर आपके सभी पृष्ठों को थोड़ा सा रैंक किया जाएगा

कारकों में शामिल हैं:

  • अच्छी साइट आर्किटेक्चर (नेविगेट करने में आसान, संरचित। साइटमैप, आदि ...)

  • कैसे स्थापित (लंबे मौजूदा डोमेन अधिक मूल्यवान हैं)।

  • होस्टर की जानकारी (आपके पास कौन सी अन्य वेबसाइट होस्ट की जाती हैं?

  • अपने सटीक नाम की आवृत्ति खोजें।

आखिरी, लेकिन कम से कम, मैं यह कहना चाहता हूं कि इनमें से बहुत से सिद्धांत कारक अर्थपूर्ण तकनीक से समृद्ध हो सकते हैं और नए लोगों को पेश किया जा सकता है।

उदाहरण के लिए कोई टाइटैनिक की खोज कर सकता है और आपके पास बर्फबारी के बारे में एक वेबसाइट है ... जिसे सहसंबंध में सेट किया जा सकता है जो परिलक्षित हो सकता है।

हाल ही में अर्थपूर्ण पहचानकर्ताओं की शुरुआत की। उदाहरण के लिए OWL टैग का भविष्य में बड़ा प्रभाव हो सकता है।

उदाहरण के लिए टाइटैनिक फिल्म के बारे में एक ब्लॉग इस पृष्ठ पर एक संकेत डाल सकता है कि यह वही सामग्री है जो एक ही फिल्म के विकिपीडिया लेख पर समान सामग्री है।

इस प्रकार की लिंकिंग वर्तमान में भारी विकास और स्थापना के तहत है और कोई भी नहीं जानता कि इसका उपयोग कैसे किया जाएगा।

हो सकता है कि डुप्लिकेट सामग्री फ़िल्टर की गई हो, और केवल उसी सामग्री का सबसे महत्वपूर्ण प्रदर्शित होता है? या शायद दूसरी तरफ दौर? आपको बहुत सारे पेज प्रस्तुत किए जाते हैं जो आपकी क्वेरी से मेल खाते हैं। भले ही वे आपके कीवर्ड न हों?

Google आपकी खोज क्वेरी के विषय के आधार पर विभिन्न प्रासंगिकताओं में कारकों को भी लागू करता है!


वास्तव में आपके प्रश्न का उत्तर देना (और आमतौर पर खोज इंजन के बारे में नहीं):

मेरा मानना ​​है कि Instapaper की तरह थोड़ा जा रहा है सबसे अच्छा विकल्प होगा।

Instapaper के पीछे तर्क (मैंने इसे नहीं बनाया है, इसलिए मुझे निश्चित रूप से आंतरिक कार्य नहीं पता है, लेकिन भविष्यवाणी करना बहुत आसान है कि यह कैसे काम करता है):

  1. टेक्स्ट-जैसी तत्वों में पाठ का सबसे बड़ा समूह खोजें (अनुच्छेद टैग पर भरोसा करते हुए, बहुत ही सुरुचिपूर्ण, उन क्रैपी साइटों के साथ काम नहीं करेगा जो पी के बजाय div का उपयोग करते हैं)। असल में, आपको ब्लॉक तत्वों (divs, ps, आदि) और पाठ की मात्रा के बीच अच्छी संतुलन खोजने की आवश्यकता है। कुछ थ्रेसहोल्ड के साथ आओ: यदि एक्स संख्याओं की संख्या मार्कअप द्वारा अविभाजित रहती है, तो वह पाठ मुख्य बॉडी टेक्स्ट से संबंधित है। फिर कुछ प्रकार के टेक्स्ट / मार्कअप थ्रेसहोल्ड को रखने वाले भाई बहनों में विस्तार करें।

  2. एक बार जब आप सबसे कठिन हिस्सा करते हैं - यह पता लगाएं कि वास्तविक लेख से कौन सा पाठ संबंधित है - यह बहुत आसान हो जाता है। आप उस पाठ के आस-पास पहली छवि पा सकते हैं और थंबनेल के रूप में इसका उपयोग कर सकते हैं। इस तरह आप विज्ञापनों से बचेंगे, क्योंकि वे बॉडी टेक्स्ट मार्कअप-वार के करीब नहीं होंगे।

  3. अंत में, कीवर्ड के साथ आना मजेदार हिस्सा है। आप कई चीजें कर सकते हैं: आवृत्ति के अनुसार शब्दों को ऑर्डर करें, शोर (एंड्स, ओआरएस और इतने पर) हटाएं और आपके पास कुछ अच्छा है। "बॉडी टेक्स्ट एरिया के ऊपर प्रमुख प्रमुख टेक्स्ट तत्व" (यानी आपके लेख का शीर्षक), पृष्ठ शीर्षक, मेटा और आपके पास कुछ स्वादिष्ट स्वादिष्ट है।

इन सभी विचारों को, यदि सही ढंग से लागू किया गया है, तो वे बहुत बुलेट प्रूफ होंगे, क्योंकि वे आपके कोड कॉम्प्लेक्स को बनाकर अर्थपूर्ण मार्कअप पर भरोसा नहीं करते हैं, आप सुनिश्चित करते हैं कि यहां तक ​​कि बहुत ही गंदे-कोडित वेबसाइटों का पता लगाया जाएगा।

बेशक, यह खराब प्रदर्शन के नकारात्मक पक्ष के साथ आता है, लेकिन मुझे लगता है कि यह गरीब नहीं होना चाहिए।

युक्ति: बड़े पैमाने पर वेबसाइटों के लिए, जिनके लिए लोग अक्सर लिंक करते हैं, आप HTML तत्व सेट कर सकते हैं जिसमें बॉडी टेक्स्ट (जिसे मैं बिंदु # 1 पर वर्णित कर रहा था) मैन्युअल रूप से सेट कर सकता है। यह सहीता और गति चीजों को सुनिश्चित करेगा।

उम्मीद है इससे कुछ मदद मिली होगी।





relevance