web crawler - Come impostare un robot.txt che consente solo la pagina predefinita di un sito

web crawler - Come impostare un robot.txt che consente solo la pagina predefinita di un sito

Supponiamo che abbia un sito su http://example.com.Mi piacerebbe molto che i bot potessero vedere la home page, ma ogni altra pagina deve essere bloccata in quanto inutile per lo spider. In altr…


Come posso bloccare i crawler mp3 dal mio sito web sotto Apache?

C'è un modo per bloccare l'accesso da un referrer usando un file.htaccess o simile? La mia larghezza di banda viene divorata da persone cui si fa riferimento da http://www.dizzler.com, un sito bas…


search - Strumenti per cercare stringhe all'interno di file senza indicizzazione

Devo cambiare alcune stringhe di connessione in un'applicazione legacy incredibilmente vecchia e i programmatori che l'hanno fatto hanno pensato che sarebbe stata una buona idea ritoccare l'intera a…


c# - Indicizzazione di Lucene: spiegate le modalità di memorizzazione e indicizzazione

Penso di non capire ancora le opzioni di indicizzazione lucene. Le seguenti opzioni sono Store.Yes Store.No e Index.Tokenized Index.Un_Tokenized Index.No Index.No_Norms Non capisco…


Ho specificato il set di caratteri nelle intestazioni, devo specificarlo nel meta/head/html?

Ho specificato il set di caratteri nelle intestazioni, devo specificarlo nel meta/head/html?…


html - Meta-tag per dispositivi mobili-dovrebbero essere usati?

I meta-tag "Viewport", "MobileOptimized" e "HandheldFriendly" possono essere utilizzati per fornire contenuti HTML formattati in modo appropriato ai dispositivi mobili. Questi tag sono cose buone?…


seo - Meta tag vs robots.txt

È meglio utilizzare i meta tag*o il file robots.txt per informare gli spider/crawler di includere o escludere una pagina? Ci sono problemi nell'usare sia i meta tag che i robots.txt?*Ad esem…


indexing - Posso forzare l'indicizzazione della tabella di Lua da zero?

Ho letto di Lua, è un linguaggio quasi perfetto, ma c'è stato un errore critico. È indicizzazione basata su uno. Ho letto anche che ha una funzione per impostare il valore nell'indice 0, ma non vi…


html - Come impedire ai motori di ricerca di indicizzare una singola pagina del mio sito web?

Non voglio che i motori di ricerca indicizzino la mia pagina di stampa. Come potrei farlo?…



python - File statici in Flask-robot.txt, sitemap.xml(mod_wsgi)

C'è una soluzione intelligente per archiviare i file statici nella directory root dell'applicazione di Flask. robots.txt e sitemap.xml dovrebbero essere trovati in/, quindi la mia idea era di crea…




txt google file robot wordpress meta tag noindex index disallow