ultimate - web scraper github php




Scraping HTML in Php (5)

Questa domanda ha già una risposta qui:

Ho fatto alcuni html scraping in PHP usando espressioni regolari. Funziona, ma il risultato è schizzinoso e fragile. Qualcuno ha usato qualche pacchetto che fornisce una soluzione più robusta? Una soluzione guidata dalla configurazione sarebbe l'ideale, ma non sono schizzinoso.




Se la pagina che stai raschiando è valida X (HT) ML, allora lo faranno tutti i parser XML integrati di PHP .

Non ho avuto molto successo con le librerie PHP per lo scraping. Se sei avventuroso, puoi provare con simplehtmldom . Consiglierei Hpricot per Ruby o Beautiful Soup per Python, che sono entrambi eccellenti parser per HTML.


Usando PHP per lo scraping HTML, raccomanderei cURL + regexp o cURL + alcuni parser DOM anche se uso personalmente cURL + regexp. Se hai un profondo assaggio di regexp, a volte è più accurato.


Vorrei raccomandare PHP Simple HTML DOM Parser dopo aver raschiato l'HTML dalla pagina. Supporta HTML non valido e fornisce un modo molto semplice per gestire gli elementi HTML.





screen-scraping