supprimer - tag html php




Scraping HTML en PHP (5)

Cette question a déjà une réponse ici:

J'ai fait du raclage html en PHP en utilisant des expressions régulières. Cela fonctionne, mais le résultat est finicky et fragile. Est-ce que quelqu'un a utilisé des paquets qui fournissent une solution plus robuste? Une solution basée sur la configuration serait idéale, mais je ne suis pas difficile.


En utilisant PHP pour le grattage HTML, je recommanderais cURL + regexp ou cURL + certains parseurs DOM bien que j'utilise personnellement cURL + regexp. Si vous avez un goût profond de regexp, c'est parfois plus précis.



Je me suis amusé à travailler avec htmlSQL , qui n'est pas vraiment une solution haut de gamme, mais très simple à htmlSQL .


Je recommande également 'Simple HTML DOM Parser'. C'est une bonne option, surtout si vous êtes familier avec les sélecteurs jQuery ou JavaScript, alors vous vous trouverez à la maison.

J'ai même blogué à ce sujet dans le passé.


Si la page que vous êtes en train de gratter est valide X (HT) ML, alors l'un des analyseurs XML intégrés de PHP fera l'affaire.

Je n'ai pas eu beaucoup de succès avec les bibliothèques PHP pour gratter. Si vous êtes aventureux, vous pouvez essayer simplehtmldom . Je recommanderais Hpricot pour Ruby ou Beautiful Soup pour Python, qui sont tous deux d' excellents parseurs pour HTML.





screen-scraping