python - uci machine learning repository 使い方




ウェブページから国際文字を取得するには? (2)

この質問には既に回答があります:

私は、単純なpython regexpを使って、サッカー(サッカー)のWebページからいくつかの情報を掻き出したいと思っています。 問題は、最初のチャップ、「RITALO」などのプレイヤーが「RITALO!」と出てくることです。
つまり、htmlは特殊文字のエスケープマークアップを使用します(例:Ä

htmlを正しいpython文字列に読み込む簡単な方法はありますか? もしそれがXML / XHTMLなら、それは簡単だろう、パーサーはそれをやるだろう。


BeautifulSoupを使ってみてください。 それはトリックを行い、うまく動作するようにうまくフォーマットされたDOMを提供する必要があります。

このブログのエントリーは、それでいくらか成功したようだ。


私は自分でそれを試していないが、試してみた

http://zesty.ca/python/scrape.html

それは、あなたが望むことをするメソッドhtmldecode(text)を持つようです。





unicode