[python] NLTK [duplicate]を使用してテキストから見積もりを抽出する方法


Answers

これはパターンとして機能します。つまり、探しているデータは常に引用符で囲みます。 簡単に言えば、パターンマッチングのために正規表現を使用することができます。 この例she said " DAS A SDASD sdasdasd SADSD", " SA23 DSD " ASDAS "ASDAS1 3123$ %$%"

あなたの基本的な例のために働く正規表現は -

list = re.findall("\".*?\"", string)

Listは私たちに['" DAS A SDASD SADASD SADSD"', '" SA23 DSD "', '"ASDAS1 3123$ %$%"']

ここ.*? (改行を除く)任意の文字にマッチし、パターンは引用符( \"\"で始まる)と文字通り一致します。

引用符で囲まれた引用符がこのコードを壊すという事実に注意してください。 あなたは期待される出力を得ることはできません。

Question

この質問には既に回答があります:

私は膨大な数の記事から引用を抽出する必要があるプロジェクトを持っています。 ここで、引用によって、私は人によって言われたことを意味します。例えば、Alenは「抽出されるテキスト」と言っています。 私は他のNLP関連タスクにNLTKを使用していますので、NLTKやPythonライブラリを使用するソリューションは非常に便利です。

ありがとう




Links