Javaまたは.NETライブラリを使用したColdFusionからのPDFの光学式文字認識の実行


Answers

VerityはデフォルトでPDFファイルのインデックスを作成できます。

http://livedocs.adobe.com/coldfusion/6/Developing_ColdFusion_MX_Applications_with_CFML/indexSearch2.htm#1142322

Question

私はPDFを取ってそれからテキストを抽出するために探しています。 次に、ColdFusionの利用可能なVerity検索を使用して内容を検索できるようにしたいと考えています。

既にこれを行うライブラリーはありますか? 私はJavaから、または.NET(Javaより優先)のライブラリをCFに呼び出すことができるので、スコープに含めます。

どんな洞察や経験があれば大変感謝しています...ありがとう!

編集:私はCFと知っている限り、テキストがPDFに埋め込まれているPDFファイルのインデックスを作成します。 私が対処しなければならないPDFは、テキストが画像としてスキャンされています。




半関連のノートでは、私はcoldfusionでの2D Matrixバーコードのエンコードと読み取りについて非常にきれいな記事を見つけました。

http://www.stillnetstudios.com/2007/12/15/2d-barcodes-coldfusion/

これは、コード化された情報を抽出する必要があるという私のいくつかの問題を解決するかもしれませんが、私はまだテキストの本文の後です。

tessnetに関しては、.netバージョンも見つかりました。 http://www.pixel-technology.com/freeware/tessnet2/ TIFFの代わりにPDFでネイティブにフィードできたら::)




Links