Python文件索引和搜索



1 Answers

我以前没有做过索引,但是下面的内容可能会有帮助:

  1. pyIndex - http://rgaucher.info/beta/pyIndex/ - Python的文件索引库
  2. http://www.xml.com/pub/a/ws/2003/05/13/email.html - 这是一个使用Python和Lucene搜索Outlook电子邮件的脚本
  3. http://gadfly.sourceforge.net/ - 亚伦水的gadfly数据库(我想你可以使用这个索引,没有使用它自己。)

至于使用HDF文件,我听说过一个叫做h5py的模块。

我希望这有帮助。

Question

我有一个大的关闭文件(hdf),我需要启用搜索。 对于Java我会使用Lucene的,因为它是一个文件和文档索引引擎。 我不知道什么是python相当于是。

任何人都可以推荐哪个图书馆,我应该使用索引一个大集合的文件进行快速搜索? 或者是最好的方式推出自己的?

我曾经看过一些关于pylucenelupy的文章 ,但是这两个项目看起来都是非常不活跃和不受支持的,所以我不确定是否应该依靠它们。

最后说明:Woosh和Pylucene似乎很有希望,但是woosh仍然是alpha,所以我不确定我想依赖它,而且我在编译pylucene时遇到了问题,而且没有实际的释放。 在查看了一些数据之后,它主要是数字和默认文本字符串,所以现在索引引擎不能帮助我。 希望这些图书馆能稳定下来,稍后访问者会找到一些用处。




Xapian常用的基于C ++的信息检索库是Xapian http://xapian.org/

它非常快速,可以愉快地管理大量的数据,但是它不像Lucene那么容易扩展。




Related