lucene www Elasticsearch: herpes zóster con eliminación de palabras de tope



www elasticsearch org download (0)

Estoy tratando de implementar un mapeo elasticsearch para optimizar la búsqueda de frases en un gran cuerpo de texto. De acuerdo con las sugerencias en este artículo , estoy usando un filtro de tejas para construir múltiples unigramas por frase.

Dos preguntas:

  1. En el artículo mencionado, las palabras vacías se filtran y las tejas se ocupan de los espacios faltantes insertando tokens "_". Estos tokens deben eliminarse del unigram indexado por el motor. El objetivo de esta eliminación es poder responder a las consultas de frase que contienen todo tipo de palabras "inútiles". La solución estándar (como se menciona en el artículo) ya no es posible, dado que Lucene está desaprobando una determinada función (enable_position_increments) necesaria para este tipo de comportamiento. ¿Cómo resuelvo este tipo de problema?

  2. Debido a la eliminación de la puntuación, de forma rutinaria veo los unigramas que resultan de este proceso que cubre ambas frases. Desde el punto de vista de la búsqueda, cualquier resultado que contenga palabras de dos frases separadas no es correcto. ¿Cómo evito (o atenúo) este tipo de problemas?