search - tutorial - lucene vs solr




Resultados de la puntuación Lucene (2)

En Lucene, si tenía varios índices que cubrían solo una partición cada uno. ¿Por qué la misma búsqueda en diferentes índices arroja resultados con puntajes diferentes? Los resultados de diferentes servidores coinciden exactamente.

es decir, si busqué:

  • Nombre - John Smith
  • Fecha de nacimiento: 11/11/1934

La partición 0 devolvería una puntuación de 0.345

Partition 1 devolvería un puntaje de 0.337

Ambos coinciden exactamente con el nombre y la fecha de nacimiento.


La scoring contiene la Frecuencia inversa del documento (IDF). Si el término "John Smith" está en una partición, 0, 100 veces y en la partición 1, una vez. El puntaje para buscar a John Smith sería una búsqueda más alta en la partición 1 ya que el término es más escaso.

Para evitar esto, deberías dejar tu índice sobre todas las particiones, o necesitarías anular el IDF.


Porque el puntaje se determina en el índice si no estoy completamente equivocado.

Si tiene índices diferentes (más / menos o datos diferentes que fueron indexados), la puntuación será diferente:

http://lucene.apache.org/core/3_6_0/scoring.html

(Advertencia: contiene matemática :-))





lucene