query - solr search




Lucene 점수 결과 (2)

Lucene에서는 각각 하나의 파티션 만 포함하는 여러 인덱스가있는 경우 왜 다른 인덱스에서 같은 검색을하면 다른 점수로 결과가 반환됩니까? 다른 서버의 결과가 정확하게 일치합니다.

즉 내가 검색 한 경우 :

  • 이름 - John Smith
  • DOB - 1911/11/11

파티션 0 은 0.345의 점수를 반환합니다.

파티션 1 은 0.337의 점수를 반환합니다.

둘 다 이름과 DOB에 정확히 일치합니다.


내가 완전히 오해하지 않는다면 점수에 따라 점수가 결정되기 때문입니다.

인덱스가 다른 경우 (더 많거나 적거나 다른 데이터로 인덱싱 된 경우) 점수가 달라집니다.

http://lucene.apache.org/core/3_6_0/scoring.html

(경고 : 수학 포함 :-))


scoring 은 역 문서 빈도 (IDF)를 포함합니다. 용어 "John Smith"가 한 파티션에 0, 100 번, 파티션 1에 한 번 있습니다. John Smith를 검색하는 점수는 용어가 부족하기 때문에 파티션 1에서 더 높은 검색이됩니다.

이 과정을 거치려면 색인이 모든 파티션에 있어야합니다. 그렇지 않으면 IDF를 덮어 써야합니다.







lucene