python - موظف - خطاب طلب توصية من دكتور



تقييم نموذج توصية ليتفم (1)

لقد لعبت مع ليتفم لبعض الوقت، ووجدت أنه من المفيد حقا لتوليد التوصيات. ومع ذلك، هناك نوعان من الأسئلة الرئيسية التي أود أن أعرف.

  1. لتقييم نموذج ليتفم في حالة حيث رتبة التوصيات المسألة، يجب أن أعتمد أكثر على [email protected] أو غيرها من المقاييس التقييم المقدمة مثل AUC score ؟ في أي الحالات يجب أن أركز على تحسين [email protected] بالمقارنة مع غيرها من المقاييس؟ أو ربما ترتبط ارتباطا وثيقا؟ مما يعني إذا تمكنت من تحسين درجة [email protected] ، فإن المقاييس الأخرى ستتبع، هل أنا صحيح؟

  2. كيف تفسر إذا كان النموذج الذي تدرب باستخدام وظيفة فقدان WARP له درجة 0.089 [email protected] ؟ أفيق، الدقة في 5 يخبرني ما هي نسبة من أعلى 5 نتائج إيجابية / ذات الصلة. مما يعني أنني سوف تحصل على 0 [email protected] إذا التنبؤات لا يمكن أن تجعل من أعلى 5 أو سوف تحصل على 0.2 إذا حصلت على توقعات واحدة فقط صحيحة في أعلى 5. ولكن لا أستطيع أن أفسر ما 0.0xx يعني [email protected]

شكر


تقوم بريسيسيون @ K و أوك بقياس أشياء مختلفة، وتعطيك منظورات مختلفة حول جودة النموذج الخاص بك. بشكل عام، يجب أن تكون مرتبطة، ولكن فهم كيف تختلف قد تساعدك على اختيار واحد هو أكثر أهمية للتطبيق الخاص بك.

  • الدقة @ K يقيس نسبة العناصر الإيجابية بين K أعلى الأصناف المرتبة. على هذا النحو، انها تركز جدا على نوعية الترتيب في الجزء العلوي من القائمة: لا يهم كيف جيدة أو سيئة بقية الترتيب الخاص بك طالما البنود K الأولى هي في معظمها إيجابية. وسيكون هذا مقياسا مناسبا إذا كنت ستعرض المستخدمين في أعلى الصفحة.
  • تقيس الجامعة الأمريكية للجودة جودة الترتيب العام. في الحالة الثنائية، يمكن تفسير ذلك على أنه احتمال أن صنف إيجابي تم اختياره عشوائيا يتم ترتيبه أعلى من عنصر سلبي تم اختياره عشوائيا. ونتيجة لذلك، فإن الجامعة الأمريكية بالقرب من 1.0 تشير إلى أن، بشكل عام، طلبك هو الصحيح: وهذا يمكن أن يكون صحيحا حتى لو كان أي من العناصر K الأولى هي ايجابيات. قد يكون هذا المقياس أكثر ملاءمة إذا لم تمارس السيطرة الكاملة على النتائج التي سيتم عرضها على المستخدم؛ قد يكون أن أول K العناصر الموصى بها ليست متاحة أي أكثر (ويقولون، هم من المخزون)، وتحتاج إلى التحرك أبعد من ذلك الترتيب. وهناك درجة أوك عالية ثم تعطيك الثقة بأن الترتيب الخاص بك هو ذات جودة عالية طوال الوقت.

لاحظ أيضا أنه في حين أن القيمة القصوى للمقياس أوك هي 1.0، الحد الأقصى للدقة يمكن تحقيقها @ K يعتمد على البيانات الخاصة بك. على سبيل المثال، إذا كنت قياس الدقة @ 5 ولكن هناك عنصر إيجابي واحد فقط، والنتيجة القصوى التي يمكن تحقيقها هو 0.2.

في ليتفم، و أوك والدقة @ K الروتين عودة صفائف من عشرات متري: واحد لكل مستخدم في بيانات الاختبار الخاص بك. على الأرجح، يمكنك متوسط ​​هذه للحصول على متوسط ​​أوك أو يعني الدقة @ K النتيجة: إذا كان بعض المستخدمين لديك النتيجة 0 على الدقة @ 5 متري، فمن الممكن أن متوسط ​​الدقة @ 5 سيكون بين 0 و 0.2.

أتمنى أن يساعدك هذا!