vector - वेक्टर स्पेस मॉडल: कोसाइन समानता बनाम यूक्लिडियन दूरी




distance euclidean-distance (2)

मेरे पास वर्गीकृत पाठ का निगम है। इनमें से मैं वैक्टर बनाते हैं। प्रत्येक वेक्टर एक दस्तावेज़ से मेल खाता है। वेक्टर घटक इस दस्तावेज़ में टीआईआईडीएफ मूल्यों के रूप में गणना किए गए शब्द वजन हैं। इसके बाद मैं एक मॉडल बनाता हूं जिसमें प्रत्येक वर्ग को एक वेक्टर द्वारा प्रस्तुत किया जाता है। मॉडल में कई वैक्टर हैं क्योंकि निगम में कक्षाएं हैं। एक मॉडल वेक्टर का घटक इस वर्ग में वैक्टर से ली गई सभी घटक मानों के माध्य के रूप में गणना की जाती है। अवर्गीकृत वैक्टरों के लिए मैं इन वैक्टरों के बीच कोसाइन की गणना करके मॉडल वेक्टर के साथ समानता निर्धारित करता हूं।

प्रशन:

1) क्या मैं अपनी समानता की गणना करने के लिए अवर्गीकृत और मॉडल वेक्टर के बीच यूक्लिडियन दूरी का उपयोग कर सकता हूं?

2) क्यों यूक्लिडियन दूरी को दो वैक्टरों के बीच कोण के कोसाइन की बजाय समानता माप के रूप में उपयोग नहीं किया जा सकता है और इसके विपरीत?

धन्यवाद!

https://code.i-harness.com


इसके बारे में सोचने के लिए एक अनौपचारिक लेकिन सहज ज्ञान युक्त तरीका वेक्टर के 2 घटकों पर विचार करना है: दिशा और परिमाण

दिशा वेक्टर की "वरीयता" / "शैली" / "भावना" / "गुप्त परिवर्तनीय" है, जबकि परिमाण यह है कि वह उस दिशा की ओर कितनी मजबूत है।

दस्तावेजों को वर्गीकृत करते समय हम उन्हें अपनी समग्र भावना से वर्गीकृत करना चाहते हैं, इसलिए हम कोणीय दूरी का उपयोग करते हैं।

यूक्लिडियन दूरी दिशा के बजाए उनके एल 2-मानदंड (आयाम, 2 आयामी मामले में) द्वारा क्लस्टर किए जाने वाले दस्तावेज़ों के लिए अतिसंवेदनशील है। Ie वैक्टर बहुत अलग दिशाओं के साथ क्लस्टर किया जाएगा क्योंकि उत्पत्ति से उनकी दूरी समान हैं।


मैं रिवर्स ऑर्डर में सवालों का जवाब दूंगा। आपके दूसरे प्रश्न के लिए, कोसाइन समानता और यूक्लिडियन दूरी वेक्टर समानता को मापने के दो अलग-अलग तरीके हैं। पूर्व मूल के संबंध में वैक्टरों की समानता को मापता है, जबकि बाद वाले वेक्टर के साथ ब्याज के विशेष बिंदुओं के बीच की दूरी को मापता है। आप या तो अलगाव में उपयोग कर सकते हैं, उन्हें गठबंधन कर सकते हैं और दोनों का उपयोग कर सकते हैं, या समानता निर्धारित करने के कई अन्य तरीकों में से एक को देख सकते हैं। अधिक जानकारी के लिए these स्लाइड्स को माइकल कोलिन्स व्याख्यान से देखें।

आपका पहला सवाल बहुत स्पष्ट नहीं है, लेकिन आप दो वैक्टरों के बीच दूरी खोजने के लिए माप का उपयोग करने में सक्षम होना चाहिए, भले ही आप दस्तावेजों की तुलना कर रहे हों या आपके "मॉडल" (जो परंपरागत रूप से क्लस्टर के रूप में वर्णित हों, जहां पर मॉडल सभी समूहों का योग है)।





cosine