vector - वेक्टर स्पेस मॉडल: कोसाइन समानता बनाम यूक्लिडियन दूरी




distance euclidean-distance (2)

इसके बारे में सोचने के लिए एक अनौपचारिक लेकिन सहज ज्ञान युक्त तरीका वेक्टर के 2 घटकों पर विचार करना है: दिशा और परिमाण

दिशा वेक्टर की "वरीयता" / "शैली" / "भावना" / "गुप्त परिवर्तनीय" है, जबकि परिमाण यह है कि वह उस दिशा की ओर कितनी मजबूत है।

दस्तावेजों को वर्गीकृत करते समय हम उन्हें अपनी समग्र भावना से वर्गीकृत करना चाहते हैं, इसलिए हम कोणीय दूरी का उपयोग करते हैं।

यूक्लिडियन दूरी दिशा के बजाए उनके एल 2-मानदंड (आयाम, 2 आयामी मामले में) द्वारा क्लस्टर किए जाने वाले दस्तावेज़ों के लिए अतिसंवेदनशील है। Ie वैक्टर बहुत अलग दिशाओं के साथ क्लस्टर किया जाएगा क्योंकि उत्पत्ति से उनकी दूरी समान हैं।

मेरे पास वर्गीकृत पाठ का निगम है। इनमें से मैं वैक्टर बनाते हैं। प्रत्येक वेक्टर एक दस्तावेज़ से मेल खाता है। वेक्टर घटक इस दस्तावेज़ में टीआईआईडीएफ मूल्यों के रूप में गणना किए गए शब्द वजन हैं। इसके बाद मैं एक मॉडल बनाता हूं जिसमें प्रत्येक वर्ग को एक वेक्टर द्वारा प्रस्तुत किया जाता है। मॉडल में कई वैक्टर हैं क्योंकि निगम में कक्षाएं हैं। एक मॉडल वेक्टर का घटक इस वर्ग में वैक्टर से ली गई सभी घटक मानों के माध्य के रूप में गणना की जाती है। अवर्गीकृत वैक्टरों के लिए मैं इन वैक्टरों के बीच कोसाइन की गणना करके मॉडल वेक्टर के साथ समानता निर्धारित करता हूं।

प्रशन:

1) क्या मैं अपनी समानता की गणना करने के लिए अवर्गीकृत और मॉडल वेक्टर के बीच यूक्लिडियन दूरी का उपयोग कर सकता हूं?

2) क्यों यूक्लिडियन दूरी को दो वैक्टरों के बीच कोण के कोसाइन की बजाय समानता माप के रूप में उपयोग नहीं किया जा सकता है और इसके विपरीत?

धन्यवाद!


मैं रिवर्स ऑर्डर में सवालों का जवाब दूंगा। आपके दूसरे प्रश्न के लिए, कोसाइन समानता और यूक्लिडियन दूरी वेक्टर समानता को मापने के दो अलग-अलग तरीके हैं। पूर्व मूल के संबंध में वैक्टरों की समानता को मापता है, जबकि बाद वाले वेक्टर के साथ ब्याज के विशेष बिंदुओं के बीच की दूरी को मापता है। आप या तो अलगाव में उपयोग कर सकते हैं, उन्हें गठबंधन कर सकते हैं और दोनों का उपयोग कर सकते हैं, या समानता निर्धारित करने के कई अन्य तरीकों में से एक को देख सकते हैं। अधिक जानकारी के लिए these स्लाइड्स को माइकल कोलिन्स व्याख्यान से देखें।

आपका पहला सवाल बहुत स्पष्ट नहीं है, लेकिन आप दो वैक्टरों के बीच दूरी खोजने के लिए माप का उपयोग करने में सक्षम होना चाहिए, भले ही आप दस्तावेजों की तुलना कर रहे हों या आपके "मॉडल" (जो परंपरागत रूप से क्लस्टर के रूप में वर्णित हों, जहां पर मॉडल सभी समूहों का योग है)।





cosine