math - नमूने लेने वाले उपयोगकर्ता नाम से साइट के उपयोगकर्ताबेस के आकार का अनुमान लगाने का तरीका




machine-learning probability (2)

मान लीजिए कि आप उस साइट के उपयोगकर्ता बेस के आकार का अनुमान लगा सकते हैं जो इस जानकारी को सार्वजनिक नहीं करता है।

अलग-अलग संभावनाओं वाले लोगों के पास अलग-अलग उपयोगकर्ता नाम हासिल करने की संभावना अधिक है उदाहरण के लिए, यदि उपयोगकर्ता नाम 'निक' सिस्टम पर मौजूद नहीं है, तो इसकी संभावना बहुत कम उपयोगकर्ताबेस है यदि उपयोगकर्ता नाम 'स्टारबैबी' लिया जाता है, तो यह एक बहुत बड़ी साइट होने की संभावना है यह एक सीधा बेयसियन समस्या की तरह लगता है

समस्या यह है कि विभिन्न साइट्स को स्वीकार्य उपयोगकर्ता नामों का एक अलग स्थान हो सकता है। सबसे बड़ी समस्या सामान्य वर्णों की वैधता होगी जैसे रिक्त स्थान, मैं कल्पना करता हूं एक और मुद्दा जो पूर्व वितरण को दाग सकता है, यह है कि क्या साइट नामों का सुझाव देते हैं, जब आप चाहते हैं, या आपको एक और रचनात्मक नाम के बारे में सोचने के लिए छोड़ देता है

आप भिन्न आकार के सिस्टम में उपयोगकर्ता नाम की आवृत्ति की एक प्रशिक्षण सेट कैसे बना सकते हैं? क्या निश्चित रूप से वर्गीकृत वर्गीकरण के बजाय संख्यात्मक आकलन करने के लिए Bayes का उपयोग करने का एक तरीका है?


इसका एकमात्र तरीका सिस्टम पर उपयोगकर्ता नामों का एक बड़ा सेट प्राप्त करना है, जिसके लिए आप उपयोगकर्ताबेस के आकार को जानते हैं। उपयोगकर्ता के नामों में डेटा खोला जा सकता है जहां कुछ नाम अधिक सामान्य होते हैं। लॉन्च ऑफ द रिंग्स फोरम में भी एक छोटा उपयोगकर्ताबेस में संभवतः यूज़रनेम नामक खिलाड़ी शामिल हो सकता है, उदाहरण के लिए


मुझे लगता है कि यह एक अच्छा विचार है!

आप कुछ अलग उपयोगकर्ता नामों के लिए UserNameCheck.com का उपयोग करके एक सेट को एक साथ सेट कर सकते हैं और उन परिणामों के संदर्भों को संदर्भित कर सकते हैं, जो उन साइट्स के उन प्रयोक्ताओं के आकार के साथ देता है जो उन्हें बाहर निकालते हैं।

नोट : उस वेबसाइट की जांच करने के लिए ऐसा नहीं लगता है कि उपयोगकर्ता नाम साइट के लिए मान्य हैं, उदाहरण के लिए, ऐसा लगता है कि Gmail आपको "[email protected]" पंजीकरण करने देगा, हालांकि यह बहुत छोटा है