math नमूने लेने वाले उपयोगकर्ता नाम से साइट के उपयोगकर्ताबेस के आकार का अनुमान लगाने का तरीका




machine-learning probability (3)

मान लीजिए कि आप उस साइट के उपयोगकर्ता बेस के आकार का अनुमान लगा सकते हैं जो इस जानकारी को सार्वजनिक नहीं करता है।

अलग-अलग संभावनाओं वाले लोगों के पास अलग-अलग उपयोगकर्ता नाम हासिल करने की संभावना अधिक है उदाहरण के लिए, यदि उपयोगकर्ता नाम 'निक' सिस्टम पर मौजूद नहीं है, तो इसकी संभावना बहुत कम उपयोगकर्ताबेस है यदि उपयोगकर्ता नाम 'स्टारबैबी' लिया जाता है, तो यह एक बहुत बड़ी साइट होने की संभावना है यह एक सीधा बेयसियन समस्या की तरह लगता है

समस्या यह है कि विभिन्न साइट्स को स्वीकार्य उपयोगकर्ता नामों का एक अलग स्थान हो सकता है। सबसे बड़ी समस्या सामान्य वर्णों की वैधता होगी जैसे रिक्त स्थान, मैं कल्पना करता हूं एक और मुद्दा जो पूर्व वितरण को दाग सकता है, यह है कि क्या साइट नामों का सुझाव देते हैं, जब आप चाहते हैं, या आपको एक और रचनात्मक नाम के बारे में सोचने के लिए छोड़ देता है

आप भिन्न आकार के सिस्टम में उपयोगकर्ता नाम की आवृत्ति की एक प्रशिक्षण सेट कैसे बना सकते हैं? क्या निश्चित रूप से वर्गीकृत वर्गीकरण के बजाय संख्यात्मक आकलन करने के लिए Bayes का उपयोग करने का एक तरीका है?


इसका एकमात्र तरीका सिस्टम पर उपयोगकर्ता नामों का एक बड़ा सेट प्राप्त करना है, जिसके लिए आप उपयोगकर्ताबेस के आकार को जानते हैं। उपयोगकर्ता के नामों में डेटा खोला जा सकता है जहां कुछ नाम अधिक सामान्य होते हैं। लॉन्च ऑफ द रिंग्स फोरम में भी एक छोटा उपयोगकर्ताबेस में संभवतः यूज़रनेम नामक खिलाड़ी शामिल हो सकता है, उदाहरण के लिए


आपको जो कुछ करना है, वह सटीक रूप से अनुमानित रूप से अनुमान लगाता है कि पंजीकृत उपयोगकर्ताओं की संख्या को देखते हुए एक निश्चित उपयोगकर्ता नाम मौजूद है। चलिए कहते हैं कि एन उपयोगकर्ताओं की संख्या है और यू = 1 अगर उपयोगकर्ता यू मौजूद है और 0 यदि वे अनुपस्थित हैं।

सबसे पहले, धारणा है कि प्रत्येक उपयोगकर्ता नाम के लिए संभावना वितरण प्रत्येक दूसरे से स्वतंत्र हैं। यह सच नहीं होगा - और आप पहले से ही एक कारण के साथ आए हैं - लेकिन शायद यह आवश्यक होगा क्योंकि यह डेटा संग्रह और गणित बहुत आसान बनाता है।

आपको पंजीकृत उपयोगकर्ता नाम वाले साइटों से बहुत सारे डेटा की आवश्यकता होगी और उस साइट के उपयोगकर्ताओं की कुल संख्या। अब, कोई भी विशिष्ट उपयोगकर्ता नाम लें और 2 डी प्लॉट (एन और एक्स पर यू के साथ) पर अपने डेटा पॉइंट्स की कल्पना करें, वहां y = 0 पर एक बिंदु के क्षैतिज रेखा और y = 1 पर दूसरा स्थान होगा। आप या तो एक्स अक्ष को बन्द कर सकते हैं जैसा कि आप सुझाव देते हैं और असतत कार्य प्राप्त करने के लिए बिन में सभी डेटा बिंदुओं का मतलब y समन्वय लेते हैं, या आप कुछ वर्ग के कार्यों में ग्राफ पर अंक लगाने की कोशिश कर सकते हैं। मुझे वाकई पता नहीं है कि ये कार्य किस वर्ग के होंगे - शायद किसी प्रकार का बिजली कानून? (मैं ज़ीफ के कानून के बारे में सोच रहा हूं)।

अब आपके पास Bayes 'नियम लागू करने के लिए संभावना वितरण हैं मुझे नहीं पता कि आप किस प्रकार का एन का इस्तेमाल करना चाहते हैं। एक समान वितरण (कुछ बड़ी संख्या तक) कोई मान्यताओं को नहीं बनाते, लेकिन मुझे लगता होगा कि सबसे साइट्स का एक छोटा उपयोगकर्ता आधार है

मुझे संदेह है कि यह काम करने के लिए, जब आप किसी साइट से उपयोगकर्ता का नमूना करते हैं तो आपको उपयोगकर्ताओं के एक विशिष्ट समूह के लिए ऐसा करना होगा। मैं शर्त लगा रहा हूँ कि उपयोगकर्ता नामों की लोकप्रियता बहुत लंबी पूंछ है और इसलिए उपयोगकर्ताओं का एक यादृच्छिक नमूना आपको बहुत ही कभी-कभी उपयोग किए जाने वाले नामों को देने जा रहा है और इसलिए बहुत सारे अपर्याप्त साक्ष्य हैं

संपादित करें : मुझे एक और सोचा था; अधिकांश मंचों (और स्टैक ओवरफ्लो) में उपयोगकर्ताओं के पास लगातार उपयोगकर्ता आईडी हैं, इसलिए आप सभी छोटे एन के अनुमान देने के लिए बड़ी संख्या में उपयोगकर्ताओं के साथ एक साइट का उपयोग कर सकते हैं।


मुझे लगता है कि यह एक अच्छा विचार है!

आप कुछ अलग उपयोगकर्ता नामों के लिए UserNameCheck.com का उपयोग करके एक सेट को एक साथ सेट कर सकते हैं और उन परिणामों के संदर्भों को संदर्भित कर सकते हैं, जो उन साइट्स के उन प्रयोक्ताओं के आकार के साथ देता है जो उन्हें बाहर निकालते हैं।

नोट : उस वेबसाइट की जांच करने के लिए ऐसा नहीं लगता है कि उपयोगकर्ता नाम साइट के लिए मान्य हैं, उदाहरण के लिए, ऐसा लगता है कि Gmail आपको "[email protected]" पंजीकरण करने देगा, हालांकि यह बहुत छोटा है