unicode - वास्तविक उपयोग में सबसे आम गैर-बीएमपी यूनिकोड वर्ण क्या हैं?




cjk codepoint (2)

इमोजी अब तक सबसे आम गैर-बीएमपी पात्र हैं। 😂, अन्यथा जॉय के साथ यू + 1 एफ 602 फेस के रूप में जाना जाता है, ट्विटर की सार्वजनिक धारा पर सबसे आम है। यह tilde से अधिक बार होता है!

आपके अनुभव में यूनिकोड वर्ण, कोडपॉइंट्स, बीएमपी (बेसिक बहुभाषी विमान) के बाहर की सीमाएं अब तक सबसे आम हैं? ये वे हैं जिन्हें यूटीएफ -8 में 4 बाइट्स या यूटीएफ -16 में सरोगेट्स की आवश्यकता होती है।

मुझे उम्मीद है कि चीनी और जापानी पात्रों का नाम नामों में उपयोग किया जाएगा, लेकिन सबसे व्यापक सीजेके मल्टीबाइट चरित्र सेट में शामिल नहीं है, लेकिन इस परियोजना पर मैं अंग्रेजी वर्कबुकरी पर अधिकतर काम करता हूं, हमने पाया है कि गोथिक वर्णमाला है अभी तक बहुत आम है।

अद्यतन करें

मैंने गैर-बीएमपी पात्रों के लिए पूरे विकिपीडिया को स्कैन करने के लिए कुछ सॉफ़्टवेयर टूल लिखे हैं और मुझे आश्चर्य हुआ कि जापानी विकिपीडिया गोथिक वर्णमाला में भी सबसे आम है। यह चीनी विकिपीडिया में भी सच है लेकिन इसमें कई चीनी पात्रों का इस्तेमाल 50 या 70 बार किया जा सकता है, जिनमें "𨭎", "𠬠" और "𩷶" शामिल हैं।


बढ़िया सवाल!

जवाब गणितीय पत्र है। पिछले दिसंबर में मैंने पूरे पबमेड ओपन एक्सेस कॉर्पस का स्कैन किया था, और इन आंकड़ों के साथ इसमें अस्थिर पात्रों के लिए आया था।

नीचे दिए गए आंकड़ों में पहला नंबर यह है कि पूरे कॉर्पस में दिए गए प्रत्येक दिए गए कोड बिंदु की कितनी प्रतियां। सबसे पहले, हालांकि, आपको सापेक्ष आवृत्तियों पर एक धारणा देने के लिए, यहां उस कॉर्पस में शीर्ष दस ट्रांस-एएससीआईआईआई कोड बिंदु हैं:

 2663710 U+002013 ‹–›  GC=Pd    EN DASH
 1065594 U+0000A0 ‹ ›  GC=Zs    NO-BREAK SPACE
 1009762 U+0000B1 ‹±›  GC=Sm    PLUS-MINUS SIGN
  784139 U+002212 ‹−›  GC=Sm    MINUS SIGN
  602377 U+002003 ‹ ›  GC=Zs    EM SPACE
  528576 U+0003BC ‹μ›  GC=Ll    GREEK SMALL LETTER MU
  519669 U+0003B2 ‹β›  GC=Ll    GREEK SMALL LETTER BETA
  512312 U+0003B1 ‹α›  GC=Ll    GREEK SMALL LETTER ALPHA
  491842 U+00200A ‹ ›  GC=Zs    HAIR SPACE
  462505 U+0000B0 ‹°›  GC=So    DEGREE SIGN

और यहां आवृत्ति का निर्णय लेने के लिए ट्रांस-बीएमपी कोड पॉइंट्स हैं:

     544 U+01D49E ‹𝒞›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL C
     450 U+01D4AF ‹𝒯›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL T
     385 U+01D4AE ‹𝒮›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL S
     292 U+01D49F ‹𝒟›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL D
     285 U+01D4B3 ‹𝒳›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL X
     262 U+01D4A9 ‹𝒩›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL N
     258 U+01D4AB ‹𝒫›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL P
     254 U+01D4A2 ‹𝒢›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL G
     185 U+01D49C ‹𝒜›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL A
     178 U+01D53C ‹𝔼›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL E
     137 U+01D4AA ‹𝒪›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL O
      56 U+01D4A5 ‹𝒥›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL J
      48 U+01D4A6 ‹𝒦›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL K
      44 U+01D4B1 ‹𝒱›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL V
      43 U+01D4B2 ‹𝒲›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL W
      42 U+01D4B4 ‹𝒴›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Y
      41 U+01D4B5 ‹𝒵›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Z
      35 U+01D4B0 ‹𝒰›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL U
      30 U+01D4AC ‹𝒬›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Q
      23 U+01D54A ‹𝕊›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL S
      21 U+01D539 ‹𝔹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL B
      19 U+01D5A7 ‹𝖧›  GC=Lu    MATHEMATICAL SANS-SERIF CAPITAL H
      18 U+01D517 ‹𝔗›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL T
      15 U+01D4C3 ‹𝓃›  GC=Ll    MATHEMATICAL SCRIPT SMALL N
      14 U+01D535 ‹𝔵›  GC=Ll    MATHEMATICAL FRAKTUR SMALL X
      13 U+01D4BF ‹𝒿›  GC=Ll    MATHEMATICAL SCRIPT SMALL J
      11 U+01D540 ‹𝕀›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL I
       9 U+01D465 ‹𝑥›  GC=Ll    MATHEMATICAL ITALIC SMALL X
       9 U+01D4CE ‹𝓎›  GC=Ll    MATHEMATICAL SCRIPT SMALL Y
       9 U+01D538 ‹𝔸›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL A
       8 U+01D4C2 ‹𝓂›  GC=Ll    MATHEMATICAL SCRIPT SMALL M
       8 U+01D54D ‹𝕍›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL V
       7 U+01D4B6 ‹𝒶›  GC=Ll    MATHEMATICAL SCRIPT SMALL A
       7 U+01D4BE ‹𝒾›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹𝓌›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹𝔖›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       7 U+01D4BE ‹𝒾›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹𝓌›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹𝔖›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       4 U+01D4CF ‹𝓏›  GC=Ll    MATHEMATICAL SCRIPT SMALL Z
       4 U+01D53B ‹𝔻›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL D
       4 U+01D54B ‹𝕋›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL T
       3 U+01D4BB ‹𝒻›  GC=Ll    MATHEMATICAL SCRIPT SMALL F
       3 U+01D4CA ‹𝓊›  GC=Ll    MATHEMATICAL SCRIPT SMALL U
       3 U+01D507 ‹𝔇›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL D
       3 U+01D542 ‹𝕂›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL K
       3 U+01D546 ‹𝕆›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL O
       2 U+01D4BD ‹𝒽›  GC=Ll    MATHEMATICAL SCRIPT SMALL H
       2 U+01D4C5 ‹𝓅›  GC=Ll    MATHEMATICAL SCRIPT SMALL P
       2 U+01D505 ‹𝔅›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL B
       2 U+01D50E ‹𝔎›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL K
       2 U+01D541 ‹𝕁›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL J
       2 U+01D543 ‹𝕃›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL L
       2 U+100002 ‹􀀂›  GC=Co    <private use character>
       1 U+01D4B8 ‹𝒸›  GC=Ll    MATHEMATICAL SCRIPT SMALL C
       1 U+01D4C1 ‹𝓁›  GC=Ll    MATHEMATICAL SCRIPT SMALL L
       1 U+01D53D ‹𝔽›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL F
       1 U+01D53E ‹𝔾›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL G
       1 U+01D54C ‹𝕌›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL U
       1 U+01D6A4 ‹𝚤›  GC=Ll    MATHEMATICAL ITALIC SMALL DOTLESS I
       1 U+01D7D9 ‹𝟙›  GC=Nd    MATHEMATICAL DOUBLE-STRUCK DIGIT ONE

मैं वास्तव में चाहता हूं कि मुझे पता था कि वे क्या करने के लिए यू + 100002 का उपयोग कर रहे थे। :(

यदि वे आपके ब्राउज़र में दिखाई नहीं दे रहे हैं, तो आपको जॉर्ज डोरोस के सिम्बोला फ़ॉन्ट को इंस्टॉल करना चाहिए। इसमें भी मजेदार यूनिकोड 6.0.0 कोड पॉइंट्स हैं।







astral-plane