Erlang 21 - 2. Character Set and Source File Encoding

2 चरित्र सेट और स्रोत फ़ाइल एन्कोडिंग




erlang

2 चरित्र सेट और स्रोत फ़ाइल एन्कोडिंग

2.1 चरित्र सेट

Erlang टोकन का सिंटैक्स पूर्ण ISO-8859-1 (लैटिन -1) वर्ण सेट के उपयोग की अनुमति देता है। यह निम्नलिखित तरीकों से ध्यान देने योग्य है:

  • सभी लैटिन -1 प्रिंट करने योग्य वर्णों का उपयोग किया जा सकता है और बिना बैकलेश सम्मेलन के दिखाया जा सकता है।

  • परमाणु और चर सभी लैटिन -1 अक्षरों का उपयोग कर सकते हैं।

अष्टभुजाकार दशमलव कक्षा
२०० - २३ 23 128 - 159 पात्रों पर नियंत्रण रखें
240 - 277 160 - 191 - ¿ विराम चिह्न वर्ण
300 - 326 192 - 214 Ö - Ö बड़ी वर्तनी के अक्षर
327 215 × विराम चिह्न वर्ण
३३० - ३३६ 216 - 222 Þ - Þ बड़ी वर्तनी के अक्षर
337 - 366 223 - 246 ö - ö छोटे अक्षर
367 247 ÷ विराम चिह्न वर्ण
370 - 377 248 - 255 ø - ÿ छोटे अक्षर

तालिका 2.1: चरित्र वर्ग

Erlang / OTP R16B में यूनिकोड को संभालने के लिए Erlang टोकन के सिंटैक्स को बढ़ाया गया था। समर्थन स्ट्रिंग शाब्दिक और टिप्पणियों तक सीमित था। Erlang स्रोत फ़ाइलों में यूनिकोड के उपयोग के बारे में अधिक STDLIB's User's Guide में पाया जा सकता है।

Erlang / OTP 20 से, परमाणुओं और फ़ंक्शन नामों को आईएसओ-लैटिन -1 रेंज के बाहर यूनिकोड वर्णों को शामिल करने की अनुमति है। मॉड्यूल नाम, एप्लिकेशन नाम और नोड नाम अभी भी आईएसओ-लैटिन -1 श्रेणी तक ही सीमित हैं।

2.2 स्रोत फ़ाइल एन्कोडिंग

स्रोत फ़ाइल की पहली दो पंक्तियों में से एक में Erlang स्रोत फ़ाइल encoding का चयन एक टिप्पणी द्वारा किया जाता है। पहला स्ट्रिंग जो नियमित अभिव्यक्ति coding\s*[:=]\s*([-a-zA-Z0-9])+ से मेल खाता है coding\s*[:=]\s*([-a-zA-Z0-9])+ _ coding\s*[:=]\s*([-a-zA-Z0-9])+ एन्कोडिंग का चयन करता है। यदि मिलान स्ट्रिंग एक अमान्य एन्कोडिंग है, तो इसे अनदेखा कर दिया जाता है। वैध एनकोडिंग Latin-1 और UTF-8 , जहां पात्रों के मामले को स्वतंत्र रूप से चुना जा सकता है।

निम्न उदाहरण डिफ़ॉल्ट एन्कोडिंग के रूप में UTF-8 का चयन करता है:

%% coding: utf-8

दो और उदाहरण, दोनों का चयन लैटिन -1 डिफ़ॉल्ट एनकोडिंग के रूप में:

%% For this file we have chosen encoding = Latin-1
%% -*- coding: latin-1 -*-

Erlang / OTP 17.0 के बाद से Erlang स्रोत फ़ाइलों के लिए डिफ़ॉल्ट एन्कोडिंग को लैटिन -1 से UTF-8 में बदल दिया गया है।