unicode - सभी-कैप्स को मिश्रित-मामले और संबंधित समस्याओं से परिवर्तित करने के लिए मार्कोव मॉडल का उपयोग करना




nlp ambiguity (2)

मैं यह जानकर एक दरार ले लूँगा कि आप ये कैसे पूरा करेंगे।

पूंजीकरण

यह नामांकित इकाई पहचान के काफी करीब है और यह एक 'अनुक्रम टैगिंग समस्या' का उदाहरण है। उचित संज्ञाएं प्रारंभिक रूप से पूंजीकृत की जानी चाहिए, संगठन के नाम, जो संक्षेप में सभी पूंजीकृत होने चाहिए, और फिर अन्य उदाहरण हैं जो उन श्रेणियों के बाहर आते हैं। ऐसा मुझे लगता है कि यह इसलिए एनईआर से कठिन होगा और इसलिए एक सरल शब्दकोश आधारित दृष्टिकोण शायद एक आदर्श समाधान नहीं होगा

यदि आप एक छिपे हुए मार्कवॉव मॉडल का इस्तेमाल करना चाहते हैं, तो यह एचएमएम की एक 'छुपी हुई' स्थिति को [कम कैस, इनटैप, ऑल कैप] और कुछ आंकड़ों पर प्रशिक्षण देने की होगी जो आप मानते हैं (जैसे विकिपीडिया लेकिन कई अन्य स्रोत हैं भी)। आप उन शब्दों के लिए छिपी हुई अवस्था का अनुमान लगाते हैं जिनके बारे में आप निश्चित रूप से सही तरीके से पूंजीकृत नहीं हैं। वहाँ एचएमएम पुस्तकालयों का एक समूह है, मुझे यकीन है कि आप अपनी आवश्यकताओं के अनुरूप एक पा सकते हैं। मैं कहता हूं कि एक एचएमएम की कोशिश करना एक अच्छा प्रारंभिक विकल्प है।

गैर एएससीआईआई वर्ण

जैसा कि आप अनुमान लगाते हैं, एक मुश्किल समस्या यदि आप वर्ड स्तर पर एचएमएम के साथ ऐसा करने की कोशिश करते हैं, तो आपके पास छिपे हुए राज्यों की एक विशाल संख्या होती है, प्रत्येक एक उच्चारण शब्द के लिए, जो संभवत: ट्रेन करना असंभव होगा समस्या चरित्र स्तर पर अधिक संवेदनशील है लेकिन यदि आप केवल पिछले वर्ण पर विचार करते हैं, तो आप एक बहुत अधिक संदर्भ खो देते हैं। यदि आप वर्णों के बजाय एन-ग्राम का प्रयोग शुरू करते हैं, तो आपकी स्केलिंग समस्याएं वापस आती हैं संक्षेप में, मुझे नहीं लगता है कि यह समस्या पिछले एक की तरह है क्योंकि लेबल्स की संख्या बहुत बड़ी है, इसे एक अनुक्रम लेबलिंग समस्या पर विचार करने के लिए (मेरा मतलब है कि आप कर सकते हैं, यह व्यावहारिक नहीं है)।

मैंने इस क्षेत्र में अनुसंधान के बारे में नहीं सुना है, फिर से मैं कोई विशेषज्ञ नहीं हूं मेरा सबसे अच्छा अनुमान है कि आप जिस भाषा में दिलचस्पी रखते हैं, उस भाषा के लिए एक सामान्य भाषा मॉडल का उपयोग करना होगा। आप इसका उपयोग भाषा में एक वाक्य की संभावना देने के लिए कर सकते हैं। फिर आप संभवतया उच्चारण करने वाले पात्रों की जगह उन वाक्यों की संभावनाओं को दे सकते हैं और अधिकतर संभावना ले सकते हैं, या अंतर की कुछ सीमा का उपयोग कर सकते हैं या ऐसा कुछ कर सकते हैं। आप एक एन-ग्राम भाषा मॉडल को एक निश्चित भाषा के बड़े संग्रह पर आसानी से प्रशिक्षित कर सकते हैं।

मुझे नहीं पता है कि यह वास्तव में काम करेगा, या तो सटीकता या दक्षता के मामले में मेरे पास इस विशेष समस्या का प्रत्यक्ष अनुभव नहीं है

लिप्यंतरण

पता नहीं, ईमानदार होना मुझे नहीं पता है कि आपको अपनी खुद की व्यवस्था बनाने के लिए डेटा कहां मिलेगा। संक्षिप्त खोज के बाद, मुझे Google लिप्यंतरण सेवा (एपीआई के साथ) मिला। शायद यह आपके द्वारा बाद में हो। मुझे अन्य लिपियों के साथ भाषाओं में पर्याप्त अनुभव भी नहीं है, वास्तव में पता है कि यह क्या कर रहा है।

मैं गलत भाषा को प्राकृतिक भाषा पाठ को पुनर्स्थापित करने के लिए मार्कोव तकनीकों का उपयोग करने के बारे में सोच रहा था

  • सभी-कैप्स टेक्स्ट को मिश्रित-केस में पुनर्स्थापित करें
  • एक्सेंट / डायैरिक्टिक्स को उन भाषाओं में पुनर्स्थापित करें जिन्हें उन्हें होना चाहिए लेकिन उन्हें सादे एएससीआईआई में परिवर्तित कर दिया गया है।
  • मूल अक्षरों में वापस मोटे ध्वन्यात्मक प्रतिलेखन को परिवर्तित करें।

ऐसा लगता है कि कम से कम मुश्किल के लिए सबसे मुश्किल मूल रूप से समस्या संदर्भ के आधार पर अस्पष्टता को हल कर रही है।

मैं विकिपीडिया को एक शब्दकोष और विकिपीडिया के रूप में गैर-ग्राम और छिपे हुए मार्कोव मॉडल का उपयोग कर एक कॉर्पस के रूप में अस्पष्टता को हल करने के लिए उपयोग कर सकता हूं।

क्या मैं सही रास्ते पर हूं? क्या इस बात के लिए पहले से ही कुछ सेवाएं, पुस्तकालय या उपकरण हैं?

उदाहरण

  • जॉर्ज बुश में अपना सिम कार्ड खो चुका है। जॉर्ज ने बुश में अपना सिम कार्ड खो दिया था
  • टैंटॉट आईएल आरआईटी एक कण्ठ तैनाती ⇨ tantôt il rit à gorge déployée

मुझे लगता है कि आप तीनों कार्यों के लिए मार्कोव मॉडल (एचएमएम) का उपयोग कर सकते हैं, लेकिन सशर्त यादृच्छिक क्षेत्रों (सीआरएफ) जैसे आधुनिक मॉडलों को भी देखें इसके अलावा, यहां आपके google-fu के लिए कुछ बढ़ावा दिया गया है:

  • मिश्रित केस को सभी कैप्स में टेक्स्ट में पुनर्स्थापित करें

यह सच कहलाता है।

  • एक्सेंट / डायैरिक्टिक्स को उन भाषाओं में पुनर्स्थापित करें जिन्हें उन्हें होना चाहिए लेकिन उन्हें सादे एएससीआईआई में परिवर्तित कर दिया गया है

मुझे संदेह है कि मार्कोव मॉडल इस पर एक कठिन समय होने जा रहे हैं। OTOH, लेबलिंग प्रशिक्षण डेटा निःशुल्क है क्योंकि आप केवल लक्ष्य भाषा में उच्चारण किए गए पाठ का एक गुच्छा ले सकते हैं और एक्सेंट को पट्टी कर सकते हैं। अगले उत्तर भी देखें

  • मूल अक्षरों में वापस मोटे ध्वन्यात्मक प्रतिलेखन को परिवर्तित करें

यह मशीनी लिप्यंतरण से जोरदार रूप से संबंधित है, जो कि जोड़ी एचएमएम (जैव सूचना विज्ञान / जीनोम काम से) का उपयोग करने की कोशिश की गई है।





markov-models