machine learning - समर्थन वेक्टर मशीनों पर कृत्रिम तंत्रिका नेटवर्क के फायदे क्या हैं?




machine-learning neural-network (4)

एएनएन (कृत्रिम तंत्रिका नेटवर्क) और एसवीएम (सपोर्ट वेक्टर मशीनें) पर्यवेक्षित मशीन लर्निंग और वर्गीकरण के लिए दो लोकप्रिय रणनीतियां हैं। यह अक्सर स्पष्ट नहीं होता है कि किसी विशेष परियोजना के लिए कौन सी विधि बेहतर है, और मुझे यकीन है कि उत्तर हमेशा "यह निर्भर करता है।" अक्सर, Bayesian वर्गीकरण के साथ दोनों का एक संयोजन का उपयोग किया जाता है।

एएनएन बनाम एसवीएम के संबंध में स्टैकओवरफ्लो पर ये प्रश्न पहले ही पूछे जा चुके हैं:

एएनएन और एसवीएम वर्गीकरण

मेरे वर्गीकरण प्रश्न में एएनएन, एसवीएम और केएनएन के बीच क्या अंतर है

पाठ प्रसंस्करण के लिए समर्थन वेक्टर मशीन या कृत्रिम तंत्रिका नेटवर्क?

इस सवाल में, मैं विशेष रूप से जानना चाहता हूं कि एएनएन (विशेष रूप से, एक मल्टीलायर पेसेप्ट्रॉन) के कौन से पहलू इसे एसवीएम पर उपयोग करने के लिए वांछनीय बना सकते हैं? कारण मैं पूछता हूं क्योंकि विपरीत प्रश्न का उत्तर देना आसान है: समर्थन वेक्टर मशीनें अक्सर एएनएन से बेहतर होती हैं क्योंकि वे एएनएन की दो प्रमुख कमजोरियों से बचती हैं:

(1) एएनएन अक्सर वैश्विक मिनीमा के बजाए स्थानीय मिनीमा पर अभिसरण करते हैं, जिसका अर्थ है कि वे अनिवार्य रूप से "बड़ी तस्वीर गायब हैं" (या पेड़ के लिए जंगल को याद कर रहे हैं)

(2) प्रशिक्षण बहुत लंबे समय तक चलने पर एएनएन अक्सर अधिक होता है, जिसका अर्थ है कि किसी दिए गए पैटर्न के लिए, एएनएन पैटर्न के हिस्से के रूप में शोर पर विचार करना शुरू कर सकता है।

एसवीएम इन दो समस्याओं में से किसी से भी पीड़ित नहीं है। हालांकि, यह आसानी से स्पष्ट नहीं है कि एसवीएम एएनएन के लिए कुल प्रतिस्थापन के लिए हैं। तो एएनएन के पास एक एसवीएम पर कौन सा विशिष्ट लाभ होता है जो इसे कुछ स्थितियों के लिए लागू कर सकता है? मैंने एएनएन पर एक एसवीएम के विशिष्ट फायदे सूचीबद्ध किए हैं, अब मैं एएनएन फायदे (अगर कोई है) की एक सूची देखना चाहता हूं।


आपके द्वारा प्रदान किए जाने वाले उदाहरणों से निर्णय लेते हुए, मुझे लगता है कि एएनएन द्वारा, आपका मतलब मल्टीलायर फीड-फ़ॉरवर्ड नेटवर्क (लघु के लिए एफएफ नेट), जैसे कि मल्टीलायर पेसेप्ट्रॉन, क्योंकि वे एसवीएम के साथ सीधे प्रतिस्पर्धा में हैं।

एसवीएम पर इन मॉडलों के एक विशिष्ट लाभ यह है कि उनका आकार निश्चित है: वे पैरामीट्रिक मॉडल हैं, जबकि एसवीएम गैर-पैरामीट्रिक हैं। यही है, एएनएन में आपके पास सुविधाओं की संख्या, प्लस पूर्वाग्रह पैरामीटर, और जो आपके मॉडल को बनाते हैं, के आधार पर आकार एच 1 से एच एन के साथ छुपी परतों का एक गुच्छा है। इसके विपरीत, एक एसवीएम (कम से कम एक कर्नेलकृत) में प्रत्येक के लिए वजन के साथ, प्रशिक्षण सेट से चयनित समर्थन वैक्टर का एक सेट होता है। सबसे बुरे मामले में, समर्थन वैक्टरों की संख्या वास्तव में प्रशिक्षण नमूने की संख्या है (हालांकि यह मुख्य रूप से छोटे प्रशिक्षण सेटों या अपमानजनक मामलों में होती है) और आम तौर पर इसके मॉडल आकार के तराजू रैखिक रूप से होते हैं। प्राकृतिक भाषा प्रसंस्करण में, हजारों सपोर्ट वैक्टरों के साथ एसवीएम क्लासिफायर, जिनमें से प्रत्येक में सैकड़ों हजारों फीचर्स हैं, की अनदेखी नहीं है।

साथ ही, एफएफ नेट्स का ऑनलाइन प्रशिक्षण ऑनलाइन एसवीएम फिटिंग की तुलना में बहुत आसान है, और भविष्यवाणी काफी तेज हो सकती है।

संपादित करें : उपरोक्त सभी कर्नेलकृत एसवीएम के सामान्य मामले से संबंधित हैं। रैखिक एसवीएम एक विशेष मामला है जिसमें वे पैरामीट्रिक हैं और स्कोचस्टिक ग्रेडियेंट वंश जैसे सरल एल्गोरिदम के साथ ऑनलाइन सीखने की अनुमति देते हैं।


एक जवाब मैं यहां याद कर रहा हूं: मल्टी-लेयर पेसेप्ट्रॉन सुविधाओं के बीच संबंध ढूंढने में सक्षम है। उदाहरण के लिए कंप्यूटर दृष्टि में यह आवश्यक है जब सीखने वाले एल्गोरिदम को कच्ची छवि प्रदान की जाती है और अब परिष्कृत सुविधाओं की गणना की जाती है। अनिवार्य रूप से मध्यवर्ती स्तर नई अज्ञात विशेषताओं की गणना कर सकते हैं।


यदि आप कर्नेल एसवीएम का उपयोग करना चाहते हैं तो आपको कर्नेल का अनुमान लगाना होगा। हालांकि, एएनएन सार्वभौमिक अनुमानक हैं जो केवल अनुमान लगाने के लिए चौड़ाई (अनुमानित सटीकता) और ऊंचाई (सन्निकटन दक्षता है। यदि आप ऑप्टिमाइज़ेशन समस्या को सही ढंग से डिजाइन करते हैं तो आप अधिक फिट नहीं होते हैं (कृपया अधिक फिटिंग के लिए ग्रंथसूची देखें)। यह भी प्रशिक्षण उदाहरणों पर निर्भर करता है यदि वे सही स्थान और समान रूप से खोज स्थान स्कैन करते हैं। चौड़ाई और गहराई की खोज पूर्णांक प्रोग्रामिंग का विषय है।

मान लें कि आपने फंक्शंस एफ (।) और बाध्य सार्वभौमिक अनुमानक I = [0,1] पर सीमाबद्ध हैं I = [0,1] उदाहरण के लिए कॉम्पैक्ट समर्थन यू (।, ए) के वास्तविक अनुक्रम द्वारा पैरामीट्रिज्ड हैं संपत्ति जिसमें अनुक्रमों का अनुक्रम मौजूद है

lim sup { |f(x) - U(x,a(k) ) | : x } =0

और आप IxI पर वितरण डी के साथ उदाहरण और परीक्षण (x,y) IxI

एक निर्धारित समर्थन के लिए, आप ऐसा करने के लिए सबसे अच्छा क्या करना है

sum {  ( y(l) - U(x(l),a) )^{2} | : 1<=l<=N } is minimal

इसे a=aa जो एक यादृच्छिक चर है !, ओवर-फिटिंग तब है

औसत D and D^{N} of ( y - U(x,aa) )^{2}

मुझे बताएं कि क्यों, यदि आप ए को चुनते हैं कि त्रुटि कम हो गई है, तो मूल्यों के दुर्लभ सेट के लिए आपके पास सही फिट है। हालांकि, चूंकि वे दुर्लभ हैं औसत औसत कभी नहीं होता है। आप दूसरे को कम करना चाहते हैं हालांकि आपके पास डी के लिए एक अलग अनुमान है। और ध्यान रखें कि समर्थन की लंबाई निःशुल्क है।


समर्थन वेक्टर मशीनों पर कृत्रिम तंत्रिका नेटवर्क का एक स्पष्ट लाभ यह है कि कृत्रिम तंत्रिका नेटवर्क में कई आउटपुट हो सकते हैं, जबकि समर्थन वेक्टर मशीनों में केवल एक ही होता है। समर्थन वेक्टर मशीनों के साथ एन-एरी वर्गीकृत बनाने का सबसे सीधा तरीका एन सपोर्ट वेक्टर मशीन बनाना और उनमें से प्रत्येक को एक-एक ट्रेन करना है। दूसरी ओर, तंत्रिका नेटवर्क के साथ एक एन-आरी वर्गीकरण को एक ही समय में प्रशिक्षित किया जा सकता है। इसके अतिरिक्त, तंत्रिका नेटवर्क अधिक समझ में आ जाएगा क्योंकि यह एक संपूर्ण है, जबकि समर्थन वेक्टर मशीन अलग सिस्टम हैं। यह विशेष रूप से उपयोगी होता है अगर आउटपुट अंतर-संबंधित होते हैं।

उदाहरण के लिए, यदि लक्ष्य हाथ से लिखे गए अंकों को वर्गीकृत करना था, तो दस समर्थन वेक्टर मशीनें करेंगी। प्रत्येक समर्थन वेक्टर मशीन बिल्कुल एक अंक पहचान लेगी, और अन्य सभी को पहचानने में असफल हो जाएगी। चूंकि प्रत्येक हस्तलिखित अंक का अर्थ केवल अपनी कक्षा की तुलना में अधिक जानकारी रखने के लिए नहीं किया जा सकता है, इसलिए इसे कृत्रिम तंत्रिका नेटवर्क के साथ हल करने का कोई मतलब नहीं है।

हालांकि, मान लीजिए कि लक्ष्य किसी व्यक्ति के हार्मोन संतुलन (कई हार्मोन के लिए) को आसानी से मापा जाने वाला शारीरिक कारकों जैसे कि अंतिम भोजन, हृदय गति इत्यादि के समय के रूप में मॉडल करना था ... चूंकि ये कारक सभी अंतर-संबंधित, कृत्रिम तंत्रिका हैं नेटवर्क रिग्रेशन समर्थन वेक्टर मशीन रिग्रेशन से अधिक समझ में आता है।





svm