image "विभाजन" और "दृश्य लेबलिंग" की तुलना में "अर्थपूर्ण विभाजन" क्या है?




image-processing computer-vision (3)

अर्थपूर्ण विभाजन केवल एक Pleonasm है या "अर्थात् विभाजन" और "विभाजन" के बीच एक अंतर है? क्या "दृश्य लेबलिंग" या "दृश्य पार्सिंग" में कोई अंतर है?

पिक्सेल-स्तर और पिक्सेलवाइज सेगमेंटेशन के बीच क्या अंतर है?

(साइड-प्रश्न: जब आपके पास इस प्रकार की पिक्सेल-वार एनोटेशन होती है, तो क्या आपको ऑब्जेक्ट डिटेक्शन मुफ्त में मिलता है या क्या अभी भी कुछ करना है?)

कृपया अपनी परिभाषाओं के लिए एक स्रोत दें।

स्रोत जो "अर्थपूर्ण विभाजन" का उपयोग करते हैं

  • जोनाथन लांग, इवान शेल्मर, ट्रेवर डारेल: अर्थपूर्ण सेगमेंटेशन के लिए पूरी तरह से कनवॉल्यूशनल नेटवर्क । सीवीपीआर, 2015 और पीएएमआई, 2016
  • हांग, सेनघून, हाइओनोवो नोह, और बोहुंग हान: "सेमी-पर्यवेक्षित सेमेन्टिक सेगमेंटेशन के लिए डीपोलप्लेड दीप न्यूरल नेटवर्क।" ArXiv प्रीप्रिंट arXiv: 1506.04924 , 2015।
  • वी। लेम्पीत्स्की, ए वेदल्दी, और ए। ज़िसमैन: अर्थात् विभाजन के लिए एक पिलोन मॉडल। तंत्रिका सूचना प्रसंस्करण प्रणाली, 2011 में अग्रिम में।

स्रोत जो "दृश्य लेबलिंग" का उपयोग करते हैं

स्रोत जो "पिक्सेल-स्तर" का उपयोग करता है

  • पिनहेरो, पेड्रो ओ।, और रोनान कोलोबर्ट: "छवि-स्तर से पिक्सेल-स्तर लेबलिंग के साथ कनवॉल्यूशनल नेटवर्क।" कंप्यूटर विजन और पैटर्न मान्यता, 2015 पर आईईईई सम्मेलन की कार्यवाही। (देखें http://arxiv.org/abs/1411.6228 )

स्रोत जो "पिक्सेलवाइज" का उपयोग करता है

  • ली, हांग्सेंग, रुई झाओ, और ज़ियाओगांग वांग: "पिक्सेल वार वर्गीकरण के लिए संक्रामक तंत्रिका नेटवर्क का अत्यधिक कुशल आगे और पिछड़ा प्रचार।" ArXiv प्रीप्रिंट arXiv: 1412.4526 , 2014।

Google Ngrams

"सेमेन्टिक सेगमेंटेशन" हाल ही में "दृश्य लेबलिंग" से अधिक उपयोग किया जाता है


पिछले जवाब वास्तव में महान हैं, मैं कुछ और जोड़ों को इंगित करना चाहता हूं:

ऑब्जेक्ट सेगमेंटेशन

अनुसंधान समुदाय में पक्षपात से बाहर निकलने के कारणों में से एक कारण यह है कि यह समस्याग्रस्त रूप से अस्पष्ट है। ऑब्जेक्ट सेगमेंटेशन का अर्थ केवल एक छवि में एक या छोटी संख्या में वस्तुओं को ढूंढना और उनके चारों ओर एक सीमा खींचना है, और अधिकांश उद्देश्यों के लिए आप अभी भी इसका मतलब यह मान सकते हैं। हालांकि, यह भी ब्लॉब्स के विभाजन का मतलब है, जो वस्तुएं हो सकती हैं, पृष्ठभूमि से ऑब्जेक्ट्स का विभाजन (अधिकतर अब पृष्ठभूमि घटाव या पृष्ठभूमि विभाजन या अग्रभूमि पहचान कहा जाता है), और यहां तक ​​कि कुछ मामलों में भी ऑब्जेक्ट मान्यता के साथ एक दूसरे के साथ उपयोग किया जाता है बाध्यकारी बक्से (यह ऑब्जेक्ट मान्यता के लिए गहरे तंत्रिका नेटवर्क दृष्टिकोण के आगमन के साथ जल्दी से बंद हो गया, लेकिन पहले से ऑब्जेक्ट मान्यता का मतलब यह भी हो सकता है कि इसमें ऑब्जेक्ट के साथ पूरी छवि को लेबल किया जा सके)।

"सेगमेंटेशन" "अर्थपूर्ण" क्या बनाता है?

सिम्पी, प्रत्येक खंड, या गहरी विधियों के मामले में प्रत्येक पिक्सेल को श्रेणी के आधार पर एक वर्ग लेबल दिया जाता है। सामान्य रूप से सेगमेंटेशन कुछ नियमों से छवि का विभाजन है। उदाहरण के लिए, एक बहुत उच्च स्तर से Meanshift विभाजन, छवि की ऊर्जा में परिवर्तन के अनुसार डेटा विभाजित करता है। ग्राफ़ कट आधारित सेगमेंटेशन समान रूप से सीखा नहीं जाता है लेकिन शेष से अलग प्रत्येक छवि के गुणों से सीधे प्राप्त होता है। अधिक हालिया (तंत्रिका नेटवर्क आधारित) विधियां पिक्सल का उपयोग करती हैं जिन्हें विशिष्ट वर्गों से जुड़े स्थानीय विशेषताओं की पहचान करने के लिए लेबल किया जाता है, और उसके बाद प्रत्येक पिक्सेल को वर्गीकृत किया जाता है, जिसके आधार पर उस वर्ग के लिए उच्च वर्ग का विश्वास होता है। इस तरह, "पिक्सेल-लेबलिंग" वास्तव में कार्य के लिए अधिक ईमानदार नाम है, और "विभाजन" घटक उभर रहा है।

इंस्टेंस सेगमेंटेशन

तर्कसंगत रूप से ऑब्जेक्ट सेगमेंटेशन का सबसे कठिन, प्रासंगिक और मूल अर्थ, "इंस्टेंस सेगमेंटेशन" का अर्थ किसी दृश्य के भीतर अलग-अलग ऑब्जेक्ट्स का विभाजन है, भले ही वे एक ही प्रकार के हों। हालांकि, एक कारण यह इतना कठिन है क्योंकि एक दृष्टि परिप्रेक्ष्य से (और कुछ तरीकों से दार्शनिक एक) जो "ऑब्जेक्ट" उदाहरण बनाता है पूरी तरह से स्पष्ट नहीं होता है। शरीर के अंग वस्तुएं हैं? क्या ऐसी "पार्ट-ऑब्जेक्ट्स" को एक आवृत्ति विभाजन एल्गोरिदम द्वारा विभाजित किया जाना चाहिए? क्या उन्हें केवल विभाजित किया जाना चाहिए यदि वे पूरी तरह से अलग दिखते हैं? यौगिक वस्तुओं के बारे में क्या दो चीजों को स्पष्ट रूप से आसन्न किया जाना चाहिए, लेकिन अलग-अलग एक वस्तु या दो होना चाहिए (एक कुल्हाड़ी के शीर्ष पर चिपकने वाला एक चट्टान, एक हथौड़ा, या सिर्फ एक छड़ी और चट्टान ठीक से बनाया गया है?)। साथ ही, यह स्पष्ट नहीं है कि उदाहरणों को अलग कैसे करें। क्या इच्छा अन्य दीवारों से अलग उदाहरण है? उदाहरणों में किस क्रम में गिना जाना चाहिए? जैसा कि वे प्रकट होते हैं? दृष्टिकोण के निकटता? इन कठिनाइयों के बावजूद, वस्तुओं का विभाजन अभी भी एक बड़ा सौदा है क्योंकि इंसानों के रूप में हम अपने "वर्ग लेबल" के बावजूद वस्तुओं के साथ बातचीत करते हैं (कागज़ के वजन के रूप में आपके चारों ओर यादृच्छिक वस्तुओं का उपयोग करते हुए, कुर्सियों की चीजों पर बैठे हुए) और इसलिए कुछ डेटासेट इस समस्या को पाने का प्रयास करते हैं, लेकिन मुख्य कारण यह है कि अभी तक समस्या पर ज्यादा ध्यान नहीं दिया गया है क्योंकि यह पर्याप्त रूप से परिभाषित नहीं है।

दृश्य पार्सिंग / दृश्य लेबलिंग

दृश्य पार्सिंग दृश्य लेबलिंग के लिए कड़ाई से विभाजन दृष्टिकोण है, जिसमें स्वयं की कुछ अस्पष्टता समस्याएं भी हैं। ऐतिहासिक रूप से, दृश्य लेबलिंग का अर्थ पूरे "दृश्य" (छवि) को खंडों में विभाजित करना और उन्हें सभी वर्ग लेबल देना था। हालांकि, इसका उपयोग छवि के क्षेत्रों को स्पष्ट रूप से विभाजित किए बिना वर्ग लेबल देने का भी मतलब था। सेगमेंटेशन के संबंध में, "अर्थपूर्ण विभाजन" पूरे दृश्य को विभाजित नहीं करता है । अर्थपूर्ण विभाजन के लिए, एल्गोरिदम का उद्देश्य केवल उन वस्तुओं को विभाजित करना है, जिन्हें वे जानते हैं, और लेबलिंग पिक्सल के लिए इसके हानि फ़ंक्शन द्वारा दंडित किया जाएगा जिसमें कोई लेबल नहीं है। उदाहरण के लिए एमएस-सीओसीओ डेटासेट अर्थपूर्ण विभाजन के लिए एक डेटासेट है जहां केवल कुछ वस्तुओं को विभाजित किया जाता है।


"सेगमेंटेशन" एक छवि का एक विभाजन कई "सुसंगत" हिस्सों में है, लेकिन यह समझने के किसी भी प्रयास के बिना कि ये भाग क्या दर्शाते हैं। सबसे प्रसिद्ध कार्यों में से एक (लेकिन निश्चित रूप से पहले नहीं) शि और मलिक "सामान्य कट्स और छवि सेगमेंटेशन" PAMI 2000 है । ये कार्य कम-स्तर संकेतों जैसे कि रंग, बनावट और सीमा की चिकनीता के संदर्भ में "सुसंगतता" को परिभाषित करने का प्रयास करते हैं। आप इन कार्यों को गेस्टल्ट सिद्धांत में वापस देख सकते हैं।

दूसरी ओर "अर्थपूर्ण विभाजन" छवि को अर्थात् अर्थपूर्ण भागों में विभाजित करने का प्रयास करता है, और प्रत्येक भाग को पूर्व-निर्धारित कक्षाओं में से एक में वर्गीकृत करने का प्रयास करता है। आप प्रत्येक पिक्सेल को वर्गीकृत करके (संपूर्ण छवि / सेगमेंट के बजाए) एक ही लक्ष्य प्राप्त कर सकते हैं। उस स्थिति में आप पिक्सेल-वार वर्गीकरण कर रहे हैं, जो एक ही अंतिम परिणाम की ओर जाता है लेकिन थोड़ा अलग पथ में ...

तो, मुझे लगता है कि आप कह सकते हैं कि "अर्थपूर्ण विभाजन", "दृश्य लेबलिंग" और "पिक्सेलवाइ वर्गीकरण" मूल रूप से एक ही लक्ष्य को प्राप्त करने की कोशिश कर रहे हैं: छवि में प्रत्येक पिक्सेल की भूमिका को अर्थपूर्ण रूप से समझना। आप उस लक्ष्य तक पहुंचने के लिए कई पथ ले सकते हैं, और इन पथों में शब्दावली में मामूली बारीकियां होती हैं।


मैंने ऑब्जेक्ट डिटेक्शन, ऑब्जेक्ट रिकग्निशन, ऑब्जेक्ट सेगमेंटेशन, इमेज सेगमेंटेशन और सेमेन्टिक इमेज सेगमेंटेशन के बारे में बहुत से कागजात पढ़े और यहां मेरे निष्कर्ष हैं जो सच नहीं हो सकते हैं:

ऑब्जेक्ट रिकग्निशन: किसी दिए गए चित्र में आपको सभी ऑब्जेक्ट्स (ऑब्जेक्ट्स की एक प्रतिबंधित श्रेणी आपके डेटासेट पर निर्भर करती है) का पता लगाना होगा, उन्हें एक बाउंडिंग बॉक्स और लेबल के साथ स्थानांतरित करना होगा जो लेबल के साथ बाध्यकारी बॉक्स है। नीचे की छवि में आप कला वस्तु पहचान की स्थिति का एक साधारण आउटपुट देखेंगे।

ऑब्जेक्ट डिटेक्शन: यह ऑब्जेक्ट मान्यता की तरह है लेकिन इस कार्य में आपके पास ऑब्जेक्ट वर्गीकरण का केवल दो वर्ग है जिसका अर्थ है ऑब्जेक्ट बाउंडिंग बॉक्स और गैर-ऑब्जेक्ट बाउंडिंग बॉक्स। उदाहरण के लिए कार का पता लगाना: आपको किसी दिए गए चित्र में सभी बार्स को अपने बाउंडिंग बॉक्स से ढूंढना होगा।

ऑब्जेक्ट सेगमेंटेशन: ऑब्जेक्ट मान्यता की तरह आप एक छवि में सभी ऑब्जेक्ट्स को पहचान लेंगे लेकिन आपके आउटपुट को इस ऑब्जेक्ट को छवि के पिक्सेल वर्गीकृत करना चाहिए।

छवि सेगमेंटेशन: छवि विभाजन में आप छवि के क्षेत्रों को विभाजित करेंगे। आपका आउटपुट एक छवि के सेगमेंट और क्षेत्र को लेबल नहीं करेगा जो एक दूसरे के साथ संगत है, एक ही सेगमेंट में होना चाहिए। किसी छवि से सुपर पिक्सल निकालना इस कार्य या अग्रभूमि-पृष्ठभूमि विभाजन का एक उदाहरण है।

अर्थपूर्ण सेगमेंटेशन: अर्थपूर्ण विभाजन में आपको प्रत्येक पिक्सेल को ऑब्जेक्ट्स (कार, व्यक्ति, कुत्ता, ...) और गैर-ऑब्जेक्ट्स (वॉटर, स्काई, रोड, ...) के साथ लेबल करना होगा। मैं अर्थपूर्ण सेगमेंटेशन में अन्य शब्द आप छवि के प्रत्येक क्षेत्र को लेबल करेंगे।

मुझे लगता है कि पिक्सेल-स्तर और पिक्सेलवाइज लेबलिंग मूल रूप से छवि विभाजन या अर्थपूर्ण विभाजन हो सकती है। मैंने इस लिंक में आपके प्रश्न का उत्तर भी दिया है।





object-detection