image processing - "सेगमेंटेशन" और "सीन लेबलिंग" की तुलना में "सिमेंटिक सेगमेंटेशन" क्या है?




image-processing computer-vision (2)

पिछले उत्तर वास्तव में बहुत अच्छे हैं, मैं कुछ और अतिरिक्त बातें बताना चाहूंगा:

वस्तु विभाजन

इसका एक कारण यह है कि यह शोध समुदाय के पक्ष में है क्योंकि यह समस्याग्रस्त रूप से अस्पष्ट है। ऑब्जेक्ट विभाजन का अर्थ केवल एक छवि में एक या छोटी संख्या को खोजने और उनके चारों ओर एक सीमा खींचना है, और अधिकांश उद्देश्यों के लिए आप अभी भी मान सकते हैं कि इसका मतलब है। हालाँकि, इसका इस्तेमाल उन वस्तुओं के विभाजन के लिए भी किया जाने लगा, जो वस्तुओं की हो सकती हैं, पृष्ठभूमि से वस्तुओं का विभाजन (जिसे आमतौर पर पृष्ठभूमि घटाव या पृष्ठभूमि विभाजन या अग्रभूमि का पता लगाना) कहा जाता है, और यहां तक ​​कि कुछ मामलों में वस्तु की मान्यता का उपयोग करते हुए किया जाता है। बाउंडिंग बॉक्स (यह ऑब्जेक्ट मान्यता के लिए गहरी तंत्रिका नेटवर्क दृष्टिकोण के आगमन के साथ जल्दी से बंद हो गया, लेकिन पहले से ऑब्जेक्ट की मान्यता का अर्थ केवल इसमें ऑब्जेक्ट के साथ पूरी छवि को लेबल करना भी हो सकता है)।

क्या "विभाजन" "शब्दार्थ" बनाता है?

सिम्पी, प्रत्येक खंड, या प्रत्येक पिक्सेल के गहरे तरीकों के मामले में, श्रेणी के आधार पर एक वर्ग लेबल दिया जाता है। सामान्य रूप से विभाजन केवल कुछ नियम द्वारा छवि का विभाजन है। उदाहरण के लिए विभाजन, उदाहरण के लिए, बहुत उच्च स्तर से छवि की ऊर्जा में परिवर्तन के अनुसार डेटा को विभाजित करता है। ग्राफ कट आधारित विभाजन समान रूप से सीखा नहीं है, लेकिन सीधे बाकी से अलग प्रत्येक छवि के गुणों से लिया गया है। अधिक हाल ही में (न्यूरल नेटवर्क आधारित) विधियाँ उन पिक्सल का उपयोग करती हैं जो उन विशिष्ट विशेषताओं के साथ जुड़ी स्थानीय विशेषताओं की पहचान करने के लिए लेबल किए जाते हैं, और फिर प्रत्येक पिक्सेल को वर्गीकृत करते हैं जिसके आधार पर उस पिक्सेल के लिए सबसे अधिक आत्मविश्वास होता है। इस तरह, "पिक्सेल-लेबलिंग" वास्तव में कार्य के लिए अधिक ईमानदार नाम है, और "विभाजन" घटक आकस्मिक है।

उदाहरण खंड

ऑब्जेक्ट सेगमेंट का सबसे कठिन, प्रासंगिक, और मूल अर्थ, "उदाहरण विभाजन" का अर्थ है, किसी भी दृश्य के भीतर व्यक्तिगत वस्तुओं का विभाजन, भले ही वे एक ही प्रकार के हों। हालांकि, इसका एक कारण इतना कठिन है क्योंकि एक दृष्टि के दृष्टिकोण से (और कुछ मायनों में एक दार्शनिक) एक "वस्तु" उदाहरण बनाता है जो पूरी तरह से स्पष्ट नहीं है। क्या शरीर के अंग वस्तु हैं? इस तरह के "भाग-वस्तुओं" को एक उदाहरण विभाजन एल्गोरिथ्म द्वारा बिल्कुल खंडित किया जाना चाहिए? अगर उन्हें पूरे से अलग देखा जाए तो क्या उन्हें केवल खंडित किया जाना चाहिए? यौगिक वस्तुओं के बारे में दो चीजों को स्पष्ट रूप से स्थगित किया जाना चाहिए, लेकिन अलग होना एक वस्तु या दो होना चाहिए (क्या एक छड़ी एक कुल्हाड़ी, एक हथौड़ा, या सिर्फ एक छड़ी और एक चट्टान के शीर्ष से चिपकी हुई है जब तक कि ठीक से नहीं बनाई गई हो?)। इसके अलावा, यह स्पष्ट नहीं है कि उदाहरणों को कैसे अलग किया जाए। क्या यह संलग्न की गई अन्य दीवारों से एक अलग उदाहरण है? उदाहरणों को किस क्रम में गिना जाना चाहिए? जैसा कि वे दिखाई देते हैं? दृष्टिकोण के लिए निकटता? इन कठिनाइयों के बावजूद, वस्तुओं का विभाजन अभी भी एक बड़ी बात है क्योंकि मनुष्य के रूप में हम हर समय वस्तुओं के साथ बातचीत करते हैं चाहे उनकी "क्लास लेबल" की परवाह किए बिना (आपके आस-पास यादृच्छिक वस्तुओं का उपयोग करते हुए, पेपर वेट पर, उन चीजों पर बैठे हों जो कुर्सियां ​​नहीं हैं)। और इसलिए कुछ डेटासेट इस समस्या को प्राप्त करने का प्रयास करते हैं, लेकिन मुख्य कारण इस समस्या पर अधिक ध्यान नहीं दिया गया है क्योंकि यह अच्छी तरह से परिभाषित नहीं है।

दृश्य पार्सिंग / दृश्य लेबलिंग

सीन पार्सिंग दृश्य लेबलिंग के लिए कड़ाई से विभाजन दृष्टिकोण है, जिसमें अपनी स्वयं की कुछ अस्पष्टता समस्याएं भी हैं। ऐतिहासिक रूप से, दृश्य लेबलिंग का अर्थ संपूर्ण "दृश्य" (छवि) को खंडों में विभाजित करना और उन्हें सभी वर्ग लेबल देना है। हालांकि, इसका मतलब यह था कि छवि के क्षेत्रों को स्पष्ट रूप से विभाजित किए बिना वर्ग लेबल देने का मतलब है। विभाजन के संबंध में, "सिमेंटिक विभाजन" पूरे दृश्य को विभाजित नहीं करता है । सिमेंटिक सेगमेंटेशन के लिए, एल्गोरिथ्म का उद्देश्य केवल उन वस्तुओं को सेगमेंट करना है, जिन्हें वह जानता है, और पिक्सल को लेबल करने के लिए इसके नुकसान फ़ंक्शन द्वारा दंडित किया जाएगा जिसमें कोई लेबल नहीं है। उदाहरण के लिए, MS-COCO डेटासेट सिमेंटिक सेगमेंट के लिए एक डेटासेट है जहां केवल कुछ वस्तुओं को खंडित किया जाता है।

सिमेंटिक सेग्मेंटेशन केवल प्लोमनस्म है या "सिमेंटिक सेगमेंटेशन" और "सेगमेंटेशन" के बीच अंतर है? क्या "दृश्य लेबलिंग" या "दृश्य पार्सिंग" में कोई अंतर है?

पिक्सेल-स्तर और पिक्सेल-विभाजन के बीच अंतर क्या है?

(साइड-क्वेश्चन: जब आपके पास इस तरह का पिक्सेल-वार एनोटेशन होता है, तो क्या आपको ऑब्जेक्ट डिटेक्शन मुफ्त में मिलता है या कुछ करने के लिए है?)

कृपया अपनी परिभाषा के लिए एक स्रोत दें।

"सिमेंटिक सेगमेंटेशन" का उपयोग करने वाले स्रोत

  • जोनाथन लॉन्ग, इवान शेल्मर, ट्रेवर डारेल: सिमेंटिक सेग्मेंटेशन के लिए पूरी तरह से कन्वेन्शनल नेटवर्क । सीवीपीआर, 2015 और पीएएमआई, 2016
  • हाँग, सियुनगून, हियोनवो नोह और बोहंग हन: "अर्ध-पर्यवेक्षित सिमेंटिक सेगमेंट के लिए डीप न्युरल नेटवर्क।" arXiv प्रीप्रिंट arXiv: 1506.04924 , 2015।
  • वी। लेम्पिट्स्की, ए। वेदाल्डी, और ए। ज़िसरमैन: सिमेंटिक सेगमेंट के लिए एक तोरण मॉडल। 2011 में तंत्रिका सूचना प्रसंस्करण प्रणाली में प्रगति।

"दृश्य लेबलिंग" का उपयोग करने वाले स्रोत

स्रोत जो "पिक्सेल-स्तर" का उपयोग करते हैं

  • पिनेहिरो, पेड्रो ओ।, और रोनन कोलोबर्ट: "इमेज-लेवल से लेकर पिक्सेल-लेवल लेबलिंग विथ कन्फ्यूज़नल नेटवर्क्स।" कंप्यूटर विजन और पैटर्न मान्यता, 2015 पर IEEE सम्मेलन की कार्यवाही (देखें http://arxiv.org/abs/1411.6228 )

स्रोत जो "पिक्सेल वाइज" का उपयोग करते हैं

  • ली, होन्शेंग, रुई झाओ और शियाओगंग वांग: "पिक्सेलवाइज वर्गीकरण के लिए अत्यधिक कुशल आगे और पीछे तंत्रिका नेटवर्क का प्रसार।" arXiv प्रीप्रिंट arXiv: 1412.4526 , 2014।

Google Ngrams

"सिमेंटिक सेगमेंटेशन" का उपयोग "दृश्य लेबलिंग" की तुलना में हाल ही में किया गया है


मैंने ऑब्जेक्ट डिटेक्शन, ऑब्जेक्ट रिकॉग्निशन, ऑब्जेक्ट सेगमेंटेशन, इमेज सेगमेंटेशन और सिमेंटिक इमेज सेगमेंटेशन के बारे में बहुत सारे पेपर पढ़े और यहाँ मेरे निष्कर्ष जो सच नहीं हो सकते हैं:

ऑब्जेक्ट रिकग्निशन: किसी दिए गए चित्र में आपको सभी ऑब्जेक्ट्स (ऑब्जेक्ट्स का एक प्रतिबंधित वर्ग आपके डेटासेट पर निर्भर करता है) का पता लगाना होगा, उन्हें एक बाउंडिंग बॉक्स और लेबल के साथ बाउंडिंग बॉक्स लेबल के साथ स्थानीयकृत करें। नीचे की छवि में आप कला वस्तु मान्यता की स्थिति का एक सरल आउटपुट देखेंगे।

ऑब्जेक्ट डिटेक्शन: यह ऑब्जेक्ट मान्यता की तरह है लेकिन इस कार्य में आपके पास ऑब्जेक्ट वर्गीकरण का केवल दो वर्ग है जिसका अर्थ है ऑब्जेक्ट बाउंडिंग बॉक्स और नॉन-ऑब्जेक्ट बाउंडिंग बॉक्स। उदाहरण के लिए कार का पता लगाना: आपको सभी कारों का उनके बाउंडिंग बॉक्स के साथ पता लगाना होगा।

ऑब्जेक्ट सेगमेंटेशन: ऑब्जेक्ट रिकग्निशन की तरह आप एक इमेज में सभी ऑब्जेक्ट्स को पहचान लेंगे लेकिन आपके आउटपुट को इमेज के क्लासिफाइडिंग पिक्स को इस ऑब्जेक्ट को दिखाना चाहिए।

छवि विभाजन: छवि विभाजन में आप छवि के क्षेत्रों को विभाजित करेंगे। आपका आउटपुट किसी छवि के सेगमेंट और क्षेत्र को लेबल नहीं करेगा जो एक-दूसरे के साथ एक ही सेगमेंट में होना चाहिए। किसी छवि से सुपर पिक्सेल निकालना इस कार्य या अग्रभूमि-पृष्ठभूमि विभाजन का एक उदाहरण है।

सिमेंटिक सेगमेंटेशन: सिमेंटिक सेगमेंटेशन में आपको प्रत्येक पिक्सेल को ऑब्जेक्ट्स (कार, पर्सन, डॉग, ...) और नॉन-ऑब्जेक्ट्स (वॉटर, स्काई, रोड, ...) के एक वर्ग के साथ लेबल करना होगा। मैं सिमेंटिक सेग्मेंटेशन के अन्य शब्दों को इमेज के प्रत्येक क्षेत्र में लेबल करूँगा।

मुझे लगता है कि मूल रूप से पिक्सेल स्तर और पिक्सेल वाइज लेबलिंग एक ही है जो छवि विभाजन या शब्दार्थ विभाजन हो सकता है। मैंने इस लिंक में भी आपके प्रश्न का उत्तर दिया है।





semantic-segmentation