La segmentazione panottica è una funzione di computer vision che combina la segmentazione semantica e quella delle istanze. L'obiettivo della segmentazione panottica è produrre una mappa di segmentazione di un'immagine che non solo separi ogni pixel in un insieme di classi predefinite (segmentazione semantica), ma che separi anche ogni istanza di tali classi come un oggetto unico (segmentazione di istanza).
La segmentazione panottica mira ad assegnare un'etichetta di classe a ogni pixel e un'etichetta di istanza unica a ogni istanza di quella classe, fornendo una segmentazione completa e unificata di un'immagine. La mappa di segmentazione risultante crea una mappa di parsing, che decompone semanticamente l'immagine in oggetti distinti.
La segmentazione panottica è un processo impegnativo, in quanto fornisce un elevato livello di accuratezza sia nella segmentazione semantica che in quella delle istanze e integra perfettamente i risultati di entrambi i compiti in un'unica mappa. I modelli di segmentazione panottica spesso utilizzano una combinazione di CNN e tecniche di rilevamento degli oggetti per eseguire la segmentazione semantica e delle istanze e quindi combinare i risultati in una mappa panottica.
La segmentazione panottica sta diventando sempre più importante nella computer vision perché può essere utilizzata in varie applicazioni, come la guida autonoma, la robotica e la realtà aumentata, in cui una comprensione completa e unificata dell'immagine è fondamentale.
Tipi di Oggetti:
La segmentazione panottica può gestire due tipi di oggetti: “elementi” e ‘oggetti’. Gli “elementi” descrivono pixel dello sfondo o regioni estese e amorfe come il cielo, la strada o l'erba. Gli “oggetti” descrivono oggetti con confini ben definiti, come persone, automobili o edifici. La segmentazione panottica deve identificare correttamente entrambi i tipi di oggetti e assegnare un'etichetta di istanza unica per ogni “elemento” e “oggetto” dell'immagine.
Criteri di Valutazione:
Le prestazioni dei modelli di segmentazione panottica vengono generalmente valutate utilizzando due metriche: PQ (Panoptic Quality) e SQ (Segmentation Quality). La PQ è stimata sia per gli “elementi” che per gli “oggetti” e misura la qualità della mappa panottica confrontando le etichette della verità a terra. SQ misura la qualità della segmentazione semantica confrontando i valori previsti e le etichette degli “oggetti”. Un punteggio PQ e SQ elevato indica che il modello classifica e segmenta correttamente sia gli “elementi” che gli “oggetti” dell'immagine.
Architetture Modello:
I ricercatori utilizzano le più diffuse architetture di modelli per la segmentazione panottica, tra cui Panoptic FPN (Feature Pyramid Network), Hybrid Task Cascade (HTC) e Panoptic DeepLab. Questi modelli utilizzano in genere una combinazione di tecniche di rilevamento degli oggetti, come la segmentazione semantica e la regressione del rettangolo di selezione, per creare una mappa panottica.
Sfide:
La segmentazione panottica è un processo impegnativo a causa della natura variabile degli oggetti nelle immagini del mondo reale. Ad esempio, gli oggetti possono essere piccoli e difficili da rilevare, oppure possono sovrapporsi l'uno all'altro, rendendo difficile la loro separazione. Inoltre, gli oggetti possono avere forme complesse, che rendono difficile una segmentazione accurata. I modelli di segmentazione panottica superano queste sfide addestrandosi su insiemi di dati ampi e diversificati e gestendo oggetti di varie dimensioni, forme e orientamenti.
Comments