Glossar

Semantische Segmentierung

Entdecken Sie die Leistungsfähigkeit der semantischen Segmentierung - klassifizieren Sie jedes Pixel in Bildern für ein präzises Verständnis der Szene. Erkunden Sie jetzt Anwendungen und Tools!

Die semantische Segmentierung ist eine grundlegende Aufgabe in der Computer Vision (CV), bei der es darum geht, jedem einzelnen Pixel eines Bildes eine spezifische Klassenbezeichnung zuzuweisen. Im Gegensatz zu anderen Bildverarbeitungsaufgaben, bei denen Objekte identifiziert oder das gesamte Bild klassifiziert wird, liefert die semantische Segmentierung ein dichtes, pixelgenaues Verständnis des Bildinhalts. Das bedeutet, dass nicht nur erkannt wird , dass ein Auto vorhanden ist, sondern auch genau umrissen wird , welche Pixel zur Kategorie Auto gehören, und sie von den Pixeln unterschieden werden, die zur Straße, zum Himmel oder zu den Fußgängern gehören. Ziel ist es, ein Bild in aussagekräftige Regionen aufzuteilen, die verschiedenen Objektkategorien entsprechen, und so ein umfassendes Verständnis der visuellen Umgebung zu vermitteln.

Wie funktioniert die semantische Segmentierung?

Das Hauptziel der semantischen Segmentierung besteht darin, jedes Pixel eines Bildes in eine vordefinierte Gruppe von Kategorien einzuordnen. In einem Bild mit mehreren Autos, Fußgängern und Bäumen würde ein semantisches Segmentierungsmodell beispielsweise alle Pixel eines Autos als "Auto", alle Pixel eines Fußgängers als "Fußgänger" und alle Pixel eines Baums als "Baum" bezeichnen. Es behandelt alle Instanzen der gleichen Objektklasse identisch.

Die moderne semantische Segmentierung stützt sich stark auf Deep Learning, insbesondere auf Convolutional Neural Networks (CNNs). Diese Modelle werden in der Regel mit überwachten Lerntechniken trainiert und erfordern große Datensätze mit detaillierten Anmerkungen auf Pixelebene. Bei diesem Prozess wird ein Bild in das Netzwerk eingespeist, das dann eine Segmentierungskarte ausgibt. Bei dieser Karte handelt es sich im Wesentlichen um ein Bild, bei dem der Wert jedes Pixels (häufig in Form einer Farbe) der vorhergesagten Klassenbezeichnung entspricht, wodurch verschiedene Kategorien wie "Straße", "Gebäude", "Person" usw. visuell voneinander getrennt werden. Die Qualität der Datenbeschriftung ist entscheidend für die Ausbildung genauer Modelle.

Hauptunterschiede zu anderen Segmentierungsaufgaben

Es ist wichtig, die semantische Segmentierung von verwandten Computer-Vision-Aufgaben zu unterscheiden:

  • Bild-Klassifizierung: Weist dem gesamten Bild eine einzige Bezeichnung zu (z. B. "dieses Bild enthält eine Katze"). Es werden keine Objekte lokalisiert oder umrissen.
  • Objekt-Erkennung: Identifiziert und lokalisiert Objekte mithilfe von Begrenzungsrahmen. Sie sagt Ihnen, wo sich Objekte befinden, gibt aber nicht ihre genaue Form auf Pixelebene an.
  • Instanz-Segmentierung: Geht einen Schritt weiter als die semantische Segmentierung, indem nicht nur jedes Pixel klassifiziert wird, sondern auch zwischen verschiedenen Instanzen derselben Objektklasse unterschieden wird. So würde beispielsweise jedem einzelnen Auto in der Szene eine eindeutige ID und Maske zugewiesen. Weitere Einzelheiten finden Sie in diesem Leitfaden zum Vergleich von Instanz- und semantischer Segmentierung.
  • Panoptische Segmentierung: Kombiniert semantische und instanzielle Segmentierung und liefert sowohl eine Kategoriebezeichnung für jedes Pixel als auch eindeutige Instanz-IDs für zählbare Objekte ("Dinge"), während nicht zählbare Hintergrundregionen ("Zeug") wie Himmel oder Straße gruppiert werden.

Anwendungen in der realen Welt

Das detaillierte Verständnis der Szene, das die semantische Segmentierung ermöglicht, ist für viele reale Anwendungen entscheidend:

Modelle und Werkzeuge

Bei der semantischen Segmentierung werden häufig Deep-Learning-Modelle eingesetzt, insbesondere Architekturen, die von CNNs abgeleitet sind.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert