Glossar

Selbstüberwachtes Lernen

Entdecken Sie, wie selbstüberwachtes Lernen unbeschriftete Daten für effizientes Training nutzt und damit die KI in den Bereichen Computer Vision, NLP und anderen Bereichen verändert.

Selbstüberwachtes Lernen (Self-Supervised Learning, SSL) ist ein Ansatz des maschinellen Lernens (ML), der es Modellen ermöglicht, aus großen Mengen unmarkierter Daten zu lernen. Im Gegensatz zum überwachten Lernen, das stark von sorgfältig gekennzeichneten Daten abhängt, erzeugt SSL auf geniale Weise seine eigenen Überwachungssignale direkt aus den Eingabedaten selbst. Dies macht es besonders wertvoll in Bereichen wie Computer Vision (CV) und Natural Language Processing (NLP), wo unmarkierte Daten im Überfluss vorhanden sind, aber die Kosten und der Aufwand für die manuelle Markierung(Datenannotation) unerschwinglich sein können.

Wie selbstüberwachtes Lernen funktioniert

Der Kernmechanismus von SSL besteht darin, eine "Vorwandaufgabe" zu entwerfen. Dabei handelt es sich um eine zusätzliche, selbst erstellte Aufgabe, bei der das Modell bestimmte Eigenschaften der Daten vorhersagen muss, die absichtlich verborgen oder verändert wurden. Durch das Lösen dieser Vorwandaufgabe ist das Modell gezwungen, sinnvolle zugrundeliegende Strukturen und Darstellungen(Einbettungen) der Daten zu lernen, ohne dass der Mensch diese kennzeichnet. Diese erste Trainingsphase wird gemeinhin als Pre-Training bezeichnet.

Im Bereich des Computersehens könnte eine Vorwandaufgabe zum Beispiel darin bestehen:

  • Vorhersage der relativen Position von gemischten Bildfeldern.
  • Einfärben eines Graustufenbildes.
  • Füllen von fehlenden Teilen eines Bildes (Inpainting).
  • Lernen von Repräsentationen durch Kontrastierung verschiedener augmentierter Ansichten desselben Bildes, eine Technik, die in kontrastiven Lernmethoden wie SimCLR und MoCo verwendet wird.

Im NLP ist eine bekannte Vorwandaufgabe die maskierte Sprachmodellierung, die bekanntlich von Modellen wie BERT verwendet wird. Hier lernt das Modell, Wörter vorherzusagen, die zufällig in Sätzen maskiert (versteckt) wurden.

Nach dem Vortraining auf großen, nicht beschrifteten Datensätzen erfasst das Modell umfangreiche Merkmalsrepräsentationen. Dieses vortrainierte Modell kann dann für spezifische nachgelagerte Aufgaben - wie Objekterkennung, Bildklassifizierung oder Stimmungsanalyse - durcheinen Prozess namens Feinabstimmung angepasst werden. Für die Feinabstimmung ist in der Regel eine viel geringere Menge an markierten Daten erforderlich als für das Training eines Modells von Grund auf, was SSL zu einer wichtigen Voraussetzung für effektives Transferlernen macht.

SSL vs. andere Lernparadigmen

Es ist entscheidend, SSL von verwandten ML-Paradigmen zu unterscheiden:

  • Überwachtes Lernen: Verlässt sich vollständig auf beschriftete Daten, bei denen jede Eingabe mit einer korrekten Ausgabe gepaart ist. SSL hingegen generiert seine Labels aus den Daten selbst.
  • Unüberwachtes Lernen: Ziel ist die Suche nach Mustern (z. B. Clustering) oder die Verringerung der Dimensionalität in unbeschrifteten Daten ohne vordefinierte Vorgabeaufgaben. SSL verwendet zwar wie das unüberwachte Lernen unmarkierte Daten, unterscheidet sich aber dadurch, dass es explizite Überwachungssignale durch Vorgabe von Aufgaben zur Steuerung des Repräsentationslernens erzeugt.
  • Semi-überwachtes Lernen: Verwendet eine Kombination aus einer kleinen Menge von gekennzeichneten Daten und einer großen Menge von nicht gekennzeichneten Daten. SSL-Pre-Training kann oft ein vorbereitender Schritt vor der semi-supervised Feinabstimmung sein.

Anwendungen in der realen Welt

SSL verfügt über weitreichende Fähigkeiten im Bereich der künstlichen Intelligenz (KI):

  1. Fortschrittliche Computer Vision Modelle: Das SSL-Vortraining ermöglicht es Modellen wie Ultralytics YOLO11, robuste visuelle Merkmale aus riesigen unbeschrifteten Bilddatensätzen zu erlernen, bevor sie für Aufgaben wie die Objekterkennung in autonomen Fahrzeugen oder die medizinische Bildanalyse feinabgestimmt werden. Die Verwendung von vortrainierten Gewichten, die von SSL abgeleitet wurden, führt oft zu einer besseren Leistung und schnelleren Konvergenz während der Modellschulung.
  2. Leistung großer Sprachmodelle (LLMs): Basismodelle wie GPT-4 und BERT stützen sich während ihrer Pre-Trainingsphase auf umfangreiche Textkorpora auf SSL-Pretext-Aufgaben (wie Masked Language Modeling). Dies ermöglicht es ihnen, Sprachstruktur, Grammatik und Kontext zu verstehen und Anwendungen von hochentwickelten Chatbots und maschineller Übersetzung bis hin zur Textzusammenfassung zu betreiben.

SSL reduziert die Abhängigkeit von teuren markierten Datensätzen erheblich und demokratisiert die Entwicklung leistungsstarker KI-Modelle. Tools wie PyTorch und TensorFlow sowie Plattformen wie Ultralytics HUB bieten Umgebungen zur Nutzung von SSL-Techniken für die Entwicklung und den Einsatz innovativer KI-Lösungen.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert