Glossar

Backbone

Entdecken Sie die Rolle von Backbones beim Deep Learning, erforschen Sie Top-Architekturen wie ResNet und ViT und lernen Sie deren reale KI-Anwendungen kennen.

Beim Deep Learning, insbesondere im Bereich des Computer Vision (CV), bezieht sich das "Backbone" auf die anfängliche, grundlegende Gruppe von Schichten in einem neuronalen Netzwerkmodell (NN). Sein Hauptzweck ist die Merkmalsextraktion: die Verarbeitung roher Eingabedaten, z. B. eines Bildes, und ihre Umwandlung in eine kompakte, informative Darstellung. Diese Repräsentation, die oft als Feature-Maps bezeichnet wird, erfasst wesentliche Muster, Texturen und Formen der Eingabedaten. Stellen Sie sich das Backbone als die Augen der KI vor, die die erste Interpretation vornehmen, bevor die Schlussfolgerungen auf höherer Ebene erfolgen. Diese grundlegende Verarbeitung ist entscheidend für die allgemeine Fähigkeit des Modells, visuelle Informationen für nachfolgende Aufgaben zu verstehen und zu interpretieren.

Kernfunktionalität

Ein typisches Backbone besteht aus einer Abfolge von Schichten, die in der Regel Faltungsschichten, Pooling-Schichten (die die räumlichen Dimensionen reduzieren) und Aktivierungsfunktionen (die Nichtlinearität einführen) umfassen. Während die Eingabedaten diese Schichten durchlaufen, erlernt das Netz schrittweise hierarchische Merkmale. Frühe Schichten können einfache Elemente wie Kanten und Ecken erkennen, während tiefere Schichten diese einfacheren Merkmale kombinieren, um komplexere Strukturen, Teile von Objekten und schließlich ganze Objekte zu erkennen. Die vom Backbone erzeugte Ausgabe ist eine Reihe von Merkmalskarten auf hoher Ebene, die die entscheidenden Informationen der ursprünglichen Eingabe zusammenfassen. Durch diesen Prozess wird die Dimensionalität der Daten effektiv reduziert, während die semantische Bedeutung erhalten bleibt, was die Grundlage für viele erfolgreiche Deep-Learning-Modelle bildet.

Rolle in Computer Vision Modellen

In hochentwickelten Computer-Vision-Modellen, die für Aufgaben wie Objekterkennung, Instanzsegmentierung oder Posenschätzung entwickelt wurden, liefert das Grundgerüst die wesentliche Merkmalsdarstellung. Nachfolgende Komponenten, die oft als "Hals" (der die Merkmale verfeinert und zusammenfasst) und "Kopf" (der die endgültige Vorhersage der Aufgabe durchführt) bezeichnet werden, bauen auf den vom Backbone extrahierten Merkmalen auf. Beispielsweise verwendet ein Erkennungskopf diese verfeinerten Merkmale, um Bounding Boxes um erkannte Objekte und ihre entsprechenden Klassen vorherzusagen. Das Backbone unterscheidet sich von diesen späteren Phasen; sein einziger Schwerpunkt ist die Erzeugung einer leistungsfähigen, oft universell einsetzbaren Merkmalsdarstellung aus den Eingabedaten. Eine gängige Praxis ist es, Backbones zu verwenden, die auf großen Datensätzen wie ImageNet vortrainiert wurden, und sie dann für spezifische nachgelagerte Aufgaben mit Hilfe von Transfer-Lernen fein abzustimmen, was den Trainingsprozess erheblich beschleunigt.

Gemeinsame Backbone-Architekturen

Mehrere etablierte neuronale Netzarchitekturen werden aufgrund ihrer erwiesenen Wirksamkeit bei der Merkmalsextraktion häufig als Backbones eingesetzt:

ResNet (Residuale Netze): Einführung von Restverbindungen, um das Training von viel tieferen Netzen zu ermöglichen und das Problem des verschwindenden Gradienten zu lösen.(Paper: arXiv:1512.03385).
VGG: Bekannt für seine einfache und einheitliche Architektur mit kleinen (3x3) Faltungsfiltern.(Papier: arXiv:1409.1556).
MobileNet: Entwickelt für mobile und eingebettete Bildverarbeitungsanwendungen mit Schwerpunkt auf Effizienz und geringer Latenz.(Paper: arXiv:1704.04861).
EfficientNet: Verwendet eine zusammengesetzte Skalierungsmethode zur gleichmäßigen Skalierung von Netztiefe, -breite und -auflösung für optimale Effizienz.(Paper: arXiv:1905.11946).
Vision Transformers (ViT): Wendet die Transformer-Architektur, die ursprünglich im NLP erfolgreich war, direkt auf Sequenzen von Bildfeldern an.(Paper: arXiv:2010.11929).
CSPDarknet: Eine Darknet-Variante, die Cross Stage Partial-Netzwerke beinhaltet und in Modellen wie Ultralytics YOLOv5 und späteren Versionen effektiv eingesetzt wird, um Geschwindigkeit und Genauigkeit auszugleichen.

Die Wahl des Backbone wirkt sich erheblich auf die Leistungsmerkmale eines Modells aus, einschließlich Geschwindigkeit, Rechenkosten(FLOPs) und Genauigkeit, wie in verschiedenen Modellvergleichen deutlich wird. Frameworks wie PyTorch und TensorFlow sowie Bibliotheken wie OpenCV sind wichtige Werkzeuge für die Implementierung und Nutzung dieser Backbones. Plattformen wie Ultralytics HUB vereinfachen den Prozess der Verwendung von Modellen mit verschiedenen Backbones weiter.

Unterscheidung zwischen Backbone und verwandten Begriffen

Es ist wichtig, das Backbone nicht mit dem gesamten neuronalen Netz oder anderen spezifischen Komponenten zu verwechseln:

Ganzes neuronales Netz: Das Backbone ist nur ein Teil, in der Regel der erste Teil der Merkmalsextraktion, einer größeren Netzarchitektur. Das gesamte Netz umfasst auch den Hals und den Kopf/die Köpfe, die für aufgabenspezifische Vorhersagen zuständig sind.
Erkennungskopf: Dies ist der letzte Teil eines Objekterkennungsmodells, der Merkmale (die häufig sowohl von Backbone als auch Neck verarbeitet werden) aufnimmt und Bounding-Box-Koordinaten und Klassenwahrscheinlichkeiten ausgibt. Er ist aufgabenspezifisch, anders als das allgemeinere Backbone.
Merkmalsextraktor: Während das Backbone ein Merkmalsextraktor ist, kann sich der Begriff "Merkmalsextraktor" manchmal auf jeden Teil eines Netzwerks beziehen, der Merkmale extrahiert, oder sogar auf eigenständige Merkmalsextraktionsalgorithmen außerhalb des Deep Learning (wie SIFT oder HOG). Im Zusammenhang mit modernen Deep-Learning-Architekturen wie Ultralytics YOLO bezieht sich der Begriff "Backbone" speziell auf die anfängliche Faltungsbasis.

Anwendungen in der realen Welt

Backbones sind grundlegende Komponenten in unzähligen KI-Anwendungen:

Autonomes Fahren: Systeme in selbstfahrenden Autos sind in hohem Maße auf robuste Backbones (z. B. ResNet- oder EfficientNet-Varianten) angewiesen, um Eingaben von Kameras und LiDAR-Sensoren zu verarbeiten. Die extrahierten Merkmale ermöglichen die Erkennung und Klassifizierung von Fahrzeugen, Fußgängern, Ampeln und Fahrspurlinien, was für eine sichere Navigation und Entscheidungsfindung entscheidend ist, wie in Systemen von Unternehmen wie Waymo zu sehen ist.
Medizinische Bildanalyse: In KI-Lösungen für das Gesundheitswesen werden Backbones verwendet, um medizinische Scans wie Röntgenaufnahmen, CTs oder MRTs zu analysieren. Ein Backbone wie DenseNet kann beispielsweise Merkmale aus einer Röntgenaufnahme der Brust extrahieren, um Anzeichen einer Lungenentzündung zu erkennen, oder aus einem CT-Scan, um potenzielle Tumore zu identifizieren(relevante Forschung in Radiology: AI). Dies hilft Radiologen bei der Diagnose und Behandlungsplanung. Ultralytics-Modelle wie YOLO11 können für Aufgaben wie die Tumorerkennung angepasst werden, indem sie leistungsstarke Backbones nutzen.

Backbone

Flexible Lizenzierungslösung für Unternehmen zur Förderung Ihrer Innovation

Trainieren Sie AI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainieren Sie YOLO-Modelle einfach mit Ultralytics HUB

Kernfunktionalität

Rolle in Computer Vision Modellen

Gemeinsame Backbone-Architekturen

Unterscheidung zwischen Backbone und verwandten Begriffen

Anwendungen in der realen Welt

Lesen Sie mehr in dieser Kategorie

Was ist ein evolutionärer Algorithmus? Ein kurzer Leitfaden

Entdecken Sie Google Beam: Ein 3D-Videokonferenz-Tool der nächsten Generation

Exportieren von Ultralytics YOLO11-Modellen in das NCNN-Modellformat

Werden Sie Mitglied der Ultralytics-Gemeinschaft