Glossar

Transformator

Entdecken Sie, wie Transformer-Architekturen die KI revolutionieren und Durchbrüche in den Bereichen NLP, Computer Vision und erweiterte ML-Aufgaben ermöglichen.

Transformatoren sind eine zentrale Architektur neuronaler Netze, die die Bereiche künstliche Intelligenz (AI) und maschinelles Lernen (ML), insbesondere in der Verarbeitung natürlicher Sprache (NLP) und zunehmend auch in der Computer Vision (CV), erheblich vorangebracht hat. Die in der einflussreichen Arbeit"Attention Is All You Need" vorgestellten neuronalen Netze verarbeiten sequentielle Daten wie Text oder Zeitreihen mit Hilfe eines Mechanismus, der als Selbstaufmerksamkeit bezeichnet wird. Dadurch kann das Modell die Bedeutung verschiedener Teile des Inputs dynamisch abwägen und so die wichtigsten Einschränkungen älterer Architekturen wie rekurrenter neuronaler Netze (RNN) überwinden.

Wie Transformatoren funktionieren

Die wichtigste Neuerung von Transformers ist der Selbstbeobachtungsmechanismus. Im Gegensatz zu RNNs, die Eingaben sequentiell (ein Element nach dem anderen) verarbeiten und bei langen Sequenzen aufgrund von Problemen wie verschwindenden Gradienten Probleme haben können, können Transformers alle Teile der Eingabesequenz gleichzeitig berücksichtigen. Diese Fähigkeit zur Parallelverarbeitung beschleunigt das Training auf moderner Hardware wie GPUs von Unternehmen wie NVIDIA erheblich.

Während sich typische Convolutional Neural Networks (CNNs) auf lokale Merkmale durch Filter fester Größe konzentrieren, die eine Faltung durchführen, ermöglicht der Aufmerksamkeitsmechanismus Transformers die Erfassung weitreichender Abhängigkeiten und kontextueller Beziehungen über die gesamte Eingabe. Diese Fähigkeit, globale Zusammenhänge zu verstehen, ist entscheidend für Aufgaben mit komplexen Beziehungen, sei es in Text- oder Bildfeldern, die in Vision Transformers (ViTs) verwendet werden.

Relevanz und Auswirkungen

Transformatoren sind aufgrund ihrer Effektivität bei der Erfassung von Kontext und der Verarbeitung langer Sequenzen zur Grundlage für viele moderne KI-Modelle geworden. Ihre Parallelisierbarkeit hat das Training umfangreicher Modelle mit Milliarden von Parametern ermöglicht, wie z. B. GPT-3 und GPT-4, die von OpenAI entwickelt wurden und zu Durchbrüchen in der generativen KI geführt haben. Diese Skalierbarkeit und Leistung haben Transformers zu einem zentralen Faktor für den Fortschritt bei verschiedenen KI-Aufgaben gemacht und Innovationen in Forschung und Industrie vorangetrieben. Viele beliebte Transformer-Modelle wie BERT sind über Plattformen wie Hugging Face leicht verfügbar und werden mit Frameworks wie PyTorch und TensorFlow implementiert, die oft in MLOps-Plattformen wie Ultralytics HUB integriert sind.

Anwendungen in AI und ML

Transformatoren sind äußerst vielseitig und versorgen zahlreiche AI-Anwendungen:

Transformator vs. andere Architekturen

Es ist hilfreich, Transformers von anderen gängigen neuronalen Netzwerkarchitekturen zu unterscheiden:

  • Transformatoren vs. RNNs: RNNs verarbeiten Daten sequentiell und sind daher für Zeitreihendaten geeignet, neigen aber dazu, frühere Informationen in langen Sequenzen zu vergessen(Problem des verschwindenden Gradienten). Transformatoren verarbeiten Sequenzen parallel unter Verwendung von Selbstaufmerksamkeit, erfassen weitreichende Abhängigkeiten effektiver und trainieren schneller auf paralleler Hardware(GPUs).
  • Transformatoren vs. CNNs: CNNs zeichnen sich durch die Erkennung lokaler Muster in gitterartigen Daten (z. B. Pixel in einem Bild) unter Verwendung von Faltungsfiltern aus. Sie sind äußerst effizient für viele Bildverarbeitungsaufgaben, wie sie von Ultralytics YOLO-Modellen gelöst werden. Transformatoren, insbesondere ViTs, unterteilen Bilder in Flecken und modellieren die Beziehungen zwischen ihnen mit Hilfe der Selbstaufmerksamkeit, wodurch der globale Kontext potenziell besser erfasst wird, aber oft mehr Daten und Rechenressourcen benötigt werden, insbesondere während der Modellschulung. Hybride Architekturen, die CNN-Funktionen mit Transformer-Schichten kombinieren, zielen darauf ab, die Stärken beider zu nutzen, wie dies bei einigen RT-DETR-Varianten der Fall ist. Die Wahl hängt oft von der spezifischen Aufgabe, der Größe des Datensatzes und den verfügbaren Rechenressourcen ab.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert