Glossar

Zufälliger Wald

Entdecken Sie, wie Random Forest, ein leistungsstarker Ensemble-Lernalgorithmus, sich bei Klassifizierung, Regression und realen KI-Anwendungen auszeichnet.

Random Forest ist eine leistungsstarke und weit verbreitete Ensemble-Lernmethode im maschinellen Lernen (ML). Bei diesem Verfahren wird während des Trainings eine Vielzahl von Entscheidungsbäumen erstellt und die Klasse ausgegeben, die dem Modus der Klassen (Klassifizierung) oder der mittleren Vorhersage (Regression) der einzelnen Bäume entspricht. Als überwachter Lernalgorithmus nutzt er markierte Trainingsdaten, um Muster zu lernen und Vorhersagen zu treffen. Die Kernidee, die von Leo Breiman eingeführt wurde, besteht darin, die Vorhersagen vieler dekorrelierter Bäume zu kombinieren, um eine höhere Genauigkeit und Robustheit im Vergleich zu einem einzelnen Entscheidungsbaum zu erreichen und das Risiko einer Überanpassung deutlich zu verringern.

So funktioniert Random Forest

Der Algorithmus baut ein Ensemble oder einen "Wald" von Entscheidungsbäumen auf, wobei er zwei Schlüsseltechniken anwendet, um die Vielfalt unter den Bäumen zu gewährleisten:

  1. Bagging (Bootstrap-Aggregation): Jeder Baum im Wald wird auf einer anderen Zufallsstichprobe des Originaldatensatzes trainiert, die mit Ersatz gezogen wird. Das bedeutet, dass einige Datenpunkte mehrfach im Trainingssatz eines einzelnen Baums verwendet werden können, während andere möglicherweise überhaupt nicht verwendet werden. Dieser Prozess trägt dazu bei, die Varianz zu verringern.
  2. Zufälligkeit der Merkmale: Bei der Aufteilung eines Knotens während der Konstruktion eines Baums berücksichtigt Random Forest nur eine zufällige Teilmenge der verfügbaren Merkmale, anstatt alle Merkmale zu bewerten. Dies führt zu einer weiteren Dekorrelation der Bäume und macht das Ensemble robuster.

Sobald der Wald trainiert ist, wird für die Vorhersage eines neuen Datenpunktes jeder Baum des Waldes durchlaufen. Bei Klassifizierungsaufgaben wird die endgültige Vorhersage durch eine Mehrheitsabstimmung zwischen allen Bäumen bestimmt. Bei Regressionsaufgaben ist die endgültige Vorhersage der Durchschnitt der Vorhersagen von allen Bäumen.

Wichtige Konzepte und Vorteile

Zum Verständnis von Random Forest gehören mehrere Kernkonzepte:

  • Entscheidungsbäume: Der grundlegende Baustein. Random Forest nutzt die Einfachheit und Interpretierbarkeit einzelner Bäume und mildert gleichzeitig ihre Tendenz zur Überanpassung.
  • Ensemble-Methode: Sie kombiniert mehrere Modelle (Bäume), um die Gesamtleistung zu verbessern, eine gängige Strategie in der ML.
  • Abstimmung der Hyperparameter: Parameter wie die Anzahl der Bäume im Wald und die Anzahl der Merkmale, die bei jedem Split berücksichtigt werden, müssen sorgfältig angepasst werden, oft durch Techniken wie Kreuzvalidierung oder spezielle Hyperparameter-Abstimmungsleitfäden.
  • Wichtigkeit der Merkmale: Random Forests können die Bedeutung jedes Merkmals bei der Erstellung von Vorhersagen schätzen und so wertvolle Einblicke in die Daten liefern. Dies wird häufig auf der Grundlage des Beitrags eines Merkmals zur Verringerung der Unschärfe in allen Bäumen berechnet.

Zu den Vorteilen gehören eine hohe Vorhersagegenauigkeit, Robustheit gegenüber Rauschen und Ausreißern, effiziente Handhabung großer Datensätze mit vielen Merkmalen und integrierte Mechanismen zur Vermeidung von Überanpassung. Sie können jedoch im Vergleich zu einfacheren Modellen rechenintensiv sein und werden oft als weniger interpretierbar angesehen als ein einzelner Entscheidungsbaum.

Anwendungen in der realen Welt

Random Forests sind vielseitig und werden in vielen Bereichen eingesetzt:

  1. Finanzielle Modellierung: Banken verwenden Random Forests zur Bewertung des Kreditrisikos, um die Wahrscheinlichkeit zu ermitteln, dass ein Kreditantragsteller auf der Grundlage seiner finanziellen Geschichte und seiner Merkmale ausfällt. Es wird auch in Systemen zur Betrugserkennung eingesetzt. Erfahren Sie mehr über KI im Finanzwesen.
  2. Diagnostik im Gesundheitswesen: In der medizinischen Bildanalyse können Random Forests bei der Klassifizierung medizinischer Bilder (z. B. MRT-Scans) helfen, um Anomalien zu erkennen oder die Ergebnisse von Patienten auf der Grundlage klinischer Daten vorherzusagen, was zu schnelleren und genaueren Diagnosen beiträgt. Erfahren Sie mehr über KI-Lösungen im Gesundheitswesen.
  3. Elektronischer Handel: Wird in Empfehlungssystemen verwendet, um die Präferenzen der Nutzer vorherzusagen und Produkte vorzuschlagen.
  4. Landwirtschaft: Vorhersage von Ernteerträgen auf der Grundlage von Umweltfaktoren, Beitrag zu KI-Lösungen in der Landwirtschaft.

Vergleich mit anderen Modellen

  • vs. Entscheidungsbäume: Während er aus Entscheidungsbäumen aufgebaut ist, aggregiert Random Forest viele Bäume, um die hohe Varianz und Overfitting-Probleme zu überwinden, die bei einzelnen Bäumen üblich sind.
  • vs. Gradient Boosting (XGBoost/LightGBM): Algorithmen wie XGBoost und LightGBM sind ebenfalls baumbasierte Ensembles, bauen aber nacheinander Bäume auf, wobei jeder neue Baum versucht, die Fehler der vorherigen zu korrigieren. Random Forest baut Bäume unabhängig und parallel auf. Boosting-Methoden können manchmal eine höhere Genauigkeit erreichen, erfordern aber unter Umständen eine sorgfältigere Abstimmung der Parameter.
  • vs. Deep Learning: Random Forests eignen sich besonders gut für strukturierte oder tabellarische Daten. Für unstrukturierte Daten wie Bilder oder Sequenzen werden in der Regel Deep Learning-Modelle (DL) wie Convolutional Neural Networks (CNNs) oder Transformers bevorzugt. Für Aufgaben wie Objekterkennung oder Bildsegmentierung werden häufig Modelle wie Ultralytics YOLO verwendet, die mit Plattformen wie Ultralytics HUB trainiert und verwaltet werden können.

Technologien und Werkzeuge

Mehrere beliebte Bibliotheken für maschinelles Lernen bieten Implementierungen des Random-Forest-Algorithmus. Scikit-learn, eine weit verbreitete Python-Bibliothek, bietet eine umfassende Random-Forest-Implementierung mit Optionen für die Abstimmung der Hyperparameter. Während sie für viele traditionelle ML-Aufgaben leistungsstark sind, sind für modernste Computer-Vision-Anwendungen oft spezielle Architekturen und Plattformen erforderlich, die den MLOps-Lebenszyklus unterstützen. Entdecken Sie verschiedene Ultralytics-Lösungen, die YOLO-Modelle für reale Bildverarbeitungsprobleme nutzen.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert