Wie funktioniert das Vorhersagemodell?
- Details
- Zuletzt aktualisiert: 24.03.2026 24.03.2026
Hinter jedem Tipp steckt ein statistisches Modell, das historische Spielergebnisse auswertet, Teamstärken berechnet und Wahrscheinlichkeiten für alle möglichen Spielstände ermittelt. Dieser Artikel erklärt die Methodik Schritt für Schritt.
1. Überblick
Das Modell ist in Python implementiert und arbeitet mit historischen Spielresultaten, die in einer Datenbank gespeichert sind. Es unterstützt derzeit 18 europäische Ligen – von der Bundesliga bis zur Scottish Premiership.
Der Grundgedanke ist einfach: Wer in der Vergangenheit stark war, wird es wahrscheinlich auch in der Zukunft sein. Das Modell quantifiziert diese Stärke, berücksichtigt den Heimvorteil und berechnet daraus für jedes Spiel eine Wahrscheinlichkeitsverteilung über alle möglichen Spielstände.
Die Vorhersage läuft in drei großen Schritten ab:
Aus allen historischen Spielen werden Teamstärken und Heimvorteil geschätzt.
Per Poisson-Verteilung werden Wahrscheinlichkeiten für alle Spielstände berechnet.
Trefferquoten und Kalibrierungsgüte werden anhand echter Ergebnisse gemessen.
2. Datengrundlage
Grundlage sind historische Spielresultate, die saisonweise in einer Datenbank vorliegen. Jedes Spiel enthält mindestens: Heim- und Auswärtsteam, Spieltag, Saison und das Endergebnis. Für ausgewählte Top-Ligen kommen zusätzliche Daten hinzu:
- Marktwerte der Teams (logarithmisch skaliert)
- ELO-Punkte als ligaübergreifendes Stärkemaß
- Schussstatistiken (Schüsse auf das Tor) für Bundesliga, Premier League, La Liga, Serie A und Ligue 1
Das Modell verarbeitet die Daten strikt chronologisch: Die Vorhersage für eine Saison basiert ausschließlich auf Daten aus früheren Saisons. Das entspricht einer echten Out-of-Sample-Evaluation und verhindert, dass das Modell von der Zukunft „lernt“.
3. Teamstärke berechnen
Die Stärke eines Teams wird als erwartete Tordifferenz pro Spiel ausgedrückt – ein positiver Wert steht für ein eher torreiches, dominantes Team, ein negativer für ein defensiv ausgerichtetes oder schwächeres Team.
Diese Stärkezahl ist die Zielvariable einer linearen Regression: Das Modell lernt aus historischen Spielen, wie stark jedes Merkmal zur tatsächlich erzielten Tordifferenz beigetragen hat, und wendet diese gelernten Gewichte auf das aktuelle Spiel an. Je nach Liga fließen folgende Merkmale ein:
| Merkmal | Beschreibung | Verfügbarkeit |
|---|---|---|
| Tordifferenz | Kumulierte Differenz aus geschossenen und kassierten Toren | Alle Ligen |
| Marktwert | Kadermarktwert als Proxy für langfristige Stärke | Alle Ligen |
| ELO-Punkte | Ligaübergreifendes Leistungsmaß auf Basis der Ergebnishistorie | Alle Ligen |
| ELO-Differenz | Unterschied im ELO-Wert zwischen Heim- und Auswärtsteam | Alle Ligen |
| Schusseffizienz | Verhältnis von Torschüssen zu Treffern | Top-5-Ligen + Bundesliga |
Die Regression wird für jede Saison neu berechnet – separat für Heim- und Auswärtsspiele und phasenweise entlang des Saisonverlaufs. So kann das Modell zum Beispiel abbilden, dass Teams zu Saisonbeginn schwerer einzuschätzen sind als nach 20 Spieltagen. Teamstärken werden zusätzlich über einen gleitenden Durchschnitt geglättet, um kurzfristige Ausreißer abzudämpfen.
4. Heimvorteil
Heimspiele werden statistisch häufiger gewonnen als Auswärtsspiele. Das Modell behandelt diesen Heimvorteil nicht als feste Konstante, sondern schätzt ihn dynamisch pro Saison und Spieltagsabschnitt.
Der im Modell verwendete Heimvorteilwert ist ein gleitender Durchschnitt der tatsächlichen Tordifferenzen (Heimtore minus Auswärtstore) der letzten 360 Spiele. Er passt sich damit automatisch an, wenn sich der Heimvorteil in einer Liga über die Zeit verändert – etwa durch den Wegfall von Zuschauern in Geisterspielen.
Zusätzlich pflegt das Modell ein internes ELO-Rating, das nach jedem Spiel aktualisiert wird. Dieses ELO fließt jedoch nicht direkt in den Heimvorteilwert ein, sondern in die Teamstärken-Schätzung (Abschnitt 3).
5. Das Herzstück: Die Poisson-Verteilung
Tore in einem Fußballspiel lassen sich gut als seltene, voneinander unabhängige Ereignisse modellieren – ähnlich wie Unfälle auf einer Straße oder Anrufe in einem Callcenter. Für solche Prozesse ist die Poisson-Verteilung das mathematisch passende Werkzeug.
Die Poisson-Verteilung beantwortet die Frage: Wie wahrscheinlich ist es, genau k Tore zu erzielen, wenn im Durchschnitt λ Tore erwartet werden?
λ = erwartete Tore | k = tatsächliche Tore | e ≈ 2,718
Wie wird λ bestimmt?
Der erwartete Torwert λ ergibt sich aus drei Größen:
- Ligadurchschnitt: Wie viele Tore fallen im Schnitt pro Spiel in dieser Liga? Dieser Wert wird als gleitender Durchschnitt über die letzten 360 Spiele berechnet.
- Teamstärke-Differenz: Wie viel stärker oder schwächer ist das Heim- gegenüber dem Auswärtsteam? Diese Differenz verschiebt die Torerwartung zugunsten des stärkeren Teams.
- Heimvorteil: Der Heimvorteil wird zur Stärke des Heimteams addiert und erhöht damit dessen erwartete Torzahl.
Das Ergebnis sind zwei Lambdas: eines für das Heimteam (λ₁) und eines für das Auswärtsteam (λ₂). Sind beide Teams gleich stark, liegt λ₁ leicht über dem Ligaschnitt (wegen des Heimvorteils) und λ₂ leicht darunter.
6. Spielstand-Wahrscheinlichkeiten
Mit den beiden Erwartungswerten λ₁ und λ₂ berechnet das Modell für alle 25 möglichen Spielstände von 0:0 bis 4:4 eine Wahrscheinlichkeit. Da die Tore beider Teams als unabhängig angenommen werden, ergibt sich die Wahrscheinlichkeit eines Spielstands als Produkt der beiden Poisson-Werte:
i = Tore Heimteam | j = Tore Auswärtsteam
Da die Poisson-Verteilung theoretisch unendlich viele Tore zulässt, das Modell aber nur Stände bis 4:4 berechnet, summieren sich die 25 Einzelwahrscheinlichkeiten nicht exakt auf 1 – seltene Hochtor-Ergebnisse fehlen. Daher werden die Werte normiert, sodass die Summe genau 1 ergibt. Anschließend werden sie zu den drei Ergebniswahrscheinlichkeiten summiert:
| Ergebnis | Bedingung | Bedeutung |
|---|---|---|
| Heimsieg (1) | i > j | Summe aller Spielstände, bei denen das Heimteam mehr Tore erzielt |
| Unentschieden (X) | i = j | Summe aller Spielstände mit gleicher Toranzahl |
| Auswärtssieg (2) | i < j | Summe aller Spielstände, bei denen das Auswärtsteam mehr Tore erzielt |
Kalibrierung
Für die Bundesliga 1 wird zusätzlich ein empirischer Korrekturfaktor pro Spielstand angewendet. Er misst, wie oft ein bestimmtes Ergebnis in der Vergangenheit tatsächlich eingetreten ist im Vergleich zu dem, was das Poisson-Modell vorhergesagt hätte. Weicht ein Spielstand systematisch ab – z. B. wird 0:0 häufiger erzielt als erwartet – korrigiert dieser Faktor die Vorhersage entsprechend.
7. Vom Spielstand zum Tipp
Der finale Tipp – Heimsieg, Unentschieden oder Auswärtssieg – ergibt sich aus der höchsten der drei berechneten Wahrscheinlichkeiten. Als vorhergesagter Spielstand wird jeweils der wahrscheinlichste Einzelstand innerhalb der führenden Kategorie ausgegeben.
Beispiel: Beträgt die Wahrscheinlichkeit für einen Heimsieg 52 %, für ein Unentschieden 25 % und für einen Auswärtssieg 23 %, so lautet der Tipp „Heimsieg“. Als vorhergesagter Stand wird dann etwa 2:1 ausgegeben, wenn das der wahrscheinlichste Heimsieg-Spielstand ist.
8. Aufsteiger & neue Teams
Frisch aufgestiegene Teams stellen das Modell vor eine besondere Herausforderung: Sie haben keine Datenhistorie in der neuen Liga und ihre Stärke ist daher schwer einzuschätzen.
Das Modell löst das durch eine Dämpfungsstrategie: Die geschätzte Stärke eines Aufsteigers wird zu gleichen Teilen (50/50) aus dem eigenen bisherigen Verlauf und dem historischen Durchschnittswert aller Aufsteiger der vergangenen Saisons berechnet. Diese feste Gewichtung ist eine bewusste Vereinfachung, die verhindert, dass das Modell einem einzelnen Aufsteiger zu viel oder zu wenig Gewicht beimisst. Der Referenzwert wird nach jeder Saison neu aktualisiert. Das verhindert sowohl eine Überschätzung starker Aufsteiger als auch eine Unterschätzung defensiv solider Neulinge.
9. Saison-Simulation (Monte Carlo)
Neben der Vorhersage einzelner Spiele kann das Modell den restlichen Saisonverlauf simulieren. Dazu werden alle noch ausstehenden Spiele einer Saison zehntausende Male zufällig ausgewürfelt – gewichtet nach den berechneten Spielstand-Wahrscheinlichkeiten.
Das Verfahren heißt Monte-Carlo-Simulation und liefert als Ergebnis eine Wahrscheinlichkeitsverteilung für die Abschlusstabelle: Wie wahrscheinlich ist es, dass Team A Meister wird? Mit welcher Wahrscheinlichkeit steigt Team B ab?
Die Zufallsziehung eines Spielstands folgt dabei der berechneten Wahrscheinlichkeitsverteilung – ein Ergebnis, das das Modell für sehr wahrscheinlich hält, wird entsprechend häufiger gewürfelt.
10. Auswertung & Qualität
Da das Modell chronologisch durch die Geschichte läuft und jede Saison ausschließlich auf Basis vergangener Daten bewertet wird, entspricht die ausgewiesene Trefferquote einer echten Rückwärtsprüfung. Folgende Metriken werden verfolgt:
| Metrik | Bedeutung |
|---|---|
| Trefferquote | Anteil korrekt vorhergesagter Tendenzen (Heimsieg / Unentschieden / Auswärtssieg) |
| Genaue Treffer | Anteil exakt vorhergesagter Spielstände |
| Prognosewert | Trefferquote bereinigt um Zufall und Basiswahrscheinlichkeiten – misst den echten Informationsgehalt |
| Kalibrierungsgüte (Log Loss) | Misst, wie gut die ausgegebenen Wahrscheinlichkeiten mit den tatsächlichen Häufigkeiten übereinstimmen |
Literatur
Das statistische Fundament dieses Modells baut auf Methoden auf, die in der wissenschaftlichen Literatur zur Fußballanalyse etabliert sind. Eine empfehlenswerte Einführung bietet:
Der perfekte Tipp: Statistik des Fußballspiels
Erlebnis Wissenschaft — Wiley-VCH, 1. Auflage, 12. September 2012 — ISBN 978-3-527-41220-6
Heuer beschreibt darin, wie sich Spielergebnisse statistisch modellieren lassen, welche Rolle der Zufall im Fußball spielt und warum die Poisson-Verteilung ein geeignetes Werkzeug für Torvorhersagen ist — Grundgedanken, die auch in diesem Modell zum Tragen kommen.
11. Fazit
Das Vorhersagemodell verbindet mehrere bewährte statistische Methoden zu einer kohärenten Pipeline:
- Poisson-Verteilung als theoretisch fundiertes Tormodell
- Lineare Regression zur Teamstärken-Schätzung auf Basis von ELO, Marktwert und Schusseffizienz
- Dynamischer Heimvorteil, der sich automatisch an ligaspezifische Veränderungen anpasst
- Empirische Kalibrierung zur Korrektur systematischer Modellabweichungen
- Monte-Carlo-Simulation für probabilistische Tabellenvorhersagen
- Echtes Backtesting über viele Saisons und Ligen hinweg
Die Stärke liegt in der Kombination einfacher, gut interpretierbarer Bausteine – anstatt auf eine einzige, undurchsichtige Methode zu setzen. Die Qualität lässt sich konkret messen: Trefferquote, Prognosewert und Kalibrierungsgüte (Log Loss) werden für jede Saison und Liga separat ausgewiesen, wie in Abschnitt 10 beschrieben.