xG ja Poisson-malli MM-ennakoissa

xG- ja Poisson-mallin laskelmia näytöllä MM-kisojen ennakoinnissa

Ladataan...

Sisällysluettelo

Kun aloin käyttää xG-lukuja MM-ennakointiin 2018, olin vakuuttunut, että olin löytänyt oikoteitä. Kolmen viikon turnauksen jälkeen tajusin, että olin löytänyt työkalun — en ratkaisua. Xg poisson vedonlyönti -metodit ovat kuin moottorisaha, kun olet tottunut käyttämään sahaa: ne tekevät työn nopeammin, mutta vain jos osaat kohdistaa oikein. Kohdistus on tässä jutussa se asia, johon paneudun eniten.

Tämä opas selittää xG:n perusteet, Poisson-jakauman käytännön sovelluksen, miten niitä sovelletaan MM-ennakkoon ja missä niiden rajat ovat. En pyri tilastotieteelliseen täydellisyyteen — pyrin käytännön ymmärrykseen, jota voit itse soveltaa pelaamiseen.

xG-perusteet — odotetut maalit jalkapallossa

Oletetaan että laukauksen osuu maaliin vain silloin, kun se on hyvä laukaus. Tämä kuulostaa itsestäänselvältä, mutta sen takana on koko xG-mallin idea. Jokainen laukaus arvioidaan sen perusteella, kuinka todennäköisesti se olisi mennyt maaliin keskivertopelaajalta keskivertosijainnista. Jos laukaus on otettu kahden metrin päästä tyhjään maaliin, sen xG on noin 0.90 — yhdeksän kymmenestä osuu. Jos laukaus on otettu 30 metrin päästä vaikeasta kulmasta, sen xG on noin 0.03 — kolme sadasta osuu.

Kun lasket koko ottelun kaikki laukaukset yhteen, saat odotettujen maalien kokonaisluvun. Tämä luku on paljon parempi mittari ottelun ”oikeasta” kulusta kuin varsinainen maalimäärä. Jos Ranska teki 1 maalin ja oli 2.4 xG, se oli parempi hyökkäävä suoritus kuin maalimäärä kertoo. Vastaavasti jos Saksa teki 3 maalia 0.8 xG:llä, se oli onnekas — eivätkä onnekkaat suoritukset toistu samalla tavalla seuraavana päivänä.

Hyödyllisin xG:n ominaisuus on sen ennustekyky. Klubitason jalkapallossa xG ennustaa tulevaa maalimäärää paremmin kuin menneiden maalien keskiarvo. Tämä tarkoittaa käytännössä, että jos olet päättämässä kahden joukkueen välillä ennustuksessasi, katso heidän xG-tilastojaan viimeiseltä 10 ottelulta — ei pelkkiä tuloksia.

xG:llä on myös rajansa. Se mittaa laukaushetken laadun mutta ei ota huomioon pelaajan yksilöllistä kykyä. Mbappén laukaus 15 metrin päästä on parempi kuin keskivertopelaajan, mutta xG-malli ei erota niitä — se antaa molemmille saman arvon. Tästä syystä xG-luvut ovat parempia joukkueiden tasolla kuin yksittäisten pelaajien tasolla. Toinen rajoitus on, että xG ei huomioi ”jälkipelejä” — eli sitä, mitä tapahtuu välittömästi ennen laukausta. Kahden pelaajan kautta tehty syöttö vs. yksilösuoritus dribblaamisen jälkeen saa saman xG-arvon, vaikka ensimmäinen on taktisesti tehdympi.

On olemassa useita eri xG-malleja, ja ne antavat hiukan eri lukuja samalle laukaukselle. Opta, StatsBomb, Understat ja Sofascore kaikki käyttävät hiukan eri parametreja. Tavallisesti erot ovat pieniä — 5–10 prosenttia ottelun kokonaismäärästä — mutta ne riittävät muuttamaan valuelaskelmia. Oma suositukseni on valita yksi malli ja pitää siitä kiinni, jotta vertailut ovat sisäisesti johdonmukaisia, vaikkakin epätäydellisiä absoluuttisessa mielessä.

Vastaava työkalu on xGA eli expected goals against — odotetut vastaanotetut maalit. Tämä on joukkueen puolustuksen mittari. xG:n ja xGA:n erotus kertoo joukkueen ”odotetun saldon” per ottelu. Jos Ranskan xG on 2.1 ja xGA 0.7, sen erotus on +1.4, mikä tarkoittaa, että odotusarvo on 1.4 maalin voitto keskivertovastustajaa vastaan. Tämä on minun mielestäni paras yksittäinen mittari joukkueen tasosta, ja se on selvästi parempi kuin FIFA-rankingi tai karsintasarjan pistemäärä.

Poisson-jakauma käytännössä

Poisson on ranskalaisen matemaatikon Siméon Denis Poissonin kehittämä todennäköisyysjakauma, joka kuvaa tapahtumia, jotka tapahtuvat riippumattomasti tietyllä tasaisella taajuudella. Jalkapallossa maalit sopivat tähän kuvaukseen harvinaisen hyvin: ne tapahtuvat suhteellisen harvoin, satunnaisesti, ja yhden maalin syntyminen ei juuri vaikuta seuraavan maalin todennäköisyyteen.

Poissonin kaava sanoo, että tietyn maalimäärän toteutumistodennäköisyys lasketaan seuraavasti: P(k maalia) = (lambda^k × e^−lambda) / k!, missä lambda on odotusarvo ja k on toteutuva maalimäärä. Älä anna kaavan pelästyttää. Käytännössä toimit näin: jos arvioit Ranskan tekevän keskimäärin 1.8 maalia ottelussa ja Norjan 0.9, voit laskea todennäköisyydet jokaiselle mahdolliselle lopputulokselle — 1–0, 2–1, 3–2, 0–0, ja niin edelleen.

Konkreettinen esimerkki. Lambda Ranskalle 1.8, Norjalle 0.9. Todennäköisyys, että Ranska tekee 2 maalia, on: (1.8^2 × e^−1.8) / 2! = 3.24 × 0.165 / 2 = 0.268, eli 26.8 prosenttia. Todennäköisyys, että Norja tekee 1 maalin, on: (0.9^1 × e^−0.9) / 1! = 0.9 × 0.407 / 1 = 0.366, eli 36.6 prosenttia. Jos nämä ovat toisistaan riippumattomia, tuloksen 2–1 Ranskalle todennäköisyys on 0.268 × 0.366 = 0.098, eli 9.8 prosenttia.

Tämä logiikka toistetaan kaikille mahdollisille tuloksille — matriisi, jossa Ranskan maalit ovat pystysarakkeina ja Norjan maalit vaakariveinä. Kun kaikki todennäköisyydet on laskettu, voit laskea yhteen kaikki ruudut, joissa Ranska voittaa (kotivoitto = alakolmio matriisista), ne joissa tulee tasapeli (lävistäjä) ja ne joissa Norja voittaa (yläkolmio). Näistä saat 1X2-todennäköisyydet.

Tämän saman matriisin perusteella saat myös yli/alle -todennäköisyydet (summaa kaikki ruudut, joissa yhteenlaskettu maalimäärä ylittää 2.5), molemmat tekevät maalin -todennäköisyydet (summaa kaikki ruudut, joissa molemmat luvut ovat yli 0), ja paljon muuta. Yhden mallin kautta saat kaikki päämarkkinoiden todennäköisyydet — ja voit verrata niitä operaattorin tarjoamiin kertoimiin löytääksesi valuea.

Yksi korjaus, jota on hyvä tehdä puhtaalle Poissonille, on niin sanottu Dixon-Coles-korjaus. Tämä korjaa matalilla maalimäärillä esiintyvän vinouman — Poisson aliarvioi tasapelin todennäköisyyttä 0–0 ja 1–1 -tuloksissa. Kahden tutkijan (Mark Dixon ja Stuart Coles) 1997 kehittämä korjauskerroin parantaa mallin sopivuutta todellisiin jalkapalloottelu-tilastoihin. Käytännössä Dixon-Colesin kanssa korjauskerrointa sovelletaan matriisin neljään ruutuun (0–0, 0–1, 1–0, 1–1), ja se on tyypillisesti 0.9–1.1 väliltä. En käytä sitä itse systemaattisesti, mutta kun malli näyttää 0–0-todennäköisyydeksi alle 5 prosenttia, nostan sitä käsin hiukan ylöspäin.

Soveltaminen MM-ennakkoon

Oma metodini MM-kisojen ottelukohtaiseen arviointiin rakentuu kolmen askelman varaan. Ensimmäinen askel on joukkueen lambda-arvioinnin rakentaminen. Toinen askel on vastustajakorjaus. Kolmas askel on kontekstuaaliset lisäykset.

Ensimmäinen askel: lambda kertoo joukkueen ”perusmaalitahdin” tyypillisissä olosuhteissa. Itse laskin sen ottamalla joukkueen viimeisten 20 ottelun keskimaalimäärän ja painottamalla tätä joukkueen xG-keskiarvolla samalta ajalta. Jos nämä kaksi lukua ovat lähellä toisiaan, joukkueen suoritus on ollut tasaista. Jos xG on huomattavasti korkeampi kuin maalimäärä, joukkueella on ollut huonoa onnea viimeistelyssä (eli sen odotusarvo on korkeampi kuin tulokset näyttävät). Käänteinen tapaus tarkoittaa, että joukkue on ylisuorittanut.

Toinen askel: vastustajan laatu vaikuttaa aina lambdaan. Hyvää puolustusjoukkuetta vastaan hyökkäysjoukkueen lambda laskee, ja heikkoa puolustusjoukkuetta vastaan se nousee. Tämä oikaisu tehdään laskemalla vastustajan puolustusvahvuus suhteessa liigan tai turnauksen keskiarvoon. Jos Norja päästää keskimäärin 0.8 maalia per ottelu ja turnauksen keskiarvo on 1.3, Norjan puolustusvahvuuskerroin on 0.8 / 1.3 = 0.615. Ranskan lambda Norjaa vastaan kertoisi siis 1.8 × 0.615 = 1.11 — eli Ranska tekee odotuksesti noin 1.11 maalia, ei 1.8.

Kolmas askel: kontekstuaaliset lisäykset ovat ne asiat, jotka puhdas data ei kata. Loukkaantumiset, väsymys, motivaatio, sääolot, pelialusta. Esimerkiksi kuuma sää voi laskea lambdaa 10–15 prosenttia, koska ottelut hidastuvat ja joukkueet pelaavat varovaisemmin. Korkeus — kuten Aztecassa Mexico Cityn 2240 metrin korkeudessa — vaikuttaa vieraisiin ensimmäisten 30 minuutin ajan. Nämä lisäykset ovat subjektiivisia, ja tässä kohden malli tulee pelaajan oman arvioinnin varaan.

Kun kaikki kolme askelta on tehty, sinulla on lambda-arvot molemmille joukkueille. Näiden perusteella lasket Poisson-matriisin ja saat kaikki markkinoiden todennäköisyydet. Vertailu operaattorin kertoimiin näyttää, missä on valuea ja missä ei. Tämä prosessi vie ottelukohtaisesti noin 20 minuuttia, kun olet harjoitellut sitä.

Konkreettinen esimerkki koko ketjusta MM 2026 -otteluun. Espanja–Uruguay lohkossa H. Espanjan lambda viimeisen 20 ottelun perusteella on 2.3, Uruguayn 1.4. Uruguayn puolustusvahvuus on vahva (0.85 × keskiarvo), joten Espanjan oikaistu lambda on 2.3 × 0.85 = 1.96. Espanjan puolustus on vielä vahvempi (0.75 × keskiarvo), joten Uruguayn oikaistu lambda on 1.4 × 0.75 = 1.05. Kontekstuaalisia oikaisuja en tee merkittäviä, koska kyse on ottelun avauksesta eikä loppuvaiheesta. Lopulliset lambdat: Espanja 1.96, Uruguay 1.05.

Näistä lambdoista Poisson-matriisi antaa seuraavat todennäköisyydet: Espanjan voitto 52.3 prosenttia, tasapeli 24.6 prosenttia, Uruguayn voitto 23.1 prosenttia. Yli 2.5 -maaliin todennäköisyys on 51.2 prosenttia, molemmat tekevät maalin 56.4 prosenttia. Kun vertaan näitä operaattorin tarjoamiin kertoimiin, näen missä on valuea ja missä ei. Jos operaattori tarjoaa Espanjalle 1.85 (implisiittinen 54.1 prosenttia), se on matalaa arvoa — oma arvioni 52.3 prosenttia on vain hiukan alempi, ja marginaalit syövät eron. Mutta jos ”yli 2.5” on 2.00 (implisiittinen 50 prosenttia) ja oma arvioni 51.2 prosenttia, siinä on pieni value, vaikkakin liian pieni yksittäiseen vetoon lyömiseen.

Mallin rajoitukset — mitä Poisson ei näe

Jos Poisson-malli olisi täydellinen, kaikki pelaajat käyttäisivät sitä ja operaattorien olisi pakko hinnoitella kertoimensa sen mukaisesti. Näin ei ole, koska mallilla on merkittäviä rajoituksia. Käyn läpi neljä tärkeintä.

Ensinnäkin, Poisson olettaa että joukkueen lambda on vakaa, mutta käytännössä maaleja syntyy ryppäinä. Jos joukkue tekee maalin minuutilla 20, sen lambda kyseiselle ottelulle ei pysy samana — se muuttuu, koska vastustaja alkaa pelata avoimemmin yrittäen tasoittaa. Tämä rikkoo Poissonin oletuksen riippumattomuudesta. Yhden maalin synnyttyä seuraavan maalin todennäköisyys kasvaa, mikä on hiukan vastoin puhdasta Poisson-laskelmaa.

Toiseksi, pudotuspelit ovat erilaisia kuin lohkovaihe. Pudotuspeleissä joukkueet pelaavat varovaisemmin, koska virheiden hinta on ääretön. Yli/alle -linjat ovat historiallisesti 0.3–0.5 maalia matalampia pudotuspeleissä kuin lohkovaiheessa. Tämä tarkoittaa, että jos käytät lohkovaiheen lambdoja pudotuspelien ennakointiin, malli yliarvioi maaliodotuksen systemaattisesti.

Kolmanneksi, Poisson ei osaa käsitellä rangaistuspotkukilpailuja. Jos malli sanoo, että ottelu päättyy 1–1 65 prosentin todennäköisyydellä, siitä 65 prosentista osa menee jatkoajalle ja sitten rangaistuspotkukilpailuun, jossa lopputulos on 50–50. Tavallinen Poisson ei ota tätä huomioon, ja sinun on lisättävä erillinen laskukerros pudotuspelien ”ratkaistu rangaistuspotkukilpailussa” -markkinoihin.

Neljänneksi, ja kaikkein tärkeimmin, Poisson on vain yhtä hyvä kuin sen sisältämät oletukset. Jos lambda-arviosi on kaksinkertaisesti väärin, kaikki siitä johdetut todennäköisyydet ovat kaksinkertaisesti väärin. Tämä on se kohta, jossa pelaajan oma arviointi — joukkueen muoto, loukkaantumisten vaikutus, taktiset muutokset — on vähintään yhtä tärkeä kuin itse matematiikka. Poisson-malli ei korvaa peliälyä, se korostaa sitä.

Viides rajoitus koskee kokoonpanomuutoksia. Jos joukkueen kärkihyökkääjä loukkaantuu ennen ottelua, sen lambda laskee merkittävästi, mutta tätä ei näe datapohjassa ennen ottelua. Sinun pitää manuaalisesti oikaista lambdaasi — tyypillisesti 0.2–0.4 maalia per ottelu, jos kyseessä on todella keskeinen pelaaja. Tämä on yksi niistä asioista, jotka tekevät mallinnuksesta enemmän taidetta kuin tiedettä: sinun on tiedettävä, milloin luottaa dataan ja milloin luottaa omaan arvioosi datan yli.

xG- ja Poisson-mallin yleisimmät kysymykset

Mitä xG tarkoittaa?
xG eli expected goals tarkoittaa odotettuja maaleja. Jokaisen laukauksen kohdalla lasketaan sen todennäköisyys mennä maaliin laukaushetken sijainnin, kulman, rajoitusten ja muiden tekijöiden perusteella. Ottelukohtainen xG on kaikkien näiden laukaustodennäköisyyksien summa, ja se on parempi mittari joukkueen suorituksesta kuin pelkkä maalimäärä.
Voiko Poisson-mallia käyttää yksin vedonlyöntiin?
Ei voi. Poisson-malli on työkalu, joka antaa todennäköisyyksiä perustuen syötteenä annettuihin lambda-arvoihin. Jos lambda-arviosi ovat virheellisiä, myös tulos on virheellinen. Oikea käyttötapa on yhdistää Poisson omaan pelianalyysiisi, loukkaantumistietoihin, joukkueiden muotoon ja kontekstuaalisiin tekijöihin. Yksinään käytettynä malli on vain tilastollinen oletus, ei ennuste.