Analytiikka ja tiedon hyväksikäyttö kilpailukyvyn välineenä on tullut isosti mukaan yritysmaailman lisäksi myös urheiluun. Urheiluanalytiikan sovellusalueita löytyy esimerkiksi ottelutaktiikasta, harjoittelun suunnittelusta, seuran liiketoiminnan pyörittämisestä ja urheiluvedonlyönnistä. Joku saattaa muistaa myös Brad Pittin tähdittämän klassikkoelokuvan “Moneyball”, joka kuvaa analytiikan hyödyntämistä pelaajarekrytoinneissa.
Viimeisimpänä tiedon hyväksikäyttöön on herännyt salibandyn sukulaislaji jääkiekko. NHL:ssä aloitettiin kesällä 2014 kilpajuoksu analytiikan hyödyntämisessä laajemmin. Mediassa huomiota herätti hiljattain termi “NHL Summer of Analytics”. Yleisesti NHL:n ja jääkiekon koetaan raahautuvan selvästi perässä urheiluanalytiikan hyödyntämisessä muihin lajeihin verrattuna.
Miten on salibandyn laita? Onko Salibandyliigassa järkevää ottaa samankaltainen askel eteenpäin kuin NHL:ssä? Entä miten salibandyssä voisi tänä päivänä hyödyntää analytiikkaa ja kertynyttä dataa otteluista tai muista tilastoista?
Tässä kirjoituksessa lähdemme tarkastelemaan analytiikan hyödyntämistä ottelutuloksien ennustamisessa. Simulaatiomalli, jonka myöhemmin esittelemme, on toteutettu osana Aalto yliopiston “Simulation”-kurssia. Työn tavoitteena oli ennustaa tilastotieteellisin menetelmin Salibandyliigan runkosarjan 2015 – 2016 lopputulokset.
Projektissamme mallinsimme yhden runkosarjakauden kaikkien otteluparien tulokset Monte-Carlo- simulaatiota käyttäen. Lopputuotteena saimme laskettua mm. jokaiselle ottelulle todennäköisyydet eri lopputuloksille, keskimääräiset voitot, tappiot ja tasapelit jokaiselle joukkueelle sekä arvioidut sijoitukset runkosarjassa.
Miten ottelutuloksia mallinnetaan?
Runkosarjan tulokset saatiin mallintamalla yhden runkosarjan kaikki otteluparit tuhat kertaa – näin sattumalle ei jää sijaa ja tulokset ovat järkeviä arvioita todellisuudesta. Mallin perustana toimi Salibandyliitolta saadut ottelutulokset viimeisen 25 vuoden ajalta ja niistä lasketut todennäköisyysjakaumat. Seuraavaksi pyrimme selventämään logiikkaa mallimme takana.
Ottelutilastoja tutkiessamme huomasimme, että Salibandyliiga -otteluissa tehdyt maalit seuraavat melko tarkasti ns. katkaistua Poisson-todennäköisyysjakaumaa (Kuvaaja 1). Ottelutulokset mallinnettiin muodostamalla jokaisen otteluparin molemmille joukkueille todennäköisyysjakauman kertymäfunktio, josta malli satunnaisesti haki arvoja, eli tässä tapauksessa tehtyjen maalien lukumääriä per joukkue. Todennäköisyysjakauma oli katkaistu välille 0 – 25, joka vastaa realistista maalien määrää salibandyottelussa joukkuetta kohden.
—
—
Menneen 25 vuoden tuloksista paljastui myös, että kotiedulla on selvä vaikutus tehtyihin maaleihin: kotijoukkue tekee Salibandyliigassa keskimäärin noin ~0,43 maalia enemmän kuin vastustaja. Otimme tämän huomioon ottelutuloksia mallintaessa.
Happee voittaa – SalBa tippuu divariin
Mallimme antaa aikaisempien ottelutulosten puhua puolestaan: perustuen viimeisten kolmen kauden tuloksiin, Happee on ylivoimaisesti todennäköisin runkosarjan voittajasuosikki kaudella 2015 – 2016 (Kuvaaja 2). Classic ja SPV läähättävät perässä seuraavina voittajasuosikkeina, sijoittuen keskimäärin toiseksi ja kolmanneksi. Vaikeinta tulee olemaan Nokian KrP:llä, M-teamilla ja SalBa:lla, jotka taistelevat kynsin ja hampain putoamista vastaan. Nämä tulokset olisi varmaan pystynyt maallikkokin ennustamaan, mutta simuloimalla on mahdollista saada datasta irti myös paljon muuta.
—
—
Joukkueiden kesken löytyy selkeitä eroja hyvän ja huonon kauden välillä. Salibandyliigan tasaisin suorittaja on mallin mukaan Happee, jonka pisteiden varianssi tuhannessa simulaatiossa on vain 11,85 kun taas Indiansin (18,45) ja TPS:n (16,30) suoritukset ailahtelevat selvästi eniten (Kuvaaja 4). Sama ilmiö voidaan todeta kuvaajasta 3, joka havainnollistaa mallin antamia maksimi ja minimi pisteitä eri joukkueille. Mallin mukaan Happee, SPV, Oilers, SSV ja Classic ovat siis lähes varmoja playoff-joukkueita riippumatta siitä, kuinka ”penkin alle” heidän kautensa menevät.
Huomionarvoista on se, että todellinen syy näille vaihteluille menestyksessä on jossain syvemmällä kuin kylmissä tilastoissa. Joukkueen suorituskyvyn heittely saattaa johtua esimerkiksi kokeneesta (tai kokemattomasta) joukkueesta tai yksinkertaisesti päivän fiiliksestä.
Alla vielä mallimme ennustus Salibandyliigan kauden 2015 – 2016 lopullisista sijoituksista:
Käyttötarkoitukset Salibandyssa
Salibandyliigan joulutauon merkeissä on hyvä hetki suunnata katseet kevääseen ja lopullisiin runkosarjasijoituksiin. On mielenkiintoista nähdä, näimmekö kristallipallosta oikeat joukkueet, vai tapahtuuko kevään mittaan vielä ihmeitä.
Ennusteen tarkkuudesta riippumatta sen soveltaminen urheiluun on perusteltua. Vastaavaa mallinnusta on käytetty esimerkiksi Englannin Valioliigan sarjataulukkoon.
Voisiko urheiluanalytiikalle siis löytyä sijaa salibandyssa? Uskomme, että rohkeimmat seurat ovatkin jo kokeilleet yksinkertaisimpia työkaluja. Kouluprojektina tekemämme mallinnus ja sen osat ovat melko yksinkertainen osoitus siitä, että tietoa voi käyttää hyväksi ottelutaktiikan analysointiin, playoff-vastustajan ennustamiseen tai silkkaan vedonlyöntiin.
Asiasta kiinnostuneille on mielenkiintoista perehtyä syvemmin siihen, miten yhden otteluparin mallia hyväksi käyttäen esimerkiksi valmentaja voi arvioida joukkueen pelitaktiikkaa tiettyä vastustajaa vastaan aikaisemmin tehtyjen ja päästettyjen maalien valossa. Aikaisemman tiedon perusteella otteluun voidaan lähteä asettamalla tavoite maalimäärille (joko puolustavalla- tai hyökkäävällä taktiikalla), sekä laskea vielä kaupan päälle taktiikoiden tuomat voiton todennäköisyydet.
Lisäksi vielä on aikaa laittaa ennusteemme mukainen vedonlyönti kehiin – vertailemalla mallin tuloksia eri rahapeliyhtiöiden antamiin kertoimiin ja panostamalla niihin peleihin, joissa on mallin mukaan ns. ”ylikertoimia”. Omat opintotukemme ainakin ovat jo pelissä!
Alla vielä mallimme antavat todennäköisyydet tammikuun ensimmäisten pelien lopputuloksille* ja taulukon oikeassa sarakkeessa veikkauksemme ottelun voittajasta. Aika näyttää, kuinka tarkasti mallimme pystyi ennustamaan otteluiden voittajat.
*Tammikuun peleistä jätetty pois SalBan ja M-teamin pelit otannan koon pienuudesta johtuen
On syytä muistaa, että projektimme on vain matemaattinen mallinnus ja yksinkertaistus monimutkaisesta todellisuudesta. Urheilussa on lukemattomia eri muuttujia, jotka vaikuttavat otteluiden lopputuloksiin, joita ei tässä mallissa voitu huomioida.
Numerot ovat vain numeroita ja todennäköisyydet vain arvioita. Vai voisiko niissä sittenkin olla jotain perää? Pitäisikö salibandyssakin herätä tiedolla johtamisen aikakaudelle ja alkaa keskittyä entistä enemmän datan keräämiseen ja sen hyödyntämiseen? Voisiko joku yksittäinen joukkue saada tällä hetkellä huomattavaa kilpailuetua muihin joukkueisiin nähden panostamalla juuri nyt analytiikkaan?
—
Yksityiskohtaisempi esitys projektista.
Kirjoittajat ovat molemmat Aalto-yliopiston kauppakorkeakoulun tieto- ja palvelutalouden opiskelijoita sekä henkeen ja vereen salibandyihmisiä. Tällä hetkellä kaverukset edustavat Etelä-Suomen 3. divisioonassa Pakilan Visaa.
Mielenkiintoinen artikkeli ja olen miettinyt samoja juttuja itsekkin. Tässä pistää silmään ettei tammikuussa ympäripyöreitä otteluita juurikaan ole, vaan lähes joka peliin löytyy selvä suosikki. Miten malli ottaa huomioon pelin merkityksen? Alkukaudesta joukkueet hakevat vielä peliään ja toleranssi on suurempi. Loppukautta kohti tapellaan putomista vastaan sekä pleijaripaikoista, jolloin pelitapa muuttuu vähemmän riskialttiiksi. Samoin kiinostaisi onko analyysi tehty kauden alkuvaiheessa? Kun vertaa nykyiseen sarjataulukkoon (31.12), jotta piste-ennuste toteutuisi niin vaaditaan SPV:ltä lähes tappiotonta kevättä, sijoista 10 eteenpäin joukkueen petraavat tuloskuntoaan ja OLS romahtaa totaalisesti.
Hei Veikkaaja
Malli ei ota huomioon pelin merkitystä ja se voisikin olla hieman monimutkaisempaa toteuttaa tälläinen simulaatio, koska pelin merkityksestä ei löydy valmista dataa ja tälläinen muuttuja olisi melko vaikea totettaa jo yksistään sen takia, että ottelun merkitys ei ole yksiselitteinen numeerinen arvo.
Mallimme ottaa pelien ennustamisessa huomioon joukkueiden aikaisemman otteluhistorian sekä kotiedun. Ennustus on tosiaan alkukaudesta tehty joten tästä voi ainakin sen johtopäätöksen tehdä että SPV on selvästi alisuorittanut alkukauden tasoonsa nähden ja vastaavasti OLS ylisuoriutunut. Ennustus on siis mallimme mukaan todennäkoisin lopputulos, mutta ei välttämättä absoluuttisesti oikea, koska urheiluun ja otteluihin liittyy aina satunnaisuutta.
Todella mielenkiintoinen artikkeli, mutta jotta asiaa voisi arvioida oikeastaan yhtään, niin olisin toivonut tällaista käsittelyä tiedolle, joka on jo olemassa. Eli samanlainen analyysi vaikka vuoden takaa ja siihen toteutunut tilanne viime kevään lopusta. Nythän voi ilmaan heitellä vaikka mitä, eikä kukaan voi arvioida, ovatko laskelmat ja ennustukset päteviä.
Ja sitten pieni huomio. En ihan hirveästi huutelisi, että me maksamme kollektiivisesti opintotukea teille, että te saatte pelata niillä uhkapelejä…
Kuva ykkösen perusteella kannattaisi tilastollisessa mielessä lyödä vain ”under”-vetoja maalimääristä. Eli alle 12,5 jne.
Ilmeisesti puhutaan miehistä?
Ei taida salba tippua naistenliigasta… Eikä happee voittaa naisten liigaa..
Meilenkiintoinen artikkeli. Juuri tämänkaltainen ns. big datan hyödyntäminenhän on vyörynyt bisnesmaailmasta urheiluun viime vuosina. Pienenä sivuhuomiona on pakko mainita että salibandyliiton tilastosivuilla on alareunassa seuraavanalainen huomaitus ”Salibandyliitto – tilastojen käyttö ilman lupaa ehdottomasti kielletty”. SM-Liiga taas on ottanut toisenlaisen ja minusta pitkänäköisemmän kanna järjestäessään kilapilun koodaajille joissa tilastoja on tarkoitus hyödyntää. Jopa valtiolla on herätty avoimen datan etuihin mm. case maanmittauslaitos, mutta salibandyliitto pitää arvokkaista tilastoistaan kiinni eikä anna niitä kennellekkään ilman lupaa ja kolmea anomuskirjettä norsunluutornin ylimpään kerrokseen.
Moi Jeppe,
Hyvä pointti! Totta on, että tietoja on tehty monella taholla avoimemmaksi – Salibandykin voisi seurata tässä tapauksessa SM-Liigan jalanjälkiä. Tässä meidän työssämme on käytetty dataa ihan luvan kanssa, kun saimme Salibandyliiton edustajalta ottelutulokset yhtenä tiedostona. Olemmekin tästä todella kiitollisia!
Itse en ymmärrä asiasta mitään, mutta ensimmäisenä heräsi mieleen että teidän olisi ollut aika ”helppo” ottaa arvioihin mukaan yksittäiset pelaajat muuttuvina tekijöinä? Esim sadan mestaruuden mies Mikke Järvi saisi kertoimeksi Y-ikäkerroin.. Eli näin olisi tullut voittavien pelaajien seuravaihdokset, ikääntyminen, plusmiinukset, tehopörssit, valmentajien voittoprosentit teittyjä joukkueita vastaan..? Sen jälkeen asiasta ymmärtämättömänä ostaisin entistä paremmin jutun.
Ja kukkahattutädit naamat umpeen uhkapeleistä.. Voe luoja..
Mielenkiintoinen kolumni. Oletteko muuten kysyneet seuroilta käyttääkö mikään niistä minkääntyyppistä tilastoanalyysia toiminnassaan? Voipi olla, että joku käyttää, mutta ei ulospäin siitä mainosta… juurikin tuon mahdollisen kilpailuedun vuoksi.
Twitterissä on jaossa skellamiin(https://www.google.fi/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0ahUKEwjbm7f415zLAhUmMJoKHZjLCOIQFggfMAA&url=https%3A%2F%2Fen.wikipedia.org%2Fwiki%2FSkellam_distribution&usg=AFQjCNEGoWr2mcYxojMAU_U7wlwGcBuIWg) perustuva ns. excel-työkalu. https://twitter.com/VesaMattiKallio/status/701779995727896577