Pääkallo.fi

F-liiga: Tilastot, data-analyysi ja ennusteet

Viestejä
14
Onko täällä kukaan tehnyt data-analyysia F-liigan datasta? Ymmärrettävästi "ihan" NHL:n tasolle ei datassa päästä, mutta joitakin mahdollisuuksia on olemassa. F-liiga tilastoi esim. laukaisupaikat, mutta tähän dataan ei taida olla mahdollista päästä käsiksi? Törmäsin tuossa jokunen aika sitten blogiin, josta ajatus sitten lähti. Olen ymmärtänyt, että joissakin liigajengeissä joku kertynyttä (ei-julkista?) dataa hieman enemmänkin katselee (KRP?) - en muista, missä olen tähän törmännyt.

Laitan tähän muutamia nostoja herättämään keskustelua ja mielenkiintoa. Esitettyihin asioihin ei kannata suhtautua liian vakavasti, monet taustaoletukset eivät ole täysin realistisia, alkuperäinen datakin saattaa olla jossain mielessä puuttellistä jne. F-liigalla on kuitenkin sellainen toive, että ellei avoimia rajapintoja dataan ole tulossa, niin pistepörsseissä voisi olla pelaaja_id, joka auttaa erottamaan samalla nimellä kutsuttavat pelaajat. Lisäksi "Runkosarja" esiintyy aiempina vuosina valikossa nimellä "1099". Nämä vaikeuttivat datan koneellista lukemista ja tulkintaa.

topten_raw.jpg
(Musta piste on korjattu laukaisuprosentti, josta enemmän alla). Listan kärkipäässä laukausmäärä on kuitenkin hyvin alhainen, joten miten näihin pitäisi suhtautua? Yksi vaihtoehto on lähestyä ongelmaa Bayesialaisittain, eli hyödyntää tietoa siitä, miltä laukaisuprosentit ovat aiemman tiedon perusteella. Tämä tarkoittaa laukaisuprosenttien skaalaamista, jossa laukaisumäärä on "todistusaineistoa". Aiemmin mainitussa blogissa tästä hieman enemmän. En mene yksityiskohtiin, mutta tällä "korjatut" laukaisuprosentit näyttävät tältä: topten_eb.jpg Liigan "tehokkain" laukoja on Tiitus Salokangas (harmaalla korjaamaton)). Esimerkiksi maailman paras pelaaja, Justus Kainulainen, ei mahdu kärkikymmennikköön. Toisaalta Kainulainen laukaisimäärillä on erittäin kova juttu pitää laukaisuprosentti yli 11 prosentin tasolla. Se mikä on yhdelle potentiaalinen maalipaikka, ei ole sitä toisella. Laukaisuprosentteihin huomion kiinnittäminen saattaa kuitenkin auttaa valmennusta tarkastelemaan, laukooko joku pelaaja liian vähän tai pakotetaanko laukausta liian paljon.


segments.jpg Yllä olevassa kuvassa tarkastellaan pelaajia, joilla korjatun laukaisuprosentin ja laukaisumäärän osalta muodostetaan 25 segmenttiä. Rajat perustuvat kvantiileihin (0.3, 0.5, 0.7 ja 0.9). Esimerkiksi pelaajia, joilla on sekä korkein korjattu laukaisuprosenttiluokka että korkein laukaisumääräluokka, ovat: Astala, Lastikka, Salmi, Laakso ja Rantala. Vastaavasti pelaajia, jotka sijoittuvat "punaiseen luokkaan" ovat mm. : Einiö, Haukkala, Vesterinen, Forsman ja Hyrkkönen.

Voimmeko hyödyntää dataa sitten jollakin tavalla, jos tavoitteemme olisi ennustaa maalipörssin voittajaa? Tämä saattaa olla mahdollista, mutta tuskin tarjoaa laji-ihmisille mitään erikoista informaatiota. Saattaa, jopa olla, että laukaisuprosenttien korjaamisen takia ennustetut maalimäärät jäävät hieman liian alhaisiksi. Yksi vaihtoehto on kuitenkin hyödyntää pelaajakohtaisten korjattujen laukaisuprosenttien (Beta-jakauma) lisäksi, laukaisumääriä (Poisson-jakauma) ja jäljellä olevia otteluita.

topten_final_goals.jpg
Tämän hieman leikkimielisen simuloinnin perusteella maalipörssin voittaa Aaro Astala, 42 maalia. Kuvassa siis nykyinen maalimäärä mustalla, ja oikealla "piste-estimaatti" sekä väli, jolla 80 % simuloinnin tuloksista päätyi.
 

Liitteet

  • topten_raw.jpg
    topten_raw.jpg
    963.2 KB · kertaa luettu: 15
Viestejä
6
Yhdyn edellisiin. Tilastot ovat kiinnostavia, mutta kaikilla tieteellisillä mittareilla niiden luotettavuus on lähes nolla.

Esimerkki: Niko Laiti kaudella 24-25 F-liigan tilastoissa 65 laukausta, oikea määrä 78.
Tuossa jo noin parinkymmenen prosentin heitto. Ja kun otetaan huomioon, että suurin osa puuttuvista laukauksista ovat ohi- tai peittoon menneitä, ei laukaisu % ole kovinkaan luotettava.

Maalivahtien torjunnoissa jo noin 20% heitto lukumäärissä, laukauksissa oletettavasti jopa suurempi.

T: Jarno Virta, Happeen tilastomies kaudesta 2013-2014 lähtien. Eli moninkerroin ja verroin kauemmin ja enemmän kuin esim. KRP
 
Viestejä
14
Kiitos kommenteista. Hieman tätä pelkäsinkin, mutta ajattelin tilanteen parantuneen viimeisten vuosien aikana.

Esimerkki: Niko Laiti kaudella 24-25 F-liigan tilastoissa 65 laukausta, oikea määrä 78.
Tuossa jo noin parinkymmenen prosentin heitto. Ja kun otetaan huomioon, että suurin osa puuttuvista laukauksista ovat ohi- tai peittoon menneitä, ei laukaisu % ole kovinkaan luotettava.

Toisaalta, jos puuttuvat laukaukset ovat systemaattisesti (tässä: samalla tavalla) pielessä kaikilla, niin tämä kyllä mahdollistaa edelleen joidenkin asioiden tarkastelun. Esimerkkisi oli kuitenkin hyvää informaatiota.

Osaako joku kertoa, miten F-liigassa tuo laukaisutilastojen prosessi menee? Yksi ihminen merkitsee ne, jos ei samalla käytä tulostaulua tai keitä kahvia, vai miten? Ymmärrän, että resurssit ovat hyvin rajalliset, mutta potentiaalia olisi kyllä monessakin mielessä paljon.

Millaisia asioita peleistä liigajoukkueiden tilastomiehet kirjaavat ylös käytännössä? :)
 
Viestejä
6
Laukaisukarttaa käyttää yksi ihminen. Joillain paikkakunnilla on ollut kaksi tekijää (koska lajin nopeuden takia yhdet ei riitä). Tilastoija voi olla lähes kuka tahansa, ja joillain paikkakunnilla se voi vaihdella pelistä toiseen.

Laukaisukarttaohjelma on täysin onneton. Periaate on hyvä, mutta toteutus ei. Esimerkiksi blokattu laukaus vaatii 4 klikkausta ja kahden klikkauksen kohdalla yleensä ruudun skrollausta. Lisäksi pitäisi tunnistaa vierasjoukkueen pelaaja (toivottavasti kotijoukkueen pelaaja tunnetaan paremmin). Lajin luonteeseen kuuluu nopeat laukaussarjat, joten kartantekijän pitää osata pitää tapahtumia muistissa.

Näiden lisäksi tulisi seurata ja siirtää ohjelman pelikelloa, koska ohjelmat eivät keskustele keskenään.

Laukausten lisäksi saman henkilön tulisi tilastoida aloitukset. Nämä yleensä tapahtuvat maalin jälkeen. Maalia merkittäessä tulee vielä yksi lisäklikkaus, ajan tarkistus sekä taas se maalintekijän tunnistus. Tällöin aloitus on jo tehty...

Tätä karttaa tehdään joko toimitsijapöydältä (täysin mahdotonta) tai toivottavasti katsomosta mahdollisimman korkealta. Apuvälineitä (esim. Ruudun lähetys) ei ole käytössä.

Koska käytänteet vaihtelevat, ei laukaisutilastoja voi vertailla. Toisella paikkakunnalla tilastot voivat olla lähellä, toisella kaukana oikeasta. Tällöin ne hyötyvät, jotka pelaavat itselleen hyödyllisen tilastoinnin kotijoukkueena (esim. jos jollain paikkakunnalla ei lasketa peitoista kuin osa ja toisella kaikki, on ero huomattava).

Joukkueiden tilastomiesten toiminnasta ei suurta kuvaa. Jokainen tyllillään. Itse tallennan joukkueen pelistä noin 100 eri muuttuja, ketjun pelistä parikymmentä sekä pelaajien henkilökohtaisia tilastoja noin 50 eri muuttujaa + maalivahdit erikseen. Kaikki livenä sekä tarkistettuna videolta, itse kerättynä. Yhdenkään tilaston kohdalla en luota liigan tilastoihin.
 
Viestejä
14
Mielenkiintoinen ja kattava kuvaus asiasta! F-liiga voisi kenties toteuttaa laukaisukarttaohjelman jonkun korkeakoulun kanssa yhteistyönä tai jopa opiskelijaprojektina. Sellainenkin ajatus tulee mieleeni, että jos muillakin seuroilla on vastaavia tilastoihmisiä, niin eikö tässä ole klassinen koordinaatio-ongelma, kun kukaan ei halua julkaista omaa dataansa, kun ei saa vastinetta? Eli tavallaan data jopa saattaisi olla olemassa (hieman erilaisia käytäntöjä kirjaamissa saattaa toki olla). Toisaalta, jos jokaisesta kotipelistä maksaisi esim. 25 euroa + kahvit yhdelle ihmiselle (esim. opiskelijat, eläkeläiset, innokkaat laji-ihmiset), niin eivät kai kustannukset aivan pöyristyttävät olisi. Tämän tietysti pitäisi olla F-liigan puolelta koordinoitua, mutta jos video on olemassa, niin pitäisi onnistua vielä helpommin. No, täältä on tietysti helppo ehdottaa kaikenlaista....

edit: kyseessä nopean googlailun perusteella ilmeisesti tämä.
 
Viimeksi muokattu:
Viestejä
6
Hyviä pointteja, muutamalla mutalla.

Nykyinen ohjelma (juuri tuo minkä löysit) on "ammattilaisten" tekemä. Eikä ole hyvä. Paremman saisi opiskelijakin tehtyä, mutta kun on tästäkin jo maksettu niin mennään sillä. Toimii muissakin lajeissa (jotka ovat täysin erilaisia salibandyyn verrattuna).

Luotettavassa ohjelmassa poistaisin kellon, pudotusvalikot, skrollaukset, maalilaukauksen osumakohdan, aloitukset, blokkaajan nimen noin aluksi. Eli tarpeellisia olisi Laukaus-> mistä->mikä (kohti/peitto/ohi)->kuka (laukoja). Kaikki muu on turhaa, koska on erittäin epäluotettavaa.

Jos liigalla olisi halua, palkkaisi liiga itse kartantekijät. Pieni palkka, hyvä paikka, toimivat laitteet ja ohjeistus. Jopa Ruudun lähetys kännykkään. Ongelmana jo tuo 25€/ peli. Se on runkosarjan ajalta jo semmoiset 5000 € (+ laitteet ym.). Ei ole tulossa.

Omaa dataa eivät joukkueet jaa. Syynä itsellä olisi ainakin se, että tarkoitus on hakea omalle joukkueelle kilpailuetua, eikä sitä ilmaiseksi halua toiselle luovuttaa. Eikä itseä taas kovin paljoa kiinnosta joukkueen x keräämä vähäisempi data. Joillakin joukkueilla data on jonkin yrityksen keräämää, eikä sitä ilmaiseksi ole jaossa (vaikka se olisi kuinka huonoa). Liiga voisi tehdä yritys Ö:n kanssa sopimuksen, jotta jokainen joukkue saisi sitä kautta datan käyttöön. Näin toimitaan suuremmissa lajeissa. Tällaiseen ei salibandyssa taida ikävä kyllä olla vielä rahaa (eli maailmanlaajuista kiinnostusta).

Mielestäni liigalla, joukkueilla, medialla ja yleisöllä on kiinnostusta saada nykyaikaista dataa salibandysta. Halua on, mutta se maksaa, eikä halua maksaa ole. Ei millään näistä yhteisöistä. Eikä missään sarjassa. Siihen asti kunnes halu ja raha löytävät toisensa, mennään sillä mitä saadaan halvalla tai jopa ilmaiseksi.
 
Viestejä
1,050
Ehkä olen kyyninen, mutta niin kauan kun liigalla ei ole kiinnostusta tuottaa edes perustietoja kuten joukkueiden ylivoima- ja alivoimaprosentit yms niin on turha odottaa, että he tuottaisivat mitään edistyksellisempää dataa.

Edelleenkin kiinnostaisi tietää mitä tämä liiga digivaliokunta tekee ja saanut aikaiseksi...
 
Viestejä
73
En ole tehnyt noilla ohjelmilla tilastointia, mutta olen tehnyt muuten muutaman kauden aikana. Yhden ottelun tilastointi, vaikka tilastoitavia asioita ei olisi kymmeniä, niin se vie valtavasti aikaa, jos haluaa tehdä oikeita tilastoja. edes muutaman tilastoivan asian kohdalla pelinaikainen tekeminen ei mielestäni toimi, olet vain liian usein hiukan jäljessä siitä mitä on tapahtunut tai juuri tapahtuu. Luotettava tilastointi vaatii pelin läpikäynnin uudelleen ainakin kertaalleen ja kun sitä joutuu pysäyttämään koko ajan, niin aikaa se vie runsaasti. Ehkä jotkut aivan perusasiat onnistuvat vielä livenä eli maalivahtien torjunnat, joissa niissäkin on ajoittain aivan ihmeellisiä lukuja, aloitusvoitot/tappiot jne.

Kun seuraa esim. Valioliigan dataa, ei voi kun ihailla sitä tiedon määrää, mitä siellä kaikki saavat tasapuolisesti. Tietenkään tämä ei ole mahdollista resurssien puutten vuoksi F-liigassa, eikä varmaan sitä kukaan edes vaadi. Mutta voisiko toimiva ohjelma mahdollistaa sen, että kaikki saisivat sitä tietoa ja siihen 2-3 henkilöä tilastoimaan kaikki pelit, jolloin tulokset olisivat tulkittu samalla tavalla oikein tai väärin keskimäärin. Tulee kustannusta jo perustyöstä, mutta onko se kuitenkaan niin suuri kustannus, etteikö siihen voisi löytyä sitä rahaa? Tietysti sitten on se järjestelmä, millä se tehtäisiin? Mutta eihän sitäkään luotaisi yhtä kautta varten, vaan investoinnin elinkaari voisi olla kohtuullisen pitkä.
 
Viestejä
1,050
Kun seuraa esim. Valioliigan dataa, ei voi kun ihailla sitä tiedon määrää, mitä siellä kaikki saavat tasapuolisesti.

Toki pitää muistaa sekin, että niin jalkapallossa kuin myös jääkiekossa niin iso osa datasta ei ole ihmisen tuottamaa sillä pelivälineessä itsessään sekä pelaajissa on sensorit/anturit mikä kerää dataa (ihmissilmien lisäksi).
 
Viestejä
7
Mielenkiintoinen ja kattava kuvaus asiasta! F-liiga voisi kenties toteuttaa laukaisukarttaohjelman jonkun korkeakoulun kanssa yhteistyönä tai jopa opiskelijaprojektina. Sellainenkin ajatus tulee mieleeni, että jos muillakin seuroilla on vastaavia tilastoihmisiä, niin eikö tässä ole klassinen koordinaatio-ongelma, kun kukaan ei halua julkaista omaa dataansa, kun ei saa vastinetta? Eli tavallaan data jopa saattaisi olla olemassa (hieman erilaisia käytäntöjä kirjaamissa saattaa toki olla). Toisaalta, jos jokaisesta kotipelistä maksaisi esim. 25 euroa + kahvit yhdelle ihmiselle (esim. opiskelijat, eläkeläiset, innokkaat laji-ihmiset), niin eivät kai kustannukset aivan pöyristyttävät olisi. Tämän tietysti pitäisi olla F-liigan puolelta koordinoitua, mutta jos video on olemassa, niin pitäisi onnistua vielä helpommin. No, täältä on tietysti helppo ehdottaa kaikenlaista....

edit: kyseessä nopean googlailun perusteella ilmeisesti tämä.
Tässähän päästään siihen että joku YO voisi ottaa koppia ja luoda hiukan Tekoälyllä avustettua tilastointia.
Nykyaikaiset videoiden tulkinnat AI:n avulla ovat jo melko pitkälle vietyjä, ei varmaan olisi kovinkaan suuri satsaus tehdä joku vastaava salibandya varten.
Pari kameraa kuvaamaan kenttä puoliskoja, AI agentti vakoilemaan kuvaa ja tilastoimaan sen perusteella. Ei väsy eikä vaadi erikseen enää liksaa - mutta toki on melko kookas investointi...
 
Viestejä
6
En ole tehnyt noilla ohjelmilla tilastointia, mutta olen tehnyt muuten muutaman kauden aikana. Yhden ottelun tilastointi, vaikka tilastoitavia asioita ei olisi kymmeniä, niin se vie valtavasti aikaa, jos haluaa tehdä oikeita tilastoja. edes muutaman tilastoivan asian kohdalla pelinaikainen tekeminen ei mielestäni toimi, olet vain liian usein hiukan jäljessä siitä mitä on tapahtunut tai juuri tapahtuu. Luotettava tilastointi vaatii pelin läpikäynnin uudelleen ainakin kertaalleen ja kun sitä joutuu pysäyttämään koko ajan, niin aikaa se vie runsaasti. Ehkä jotkut aivan perusasiat onnistuvat vielä livenä eli maalivahtien torjunnat, joissa niissäkin on ajoittain aivan ihmeellisiä lukuja, aloitusvoitot/tappiot jne.

Kun seuraa esim. Valioliigan dataa, ei voi kun ihailla sitä tiedon määrää, mitä siellä kaikki saavat tasapuolisesti. Tietenkään tämä ei ole mahdollista resurssien puutten vuoksi F-liigassa, eikä varmaan sitä kukaan edes vaadi. Mutta voisiko toimiva ohjelma mahdollistaa sen, että kaikki saisivat sitä tietoa ja siihen 2-3 henkilöä tilastoimaan kaikki pelit, jolloin tulokset olisivat tulkittu samalla tavalla oikein tai väärin keskimäärin. Tulee kustannusta jo perustyöstä, mutta onko se kuitenkaan niin suuri kustannus, etteikö siihen voisi löytyä sitä rahaa? Tietysti sitten on se järjestelmä, millä se tehtäisiin? Mutta eihän sitäkään luotaisi yhtä kautta varten, vaan investoinnin elinkaari voisi olla kohtuullisen pitkä.

Tilastointi vie aikaa. Sitä enemmän mitä enemmän tilastoitavia asioita. Livenä onnistuu, mutta pitää tietää mitä etsii, tilastointivälineistö kunnossa ja hallussa sekä focus tilastoinnissa. Ja tietenkin kokemus opettaa. Tässä Itsellä takana yli 400 ottelua, joten on se mahdollista.

Livenä keskityttävä merkitykselliseen ja luotettavaan dataan. Kerätään esimerkiksi ketjun laukauksia/pallonriistoja eikä pelaajakohtaisia.

Videolta tilastointi kestää noin 3-4 tuntia + siirto koneelle. Yhteensä yksi ottelu Livenä ja videolta karkeasti noin 10 tuntia. Siihen voi kukakin miettiä paljonko työstä haluaa maksaa/saada palkkaa.

Tekoäly/siru sählyssä hankalaa koska pallo kevyt, kimpoilee, menee rikki ym. Jos nyt pallo maksaa noin euron, sirulla hinta moninkertaistuisi. Niitä muuten kuluu kaudessa aika paljon.
Toisaalta laukaus lähtee pienemmällä liikkeellä kuin lätkässä joten AI:lla ja sirulla vaikeampaa tulkita.
 
Jotta voit kirjoittaa viestejä, sinun täytyy rekisteröityä foorumille. Rekisteröityminen on ilmaista, helppoa ja nopeaa. Rekisteröidy tästä.
Ylös