- Viestejä
- 14
Onko täällä kukaan tehnyt data-analyysia F-liigan datasta? Ymmärrettävästi "ihan" NHL:n tasolle ei datassa päästä, mutta joitakin mahdollisuuksia on olemassa. F-liiga tilastoi esim. laukaisupaikat, mutta tähän dataan ei taida olla mahdollista päästä käsiksi? Törmäsin tuossa jokunen aika sitten blogiin, josta ajatus sitten lähti. Olen ymmärtänyt, että joissakin liigajengeissä joku kertynyttä (ei-julkista?) dataa hieman enemmänkin katselee (KRP?) - en muista, missä olen tähän törmännyt.
Laitan tähän muutamia nostoja herättämään keskustelua ja mielenkiintoa. Esitettyihin asioihin ei kannata suhtautua liian vakavasti, monet taustaoletukset eivät ole täysin realistisia, alkuperäinen datakin saattaa olla jossain mielessä puuttellistä jne. F-liigalla on kuitenkin sellainen toive, että ellei avoimia rajapintoja dataan ole tulossa, niin pistepörsseissä voisi olla pelaaja_id, joka auttaa erottamaan samalla nimellä kutsuttavat pelaajat. Lisäksi "Runkosarja" esiintyy aiempina vuosina valikossa nimellä "1099". Nämä vaikeuttivat datan koneellista lukemista ja tulkintaa.
(Musta piste on korjattu laukaisuprosentti, josta enemmän alla). Listan kärkipäässä laukausmäärä on kuitenkin hyvin alhainen, joten miten näihin pitäisi suhtautua? Yksi vaihtoehto on lähestyä ongelmaa Bayesialaisittain, eli hyödyntää tietoa siitä, miltä laukaisuprosentit ovat aiemman tiedon perusteella. Tämä tarkoittaa laukaisuprosenttien skaalaamista, jossa laukaisumäärä on "todistusaineistoa". Aiemmin mainitussa blogissa tästä hieman enemmän. En mene yksityiskohtiin, mutta tällä "korjatut" laukaisuprosentit näyttävät tältä: Liigan "tehokkain" laukoja on Tiitus Salokangas (harmaalla korjaamaton)). Esimerkiksi maailman paras pelaaja, Justus Kainulainen, ei mahdu kärkikymmennikköön. Toisaalta Kainulainen laukaisimäärillä on erittäin kova juttu pitää laukaisuprosentti yli 11 prosentin tasolla. Se mikä on yhdelle potentiaalinen maalipaikka, ei ole sitä toisella. Laukaisuprosentteihin huomion kiinnittäminen saattaa kuitenkin auttaa valmennusta tarkastelemaan, laukooko joku pelaaja liian vähän tai pakotetaanko laukausta liian paljon.
Yllä olevassa kuvassa tarkastellaan pelaajia, joilla korjatun laukaisuprosentin ja laukaisumäärän osalta muodostetaan 25 segmenttiä. Rajat perustuvat kvantiileihin (0.3, 0.5, 0.7 ja 0.9). Esimerkiksi pelaajia, joilla on sekä korkein korjattu laukaisuprosenttiluokka että korkein laukaisumääräluokka, ovat: Astala, Lastikka, Salmi, Laakso ja Rantala. Vastaavasti pelaajia, jotka sijoittuvat "punaiseen luokkaan" ovat mm. : Einiö, Haukkala, Vesterinen, Forsman ja Hyrkkönen.
Voimmeko hyödyntää dataa sitten jollakin tavalla, jos tavoitteemme olisi ennustaa maalipörssin voittajaa? Tämä saattaa olla mahdollista, mutta tuskin tarjoaa laji-ihmisille mitään erikoista informaatiota. Saattaa, jopa olla, että laukaisuprosenttien korjaamisen takia ennustetut maalimäärät jäävät hieman liian alhaisiksi. Yksi vaihtoehto on kuitenkin hyödyntää pelaajakohtaisten korjattujen laukaisuprosenttien (Beta-jakauma) lisäksi, laukaisumääriä (Poisson-jakauma) ja jäljellä olevia otteluita.
Tämän hieman leikkimielisen simuloinnin perusteella maalipörssin voittaa Aaro Astala, 42 maalia. Kuvassa siis nykyinen maalimäärä mustalla, ja oikealla "piste-estimaatti" sekä väli, jolla 80 % simuloinnin tuloksista päätyi.
Laitan tähän muutamia nostoja herättämään keskustelua ja mielenkiintoa. Esitettyihin asioihin ei kannata suhtautua liian vakavasti, monet taustaoletukset eivät ole täysin realistisia, alkuperäinen datakin saattaa olla jossain mielessä puuttellistä jne. F-liigalla on kuitenkin sellainen toive, että ellei avoimia rajapintoja dataan ole tulossa, niin pistepörsseissä voisi olla pelaaja_id, joka auttaa erottamaan samalla nimellä kutsuttavat pelaajat. Lisäksi "Runkosarja" esiintyy aiempina vuosina valikossa nimellä "1099". Nämä vaikeuttivat datan koneellista lukemista ja tulkintaa.
(Musta piste on korjattu laukaisuprosentti, josta enemmän alla). Listan kärkipäässä laukausmäärä on kuitenkin hyvin alhainen, joten miten näihin pitäisi suhtautua? Yksi vaihtoehto on lähestyä ongelmaa Bayesialaisittain, eli hyödyntää tietoa siitä, miltä laukaisuprosentit ovat aiemman tiedon perusteella. Tämä tarkoittaa laukaisuprosenttien skaalaamista, jossa laukaisumäärä on "todistusaineistoa". Aiemmin mainitussa blogissa tästä hieman enemmän. En mene yksityiskohtiin, mutta tällä "korjatut" laukaisuprosentit näyttävät tältä: Liigan "tehokkain" laukoja on Tiitus Salokangas (harmaalla korjaamaton)). Esimerkiksi maailman paras pelaaja, Justus Kainulainen, ei mahdu kärkikymmennikköön. Toisaalta Kainulainen laukaisimäärillä on erittäin kova juttu pitää laukaisuprosentti yli 11 prosentin tasolla. Se mikä on yhdelle potentiaalinen maalipaikka, ei ole sitä toisella. Laukaisuprosentteihin huomion kiinnittäminen saattaa kuitenkin auttaa valmennusta tarkastelemaan, laukooko joku pelaaja liian vähän tai pakotetaanko laukausta liian paljon.
Yllä olevassa kuvassa tarkastellaan pelaajia, joilla korjatun laukaisuprosentin ja laukaisumäärän osalta muodostetaan 25 segmenttiä. Rajat perustuvat kvantiileihin (0.3, 0.5, 0.7 ja 0.9). Esimerkiksi pelaajia, joilla on sekä korkein korjattu laukaisuprosenttiluokka että korkein laukaisumääräluokka, ovat: Astala, Lastikka, Salmi, Laakso ja Rantala. Vastaavasti pelaajia, jotka sijoittuvat "punaiseen luokkaan" ovat mm. : Einiö, Haukkala, Vesterinen, Forsman ja Hyrkkönen.
Voimmeko hyödyntää dataa sitten jollakin tavalla, jos tavoitteemme olisi ennustaa maalipörssin voittajaa? Tämä saattaa olla mahdollista, mutta tuskin tarjoaa laji-ihmisille mitään erikoista informaatiota. Saattaa, jopa olla, että laukaisuprosenttien korjaamisen takia ennustetut maalimäärät jäävät hieman liian alhaisiksi. Yksi vaihtoehto on kuitenkin hyödyntää pelaajakohtaisten korjattujen laukaisuprosenttien (Beta-jakauma) lisäksi, laukaisumääriä (Poisson-jakauma) ja jäljellä olevia otteluita.
Tämän hieman leikkimielisen simuloinnin perusteella maalipörssin voittaa Aaro Astala, 42 maalia. Kuvassa siis nykyinen maalimäärä mustalla, ja oikealla "piste-estimaatti" sekä väli, jolla 80 % simuloinnin tuloksista päätyi.