Tym razem zajęliśmy się analizą parametrów piłkarzy i ich wpływem na zajmowaną przez nich pozycję na boisku. Do opracowania wykorzystaliśmy metody i techniki uczenia maszynowego.
Dane
Badania przeprowadzono na zestawie danych [1], które pozyskano techniką „web scraping” z witryny https://sofifa.com . Witryna ta jest zasilana danymi z firmy EA Sports, która na potrzeby tworzenia gier zbudowała specjalną bazę piłkarzy z całego świata [2]. Na witrynie każdy z piłkarzy został opisany zestawem parametrów: data urodzenia, narodowość, wiek, wzrost, waga, lepsza noga, ocena słabszej nogi, ocena umiejętności, wartość, płaca, pracowitość, typ budowy, ocena ogólna, ocena potencjału, oceny umiejętności: kontrola piłki, drybling, krycie, wślizg, odbiór piłki, agresja, reakcja, ustawienie w ataku, przechwytywanie, orientacja, opanowanie, dośrodkowania, podania, długie podania, przyspieszenie, wytrzymałość, siła równowaga, szybkość, biegu, zwinność, skoczność, główki, siła strzału, wykończenie, dalekie strzały, podkręcenie, rzut wolny, rzut karny, woleje, ustawienie się GK, robinsonada, łapanie, wykopy, refleks oraz cechy wyróżniające. System ocen zawodników łączy zaawansowane statystyki z subiektywnym rozpoznaniem 9000 osób zaangażowanych w ten proces (ocena wzrokowa). Grupa ta zawiera profesjonalnych trenerów i skautów, ale w większości należą do niej fani, którzy mogą oglądać osobiście wiele meczów piłki nożnej. Ich praca jest następnie poddawana korekcie przez 300 edytorów danych zatrudnionych w EA Sport. Na samym końcu do budowy rankingu bierze się pod uwagę klub, w którym gra zawodnik. Ogólna ocena piłkarza jest wynikiem formuły, która uwzględnia wagi jego atrybutów.
Wybór parametrów
Po wstępnym oczyszczeniu zestawu danych pozostało 18147 piłkarzy i 53 ich cechy. Wykorzystaliśmy do badań te same dane, co do opracowania artykułu „Wzrost, waga i wiek w piłce nożnej”, więc początkowe czynności były podobne: usunięcie kolumn po analizie wzrokowej, usunięcie pustych rekordów, przekształcenie wzrostu na centymetry i wagi na kilogramy. Jeśli dane wykorzystane do uczenie zawierają mnóstwo błędów, to modelowi jest trudniej znaleźć wzorce, przez co nie osiągnie on zadowalającej wydajności. Najważniejsze to dostarczyć mu odpowiednio przygotowany zbiór danych zawierający wystarczającą liczbę cech i niezaśmiecony nadmiarem cech nieistotnych. Teraz przejdziemy do wykorzystania kilku pojęć ze statystyki, aby wybrać tylko te cechy, które mają największe znaczenie w związku z pozycją gracza.
Zaczniemy od wykorzystania korelacji, która służy do badania związków pomiędzy cechami. Niestety nie pozwala ona na weryfikację, która ze zmiennych jest wyjaśniającą, a która wyjaśnianą, czyli związku przyczynowo skutkowego. Dla naszego przypadku analizy najważniejsze jest potwierdzenie zależności pomiędzy poszczególnymi parametrami, a pozycją, więc jest ona wystarczająca. W rezultacie dowiemy się, czy wartości cech maleją/rosną wraz ze zmianą wartości pozycji i będzie to wyrażone liczbowo w postaci współczynnika korelacji zawierającego się w przedziale [-1;1]. Przedział od -1 do 0 nazywany jest korelacją ujemną i informuję o tym, że wzrost wartości jednej cechy związany jest ze spadkiem wartości drugiej cechy. Natomiast od 0 do 1 to korelacja dodatnia, która świadczy o wzroście obydwu zmiennych. Dla siły korelacyjnej wyróżnia się następujące przedziały
- Do 0.2 – słaba;
- Od 0.2 do 0.4 – niska;
- Od 0.4 do 0.6 – umiarkowana;
- Od 0.6 do 0.8 – wysoka;
- Od 0.8 do 0.9 – bardzo wysoka;
- Od 0.9 do 1.0 – wzorcowa;
Korelacja Pearsona – Wymogiem do jej użycia jest skala ilościowa cech oraz ich rozkład normalny. Oznacza to, że nie zostaną wzięte pod uwagę parametry zawierające tekst np. : narodowość, lepsza noga, pracowitość, typ budowy itp. . Oblicza się ją dzieląc kowariancję badanych cech przez iloczyn ich odchyleń standardowych. Kowariancja jest liczbą określającą zależność liniową między dwoma zmiennymi losowymi.
Robinsonada : 0.97, Refleks: 0.97, Łapanie: 0.97, Wykopy: 0.97, Ustawienie się (GK) : 0.97, Odbiór piłki: 0.89, Wślizg: 0.89, Drybling: 0.88, Ustawienie się w ataku: 0.87, Kontrola piłki: 0.86.
Korelacja Tau Kendalla – Kolejny rodzaj korelacji stosowany jest w przypadku zmiennych w skali porządkowej.
Wślizg: 0.67, Wykończenie: 0.67, Odbiór piłki: 0.66, Krycie: 0.64, Przechwyty: 0.62, Ustawienie się w ataku: 0.58, Sztuczki: 0.58, Woleje: 0.57, Opanowanie: 0.55, Drybling: 0.55.
Korelacja Rho Spearmana – W przypadku, gdy zmienne są wyrażone w skali ilościowej, ale nie cechuje ich rozkład normalny można użyć korelacji rho spearmana.
Wślizg: 0.848, Wykończenie: 0.843, Odbiór piłki: 0.842, Krycie: 0.82, Przechwyty: 0.81 , Ustawienie się w ataku: 0.75, Woleje: 0.741, Opanowanie: 0.718, Drybling: 0.711, Dośrodkowanie: 0.705.
Następnie wykorzystamy inne metody.
Informacja wzajemna – mierzy ile informacji o jednym atrybucie można poznać znając drugi atrybut . Jeśli obydwa atrybuty są niezależne to ich informacja wynosi zero.
Odbiór piłki: 0.668, Wślizg: 0.665, Wykończenie: 0.65 , Krycie: 0.586, Ustawienie się w ataku: 0.573, Przechwyty: 0.553, Drybling: 0.532, Woleje: 0.502, Sztuczki: 0.495.
Metoda Fishera – również mierzy ilość informacji, która dostarcza jedna zmienna o innej zmiennej od której zależy.
Robinsonada : 19.5, Refleks: 19.1, Łapanie: 18.5, Wykopy: 16.8, Ustawienie się (GK) : 16.2, Odbiór piłki: 3.97, Wślizg: 3.93, Drybling: 3.71, Ustawienie się w ataku: 3.12, Kontrola piłki: 3.1.
Metoda oparta na obliczeniach – oblicza rozkład wartości cechy, jej wagę i na tej podstawie wybiera cechy, które są najbardziej znaczące w zbiorze danych.
Robinsonada : 18147, Refleks: 18147, Łapanie: 18147, Wykopy: 18147, Ustawienie się (GK): 18147, Odbiór piłki: 18147, Wślizg: 18147, Wiek: 18147, Ocena potencjału: 18147, Dośrodkowanie: 18147.
W kolejnym kroku sprawdzimy, która z metod najlepiej przygotowała zestaw danych do nauki modelu. Przy czym użyjemy kilku algorytmów: lasu drzew decyzyjnych, dżungli decyzyjnej, sieci neuronowych, wieloklasowej regresji logistycznej i sprawdzimy, który z algorytmów poradzi sobie najlepiej z zadaniem klasyfikacji wieloetykietowej.
Po dostrojenie parametrów algorytmów najlepszy wynik osiągnęła wieloklasowa regresja logistyczna.
Rezultat najlepiej obrazuje macierz pomyłek w której wierszach przedstawione są rzeczywiste klasy, czyli w tym przypadku pozycje graczy a w kolumnach klasy przewidywane przez model. Najlepszą predykcję wykonał on dla bramkarzy (GK) 100% trafności, co oznacza, że w tym przypadku model w ogóle się nie pomylił. Kolejne najlepiej przewidywane pozycje to napastnicy(ST) 91.7%, lewi obrońcy (LB) 90.7%, prawi obrońcy (RB) 88,3%, środkowi pomocnicy (CM) 75.9%, środkowi obrońcy (CB) 69.3%.
Podsumowanie
Gdy weźmiemy pod uwagę rozkład pozycji piłkarzy w całym badanym zbiorze danych (rysunek 4 „Wzrost, waga i wiek w piłce nożnej”) to możemy dojść do wniosku, że model najlepiej poradził sobie w przewidywaniu pozycji, które przeważały ilościowo w zbiorze. Jego dokładność mogłaby być lepsza, gdyby można było zwiększyć liczebność obserwacji w klasach mniejszościowych. Inny sposób to zmniejszenie liczby klas do czterech: bramkarze, napastnicy, obrońcy, pomocnicy. W kolejnej części tej serii artykułów postaramy się zmodyfikować eksperyment, aby uzyskać lepszy efekt predykcji.
Źródła
[1] https://www.kaggle.com/karangadiya/fifa19
[3] https://docs.microsoft.com
[…] pierwszej części przeprowadziliśmy serię eksperymentów mających na celu określenie pozycji piłkarza na boisku […]
[…] Powyższe statystyki mogą stanowić dodatkową wskazówkę dla trenerów oraz graczy. Waga zawodników szczególnie zasługuję na uwagę, bo jest parametrem, który może zmieniać swoją wartość pod wpływem odpowiedniej diety i treningu. Jeżeli jesteś ciekawy czy parametry piłkarza mają wpływ na jego pozycję na boisku to zapoznaj się z naszym artykułem: “Wpływ parametrów piłkarza na jego pozycję na boisku”. […]