Narzędzia statystyki w prognozowaniu wyników zakładów
Nieważne czy stawiamy zakłady wzajemne w wąskiej dziedzinie (interesuje nas np. jeden zespół/zawodnik i tylko spotkania z jego udziałem motywują nas do zagrania), czy codziennie typujemy kilka-kilkanaście kuponów z wielu dyscyplin jak ping-pong, futbol czy formuła 1.
Kluczowe pojęcie, takie jak szansa na określony typ opiera się na umiejętności przewidzenia konkretnego wydarzenia, a to już synteza wiedzy sportowej i umiejętności analizowania danych. Poniższy tekst poświęcamy opisaniu najważniejszych elementarnych pojęć wykorzystywanych przez graczy oraz bukmacherów w codziennej walce o szczęśliwe typowania i wygrane pieniężne.
Pierwsza część zawiera opis doboru spotkań do zakładów singlowych i drużynowych, które następnie będą poddawane odpowiedniej analizie. W drugiej skupimy się na przedstawieniu podstawowych metod obróbki danych, jakimi są średnie, wariancja oraz odchylenie standardowe. Te parametry posłużą nam następnie do budowy modelów rozkładu prawdopodobieństwa ilości punktów/bramek.
Skupimy się na dwóch najpopularniejszych systemach do gry u bukmachera: rozkładzie Poissona i normalnym.
Próbki statystyczne w zakładach bukmacherskich
Ważnym aspektem, dzięki któremu możemy w ogóle próbować analizować dane w zakładach wzajemnych (ogólniej w sporcie), jest powtarzalność wydarzeń. W grach mamy sezony ligowe, pucharowe oraz wszelkiego rodzaju turnieje. Daje to możliwość cyklicznego kolekcjonowania parametrów historycznych, które w taki czy inny sposób mogą być podstawą do wyciągania wniosków na przyszłość. Mówimy tu np. o:
- zwycięstwach/remisach/porażkach;
- liczbach goli/punktów w kolejnych spotkaniach;
- liczbie minut spędzonych na boisku/hali konkretnych zawodników;
- liczbie bramek/punktów zdobytych przez danego gracza;
By zbiór danych historycznych mógł być przydatny, powinien mieć odpowiednią wielkość – musi być miarodajną próbką, która nie będzie obejmowała nieprzydatnych lub nawet błędnych informacji.
Należy zrozumieć jedno: wszelkiego typu analizy statystyczne nie są odporne na „śmieciowe” dodatki. Innymi słowy, jeżeli wrzucamy mało przydatne lub nawet błędne informacje na wejściu, to możemy otrzymać nieprawdziwe dane na wyjściu – za dużo parametrów może wypaczyć wynik.
Próbka musi mieć jedną podstawową własność: elementy wchodzące w jej skład powinny być pod przynajmniej kilkoma względami identyczne. Musimy więc określić najbardziej optymalną wielkość próbki, którą będziemy analizować. W grach singlowych jak tenis, ping-pong czy snooker sprawa jest prostsza. Mamy jednego zawodnika i w zależności od tego, co nas interesuje, możemy ograniczyć się tylko i wyłącznie do trzech głównych parametrów, by określić rozmiar próbki. A mianowicie do:
- aktualnej formy zawodników;
- statusu grających;
- rangi spotkania.
Forma typowanego przez nas uczestnika, a właściwie jej stałość to bardzo ważna rzecz. Jeżeli jest na jednakowym poziomie, to możemy brać pod uwagę wszelkie spotkania, w których była utrzymywana. Oczywiście, by posiadać wiedzę na ten temat, musimy mieć wgląd w spotkania, które były rozgrywane niedawno – im dalej sięgamy wstecz, tym mniej pewne są to dane.
Analiza statystyczna przeciwnika, rangi i miejsca
Kolejnym istotnym aspektem jest to, kto stoi z drugiej strony. Pozycja przeciwnika w rankingach, aktualna forma czy wszelkiego rodzaju motywacja do gry (np. chęć odegrania się po ostatniej porażce) musi być brana pod uwagę. Historia spotkań pomiędzy tymi samymi graczami to najistotniejszy element – niektórzy zawodnicy potrafią wykorzystywać słabsze strony swoich przeciwników. Ponadto, nie można na równi traktować spotkań, gdy walczą przeciwko sobie równi oraz gdy przeciwnik jest dużo słabszy bądź silniejszy. O ile mamy spotkania ligowe do stawiania zakładów, to możemy brać pod uwagę tylko wydarzenia z graczami kilka pozycji niżej i wyżej w tabeli.
Ostatnim aspektem, który powinniśmy brać pod uwagę przy tworzeniu próbki, jest ranga spotkania. Ważne jest czy to jest wydarzenie ligowe, czy turniejowe. O ile cykliczne spotkania posiadają pewną stabilność, to rozgrywki pucharowe rządzą się bardziej przypadkowością. W drugim typie wydarzeń raczej nie zbudujemy dużego zbioru, z którego możemy utworzyć próbkę. Może się jednak zdarzyć, że uda nam się wybrać kilka spotkań, a to czasem wystarcza.
Kolejnym aspektem statystycznym jest forma gry – tu przede wszystkim chodzi o tenis – tzn. na jakiej nawierzchni rozgrywane są mecze/spotkania. Inaczej gra się na hali, a inaczej pod gołym niebem, inaczej radzą sobie zawodnicy na trawie, a inaczej na twardej nawierzchni. Bardzo istotnym jest również, gdzie rozgrywane jest spotkanie – gra przed własną publicznością powinna być inaczej traktowana niż gra na wyjeździe.
Można mnożyć parametry, które mogą mieć wpływ na przebieg wydarzeń, jednak by próbka nie była mała, powinniśmy skupić się na najważniejszych. Dalsza analiza, którą możemy przeprowadzać na próbce, powinna brać pod uwagę mniej istotne czynniki, do których mogą należeć np. pogoda, pora dnia itd.
Porada dla typerów: o ile nie ma drastycznych zmian w kondycji, to w próbce spotkań dwóch konkretnych zawodników można zawrzeć konfrontacje z maksymalnie dwóch ostatnich lat.
W przypadku sportów drużynowych sprawa doboru spotkań może być bardziej kłopotliwa. Prócz wcześniej wspomnianych parametrów odnoszących się do predyspozycji konkretnych zawodników, pozycji przeciwnika oraz rangi spotkania, powinno się brać pod uwagę następujące, jak przetasowania zawodników, zmiana ustawienia oraz dymisja trenera.
Gdy w drużynie zaczynają występować nowi gracze, to ma to istotny wpływ na skuteczność całego zespołu. W takim przypadku wyniki kolejnych spotkań mogą różnić się znacznie od wcześniejszych i powinniśmy to uwzględnić przy wyborze próbki. Zmiana trenera może drastycznie wpłynąć na zmianę strategii gry i także musi być brana pod uwagę przy doborze odpowiednich spotkań do dalszej analizy.
Porada dla graczy: spotkania ligowe mają to do siebie, że nie obfitują w nadmierne niespodzianki i próbka może zawierać aktualny sezon oraz maksymalnie poprzedni. Jedynie wypadki przy pracy mogą nam zaburzać zbiór odpowiednich meczy – zwycięstwo mocnej drużyny nad dużo słabszą (wyniki bardzo wysokie) nie powinny być brane pod uwagę.
O ile nasza próbka jest wybrana w sposób poprawny i nie zawiera znacznych odstępstw pomiędzy poszczególnymi składowymi, to możemy przystąpić do jej analizy.
Analiza średnich statystycznych w bukmacherce
Teraz przedstawimy chyba najczęściej stosowane pojęcie, które ułatwia graczom podejmowanie decyzji – średnie. Odpowiednia średnia jest podstawą do dalszej analizy. Parametry te mają na celu określenie pewnego rodzaju „środka” zbioru liczb, który nas interesuje. W zakładach wzajemnych najczęściej wykorzystywane są następujące średnie:
- arytmetyczna;
- ważona;
- mediana lub dominanta;
- rozstęp;
- kombinacje powyższych.
Przedstawimy te parametry na konkretnym przykładzie z I Ligi polskiej piłki nożnej z wcześniejszych sezonów. A mianowicie skupimy się na próbce, w skład której wchodzą wszystkie mecze z pierwszej części tego sezonu zwycięzcy Sandecji N. Sącz. Interesuje nas liczba bramek strzelana w kolejnych spotkaniach. Wygląda ona następująco (S – mecz u siebie, W – mecz na wyjeździe):
Będziemy analizować powyższą tabelę pod kątem średniej liczby bramek strzelanych przed własną widownią oraz na wyjeździe. Kolejno: Średnia arytmetyczna: na własnym boisku = 1.25 bramki na mecz, na wyjeździe = 1.12 oraz ogólnie = 1.19. Banalny wniosek jest taki, że średnio więcej bramek zostało strzelonych na własnym boisku.
Średnia ważona: możemy przypisać inne wagi meczom z początku sezonu (lepsza forma, mniejsze zmęczenie), a inne końcówce. Jeżeli podzielimy mecze u siebie na takie dwie grupy (po cztery – widać, że ilość strzelanych bramek jest mniejsza w drugiej części) i określimy wagę tych spotkań na poziomie 0.1, to ta średnia wyniesie 0.8 bramki na mecz. Odpowiedni parametr dla drugiej części wyniesie 0.3 (waga 0.15), skąd całkowita średnia dla goli przed własną publicznością jest równa 1.1 na spotkanie.
Tak określony parametr jest lepszy niż średnia arytmetyczna, gdyż rozróżnia momenty lepszej skuteczności bramkowej. Podobną analizę przeprowadzić możemy dla meczów na wyjeździe.
Mediana = 1, zaś dominanta = 1 dla meczy u siebie. Pierwsza określa liczbę, obok której rozkłada się tyle samo goli z prawej jak i z lewej strony, druga określa, jaki wynik padał najczęściej. Dla spotkań na wyjeździe – mediana = 0 lub 1, zaś dominanta = 0. Te średnie powinny być rozpatrywane w sytuacji, w której liczba bramek albo jest silnie skoncentrowana wokół jednego wyniku albo ów wynik powtarza się najczęściej.
Rozstęp definiujemy jako różnicę pomiędzy najwyższą a najniższą wartością rozpatrywanego parametru. W naszym przypadku dla spotkań u siebie jak i na wyjeździe wynosi 3 bramki. Liczba ta mówi nam, jak bardzo waha się przedział wartości badanego zbioru.
Średnie mieszane wykorzystujemy w sytuacjach, gdy bierzemy pod uwagę dodatkowe parametry prócz wyżej wymienionych. Możemy rozpatrywać nieznaczne zwiększanie lub zmniejszanie otrzymanych powyżej liczb (otrzymujemy dodatkowe informacje). Nie chcemy tworzyć nowej próbki, gdyż np. brak nam spotkań, a przypuszczamy, że lekka zmiana średniej będzie odpowiednia do zaistniałej sytuacji.
Powyższy przykład dotyczy tylko liczby bramek jednej drużyny (poradnik jak typować piłkę nożną). Analizować możemy wiele innych parametrów – wszystko, co dotyczy spotkania może być ważne. Liczba remisów, częstotliwość ich występowania, średnia ilość goli w kolejnych spotkaniach ligowych itd. Każdy taki parametr jest istotny, gdyż rodzajów zakładów jest mnóstwo – nie każdy musi grać tylko i wyłącznie wydarzenia trój- czy nawet dwu-drogowe.
Mając średnią (odpowiednią do naszych potrzeb), możemy przystąpić do dalszej analizy. Więcej o strategiach gry znajdziesz w dziale z systemami bukmacherskimi (oceny skuteczności, opinie, porady).
Statystyczny rozkład parametrów wokół średniej
Wspomnieliśmy wcześniej, że średnie przedstawiają pewnego rodzaju środek rozpatrywanego przez nas zbioru wyników. W całej procedurze typowania ważne jest szacowanie przewagi jednej drużyny nad drugą. Posiadając dane historyczne (próbkę) oraz reprezentanta (lub grupę parametrów), który mierzy częstotliwość występowania pewnego zjawiska (w naszym przypadku średnia punktów/goli), możemy pokusić się o zbudowanie pewnego modelu, który teoretycznie pokaże nam, jak powinna rozkładać się reszta wyników (przyszłego spotkania) wokół reprezentanta.
Innymi słowy, będziemy starać się przewidzieć, jak wygląda najbardziej prawdopodobny wynik rozpatrywanego przez nas wydarzenia sportowego pod kątem typowania, korzystając tylko i wyłącznie z danych z poprzedzających go spotkań. To, co sprawia, że jedna drużyna/zawodnik wygrywa, to większa liczba bramek/punktów. Chcemy więc wiedzieć, z jakim prawdopodobieństwem dany zespół/gracz uzyska konkretną liczbę goli/punktów.
Pierwszy parametr, który mówi nam jak bardzo wyniki spotkań są rozrzucone wokół średniej, jest tzw. wariancja. Definiujemy ją jako:
Var=[(x1-śr)^2+(x2-śr)^2+...+(xn-śr)^2)]/n, gdzie x1,...,xn to wyniki interesującego nas parametru, a śr to ich średnia.
To, jaką średnią zastosujemy, zależy od wyboru. Teraz przedstawimy obliczenia z wykorzystaniem średniej arytmetycznej. W przypadku meczy Sandecji mamy:
Var(u siebie)=[(1-1.25)^2+(2-1.25)^2+(3-1.25)^2+(2-1.25)^2+(1-1.25)^2+(0-1.25)^2+(0-1.25)^2+(1-1.25)^2)]/8=
=[(0.25)^2+(0.75)^2+(1.75)^2+(0.75)^2+(0.25)^2+(1.25)^2+(1.25)^2+(0.25)^2]/8=0.93
Var(na wyjeździe)=[(3-1.25)^2+(0-1.25)^2+(2-1.25)^2+(0-1.25)^2+(1-1.25)^2+(0-1.25)^2+(3-1.25)^2+(1-1.25)^2)]/8=
=[(1.75)^2+(1.25)^2+(0.75)^2+(1.25)^2+(0.25)^2+(1.25)^2+(1.75)^2+(0.25)^2]/8=1.43.
Teraz, by otrzymać sensowne dane dotyczące rozkładu wyników wokół średniej, musimy posłużyć się pierwiastkiem kwadratowym z wariancji. Dokładniej, należy wprowadzić pojęcie, odchylenia standardowego, które definiujemy jako:
sigma=(Var)^(1/2).
Dla meczy Sandecji mamy:
sigma(u siebie)=0.96 oraz sigma(na wyjeździe)=1.19.
Wartości te mówią nam, że średnio liczba goli uzyskanych na własnym boisku mieści się w przedziale (0.29,2.21), a na wyjeździe (0.06,2.44). Zbiory te określają najczęstsze wartości ilości bramek średnio na jedno spotkanie.
Cała dotychczasowa droga, wprowadzone parametry średniej oraz odchylenia standardowego, prowadziła nas do podstawowych narzędzi, jakimi są rozkłady prawdopodobieństwa. Najczęściej stosowane są dwa: rozkład Poissona i normalny. Narzędzia te pozwalają rozłożyć szanse pomiędzy konkretne wartości bramek/punktów, posiłkując się jedynie średnią i odchyleniem standardowym.
Takie wnioskowanie ma oczywiście duży minus, jakim jest brak kontroli nad innymi ważnymi kwestiami, jak np. chwilowe załamanie formy czy inne wypadki losowe. Posiłkowanie się jedynie „suchymi” liczbami otrzymywanymi z danych historycznych nie zawsze prowadzi do miarodajnych wniosków. Można jednak zbudować przy ich pomocy punkt odniesienia, który pozwoli nam na szukanie najbardziej prawdopodobnego zakończenia wydarzenia sportowego na które chcemy postawić.
Rozkłady prawdopodobieństwa bramek/punktów
Narzędzia, jakimi są rozkłady, to nic innego jak sposób przyporządkowania danej liczbie lub zbiorowi prawdopodobieństwa. Weźmy na przykład ostatnie sześć spotkań Jagiellonii Białystok na wyjeździe w jednym z sezonów Ekstraklasy. Liczba strzelonych bramek wygląda następująco:
Pokażemy, jak wykorzystując rozkłady można przewidzieć ilość goli z 36 kolejki na podstawie pozostałych pięciu.
Skorzystamy najpierw z rozkładu Poissona. Zaczynamy od policzenia średniej (w naszym przypadku średniej arytmetycznej) dla wcześniejszych spotkań:
ŚR=(2+1+0+3+2)/5=1.6 bramki na mecz.
Wartości prawdopodobieństwa dla kolejnych liczb bramek (od 0 do 5 – więcej nie ma sensu liczyć, gdyż takie wyniki są mało realne) dla rozkładu Poissona możemy policzyć, korzystając z Excela.
Wystarczy wpisać komendę ROZKŁAD.POISSON(A;ŚR;0), gdzie A to liczba bramek oraz ŚR to średnia. W naszym przypadku, podkładając kolejno za A liczby 0,1,2,3,4 i 5 otrzymamy:
Z powyższego widzimy, że najbardziej prawdopodobna liczba bramek oczekiwana w kolejnym meczu to jedna albo dwie (z szansami równymi odpowiednio 32% i 26%). Jeżeli analogicznie sprawdzimy stan bramkowy u siebie dla Zagłębia Lubin (z tym zespołem Jagiellonia grała ostatni mecz na wyjeździe), to otrzymamy średnią równą 0.2 gola na spotkanie (pięć wcześniejszych spotkań). Ponownie korzystając z rozkładu Poissona, otrzymamy:
Widać, że praktycznie największe szanse ma by nie strzelić ani jednej bramki i bardzo małe, by uzyskać jedną. Korzystając tylko i wyłącznie z powyższych, danych możemy wysnuć wniosek, że mecz pomiędzy Jagiellonią i Zagłębiem powinien zakończyć się jednym z następujących rezultatów: 1:0, 1:1, 2:0 lub 2:1. W rzeczywistości spotkanie to wygrała Jagiellonia 2:1, czyli wnioskując na podstawie małej próbki otrzymaliśmy poprawny wynik. Oczywiście mógł to być czysty przypadek, jednak wnioskowanie na podstawie rozkładu w tej sytuacji dało rzeczywiste i prawdziwe konkluzje.
Drugie podejście do zagadnienia przedstawimy przy pomocy rozkładu normalnego. Prócz średniej potrzebujemy w tym przypadku odchylenia standardowego. Dla Jagiellonii jest ono równe 1.9, zaś dla Zagłębia 0.4. Odpowiednia funkcja w Excelu przedstawia się następująco:
ROZKŁAD.NORMALNY(A+0,5;ŚR;OD;0)-ROZKŁAD.NORMALNY(A-0,5;ŚR;OD;0), gdzie A to liczba bramek, ŚR średnia a OD to odchylenie standardowe.
Powyższy wzór przedstawia tak naprawdę szansę, że liczba goli będzie w przedziale (A-0,5,A+0,5). Dokładniej, chcąc otrzymać prawdopodobieństwo uzyskania zera bramek, musimy obliczyć szanse, że liczba goli będzie należeć do zbioru (-0.5,0.5).
Rozumując jak powyżej otrzymujemy:
Powyższy rozkład daje podobne wyniki jak wcześniejszy z tą różnicą, że jest on bardziej wyczulony na rozmieszczenie konkretnych wyników wokół średniej. Innymi słowy, mamy dwa parametry, które określają nam ten rozkład, co już samo w sobie jest bardziej rzeczywiste niż rozkład z jednym parametrem. Podobnie jak wyżej, najbardziej prawdopodobne wyniki to: 1:0, 1:1, 2:0 oraz 2:1. Z tym, że w tym przypadku jest trochę większa szansa na strzelenie jednej bramki przez Zagłębie i być może ten fakt pozwoliłby nam na obstawienie dokładnego wyniku, jakim jest 2:1.
Oba rozkłady mogą być stosowane w każdej innej dyscyplinie sportowej, dla której określimy odpowiednią próbkę i interesujące nas parametry punktowe.
Jak przewidywać wyniki w zakładach - podsumowanie
Powyższy tekst ma na celu przedstawienie całej drogi prowadzącej do oszacowania prawdopodobnych wyników interesujących nas wydarzeń sportowych podczas gry u bukmachera. Algorytm ten polega na umiejętnym doborze spotkań, które pod pewnymi względami są podobne i poddaniu ich analizie, która kończy się pewnego typu rozkładem oczekiwanych scenariuszy.
Wszelkie wprowadzone parametry przedstawiliśmy opisowo i w sposób elementarny. Przytaczane rozkłady Poissona i normalny można bez większego problemu wprowadzić w arkusz kalkulacyjny i posiłkować się wynikami tam otrzymanymi, po czym z mniejszymi lub większymi sukcesami stawiać zakłady u firm bukmacherskich.
FAQ - pytania i odpowiedzi
1️⃣ Który pakiet bez depozytu wybrać do typowania systemowego opartego na statystykach?
Polecamy wybór trzech najwyższych bonusów u bukmacherów, gdzie nie trzeba wpłacać depozytów pieniężnych. Najwięcej kasy z freebetu oferuje Totalbet oraz forBET ).
2️⃣ Jak gra bez podatku wpływa na wygrane?
Realne zakłady bez odprowadzania podatku 12%, pozwalają na wygrane finansowe u bukmachera, większe o 14%. Stawiając na pewniaków i faworytów, z reguły korzystasz z niższych kursów. Wystarczą 3 takie zdarzenia na kuponie AKO (akumulowanym), żeby otrzymać więcej kasy.
3️⃣ Jaki bukmacher będzie najlepszy na pierwsze zakłady systemowe?
W zależności od strategii i znajomości systemów do gry u buka, możemy wybrać najwyższy bonus bez ryzyka (najlepsi bukmacherzy z casbackiem to Betclic i Superbet). Ograniczamy wtedy ryzyko strat, jeśli wiedza lub doświadczenie są za małe na pierwsze sukcesy.