Προβλέψεις για το EURO 2020 βασισμένες σε Στατιστικά Μοντέλα Αναλυτικής Ποδοσφαίρου
Η τεχνική αλλά και τέχνη στατιστικής μοντελοποίησης έχει άμεση εφαρμογή στον τομέα του αθλητισμού και πιο συγκεκριμένα του ποδοσφαίρου με άμεση εφαρμογή στην λήψη αξιόπιστων προβλέψεων σε μελλοντικούς αγώνες ποδοσφαίρου όπου το ενδιαφέρον των φιλάθλων αυξάνει κατακόρυφα
Η χρήση στατιστικών τεχνικών για την πρόβλεψη αγώνων ποδοσφαίρου πρώτο-εμφανίστηκε στην επιστημονική βιβλιογραφία το 1968 με την πρωτοπόρα επιστημονική δημοσίευση των Reep & Benjamin. Οι επόμενες πραγματικές καινοτομίες εμφανίζονται στη δεκαετία του 80 με την εργασία του Michael Maher και την εργασία του Lee το 1997 όπου έθετε το ερώτημα αν πράγματι η Μάντσεστερ Γιουνάιτεντ τότε ήταν πράγματι η καλύτερη ομάδα.
Το ερώτημα επιβεβαιώνονταν με την χρήση ενός απλοϊκού στατιστικού μοντέλου και προσομοίωσης. Η ανάλυση αυτή έθετε τα θεμέλια της σύγχρονης μοντελοποίησης στο Ποδόσφαιρο και στον αθλητισμό. Επόμενες σημαντικές δημοσιεύσεις ήταν οι εργασίες των Dixon & Coles το 1997 και το διμεταβλητό μοντέλο Poisson των Καρλή και Ντζούφρα το 2003 (δύο από τους συγγραφείς της συγκεκριμένης ανάλυσης). Τα δύο αυτά μοντέλα έθεσαν τη βάση των συγχρόνων μοντέλων πρόβλεψης των αποτελεσμάτων αγώνων ποδοσφαίρου.
Η βασική ιδέα του στατιστικού μοντέλου των καθηγητών του ΟΠΑ Καρλή και Ντζούφρα βασίζεται σε μια επέκταση μια γνωστής κατανομής που ονομάζεται Poisson για την πρόβλεψη του αριθμού των γκολ που θα σκοράρει κάθε ομάδα. Ο προβλεπόμενος αριθμός γκολ γράφεται ως συνάρτηση της επίδρασης της έδρας (home effect) που πλέον μπορεί να ποσοτικοποιηθεί και της επιθετικής και αμυντικής δυναμικότητας των ομάδων.
Εδώ γίνεται χρήση μιας παραλλαγής αυτού του μοντέλου για να γίνει πρόβλεψη των αγώνων του EURO 2020. Επιπλέον χρησιμοποιούνται χρονό-δυναμικές παράμετροι που αντικατοπτρίζουν τις δυναμικότητες ομάδων και η διαφορά στο ranking μεταξύ των δύο αντίπαλων ομάδων με βάση τον δείκτη Coca-Cola FIFA ranking την 27η Μαΐου 2021. Το μοντέλο εκτιμήθηκε με χρήση της Μπευζιανής προσέγγισης (Bayesian approach) και των στατιστικών πακέτων R και STAN. Οι προβλέψεις αυτές είναι παρόμοιας ακρίβειας με αυτές που χρησιμοποιούν οι εταιρείες στοιχηματισμού.
Η ταυτότητα του μοντέλου δίδεται αναλυτικά στο τέλος αυτού του άρθρου.
Οι Προβλέψεις του Μοντέλου για την 1η Αγωνιστική
Το μοντέλο βασίζεται σε ιστορικά δεδομένα από τους αγώνες των εθνικών ομάδων για το Nations’ League τους προκριματικούς αγώνες του Euro Cup και του Παγκόσμιου κυπέλου. Χρησιμοποιούμε αυτή τη συλλογή δεδομένων για να εκπαιδεύσουμε το μοντέλο μας και να κάνουμε τις προβλέψεις μας για τους πρώτους αγώνες του EURO 2020. Αυτό σημαίνει ότι το μοντέλο χρησιμοποιεί ιστορικά δεδομένα για να εκτιμήσει και να γενικεύσει τη συμπεριφορά των δυναμικοτήτων των ομάδων, προβλέποντας τι είναι πιο πιθανό να συμβεί στο μέλλον.
Φυσικά, το ποδόσφαιρο είναι το άθλημα των σπάνιων γεγονότων και των εκπλήξεων και για το λόγο αυτό το τελικό αποτέλεσμα (και ειδικά οι εκπλήξεις που έχουν το μεγαλύτερο ενδιαφέρον) είναι γενικά δύσκολο να προβλεφθεί ακόμα και με το καλύτερο μοντέλο ή τεχνική στατιστικής ή μηχανικής μάθησης. Ως τελικό αποτέλεσμα δίδουμε τι πιθανότητες νίκης, ισοπαλίας και ήττας της κάθε ομάδας για κάθε αγώνα και το πιο πιθανό σκορ.
Οι πιθανότητες για κάθε αποτέλεσμα δίνονται στα παρακάτω διαγράμματα. Τα διαγράμματα αυτά απεικονίζουν τις πιθανότητες για κάθε αποτέλεσμα με βάση το μοντέλο για τους αγώνες της 1η αγωνιστικής (που ήδη γνωρίζουμε το αποτέλεσμα τους). Τα πιο σκούρα κουτάκια απεικονίζουν τα πιο πιθανά αποτελέσματα ενώ τα πιο ανοικτόχρωμα υποδεικνύουν αποτελέσματα με χαμηλή πιθανότητα εμφάνισης.
Αντίστοιχα δίνονται στον παρακάτω πίνακες οι πιθανότητες για τις προβλέψεις νίκης-ισοπαλίας-ήττας για κάθε αγώνα. Επίσης δίνεται και το αποτέλεσμα με την μεγαλύτερη πιθανότητα και το πραγματικό αποτέλεσμα για σύγκριση.
Ο Αγώνας Γαλλίας – Γερμανίας
Για λόγους επίδειξης του τρόπου λειτουργίας του μοντέλου, ας επικεντρωθούμε στο πιο συναρπαστικό αγώνα της 1ης αγωνιστικής της Γερμανίας με αντίπαλο τη Γαλλία. Τα πιο σκούρα κουτάκια απεικονίζουν τα πιο πιθανά αποτελέσματα, για παράδειγμα σε αυτόν τον αγώνα η ισοπαλία 1-1 ήταν το πιο πιθανό αποτέλεσμα με βάση το μοντέλο με πιθανότητα 10%. Τα σκούρα γκρι κουτιά αντιστοιχούν στα αποτελέσματα 1-0, 0-1 και 0-0, με πιθανότητες 6% περίπου για καθένα από αυτά τα αποτελέσματα. Κοιτάζοντας όμως τις συνολικές πιθανότητες των αποτελεσμάτων του αγώνα, βλέπουμε ότι η Γαλλία είχε πιθανότητα νίκης 45.5% ενώ η Γερμανία 28.7% και η ισοπαλία 25.8%. Το μοντέλο αναγνωρίζει μια σχετική ισορροπία μεταξύ των δύο ομάδων με προβάδισμα όμως της Γαλλίας και χαμηλό πιθανό σκορ που απεικονίζει την υψηλή αμυντική δυναμικότητα και των δύο ομάδων. Αυτά τα δύο γεγονότα επιβεβαιώθηκαν και στον αγώνα παρότι την οριακή επικράτησης της Γαλλίας με 1-0 (υπενθυμίζουμε ότι το σκορ αυτό είχε τη 2η μεγαλύτερη πιθανότητα εμφάνισης και ίση με 6%).
Προβλέψεις για τους τελευταίους αγώνες των γκρουπ
Με βάση τον παραπάνω πίνακα προκρίσεων που δίνει το μοντέλο, στον όμιλο Δ η Αγγλία θα προκριθεί σχετικά εύκολα αφού έχει πιθανότητα 67.7% για επικράτηση επί της Τσεχίας (παρόλα αυτά, Αγγλία είναι αυτή και κανείς δεν μπορεί να είναι σίγουρος). Αβεβαιότητα υπάρχει για την πρόκριση της 2ης ομάδας καθώς θα εξαρτηθεί από το συνδυασμό σκορ καθώς επίσης και από την αποφασιστικότητα της Τσεχίας να κυνηγήσει ένα καλύτερο αποτέλεσμα ενάντια στις προβλέψεις.
Στον όμιλο Ε τα πράγματα φαίνεται να είναι ξεκάθαρα για την Σουηδία και την Ισπανία (παρόλα τα άσχημα αποτελέσματα της Ισπανίας στους 2 πρώτους αγώνες). Η Σουηδία έχει 46.6% πιθανότητα να επικρατήσει της Πολωνίας το οποίο, σε συνδυασμό με τους 4 πόντους που ήδη έχει και την 1η θέση μέχρι στιγμής, της δίνει τις μεγαλύτερες πιθανότητες να πάρει και την 1η θέση στον όμιλο. Αντίστοιχα η Ισπανία έχει 67.7% πιθανότητα να επικρατήσει της Σλοβακίας. Σημείωση: η Ισπανία είχε αυξημένες πιθανότητες νίκης και κατά της Πολωνίας (62%) και κατά της Σουηδίας (60%) αλλά απέτυχε να πάρει τη νίκη. Αυτό είναι ενδεικτικό ότι η Ισπανία έχει χαμηλότερη επίδοση μέχρι στιγμής από αυτή που υποδεικνύει το μοντέλο με βάση τις προηγούμενες εμφανίσεις της οπότε αφήνουμε και ένα περιθώριο να μην φτάσει στη νίκη. Σε περίπτωση ισοπαλίας περνάει η Σλοβακία, που κάνει το συγκεκριμένο αγώνα ακόμα πιο ενδιαφέρον και ανοικτό στο ενδεχόμενο έκπληξης.
Τέλος στον όμιλο ΣΤ η Γερμανία με βάση το μοντέλο θα περάσει στον επόμενο γύρο με πιθανότητα νίκης 64% επί της Ουγγαρίας ενώ ισορροπία επικρατεί στον αγώνα Πορτογαλία-Γαλλία με ελαφρό προβάδισμα νίκης για την Πορτογαλία. Παρόλα αυτά, η Γαλλία έχει προβάδισμα πρόκρισης καθώς και με ισοπαλία περνάει στον επόμενο γύρο δηλαδή έχει πιθανότητα πρόκρισης 61.2%.
Οι προβλέψεις γίνονται για επιστημονικούς λόγους και δεν συνιστούν προτροπή ή συμβουλή για στοιχηματισμό.
Βιβλιογραφία για διαβαστερούς φιλάθλους
- Dixon, M.J. and Coles, S.G. (1997), Modelling Association Football Scores and Inefficiencies in the Football Betting Market. Journal of the Royal Statistical Society: Series C (Applied Statistics), 46, 265-280.
- Karlis, D. and Ntzoufras, I. (2003), Analysis of sports data by using bivariate Poisson models. Journal of the Royal Statistical Society: Series D (The Statistician), 52, 381-393.
- Lee A.J. (1997). Modeling Scores in the Premier League: Is Manchester United Really the Best? Chance, 10, 15-19.
- Maher, M.J. (1982), Modelling association football scores. Statistica Neerlandica, 36, 109-118.
- Reep, C., & Benjamin, B. (1968). Skill and Chance in Association Football. Journal of the Royal Statistical Society. Series A (General), 131, 581-585.
Οι Μαγικές Εξισώσεις του στατιστικού μοντέλου
- i είναι ο δείκτης του αγώνα
- και είναι ο αριθμός των γκολ μεταξύ της 1ης και της 2ης ομάδας στον αγώνα i
- είναι η επίδραση της έδρας (μόνο για τους αγώνες που ισχύει αυτό). Συνήθως στο EURO οι περισσότεροι αγώνες είναι σε ουδέτερη έδρα οπότε αυτό το bonus δεν προστίθεται σε καμία από τις δύο αντίπαλες ομάδες
- και είναι η 1η και 2η ομάδα αντίστοιχα (ή η εντός και εκτός έδρα ομάδα – όπου ισχύει) για τον i αγώνα.
- και οι παράμετροι που εκτιμούν της επιθετική και αμυντική δυναμικότητα/ ικανότητα της ομάδας k την χρονική στιγμή t (δυναμικές παράμετροι που αλλάζουν στο χρόνο)
- δείκτης Coca-Cola FIFA ranking την 27η Μαΐου 2021 για την ομάδα k.
Λίγα λόγια για τους Συγγραφείς
* O Leonardo Egidi είναι επίκουρος καθηγητής Στατιστικής στο Πανεπιστήμιο της Τεργέστης στην Ιταλία και μέλος της ερευνητικής ομάδας του Οικονομικού Πανεπιστημίου Αθηνών AUEB Sports Analytics Group. Έχει διδακτορικό στην μοντελοποιηση και αναλυτική ποδοσφαίρου και έντονη ερευνητική δραστηριότητα στη Μπευζιανή Στατιστική μεθοδολογία.
* O Ιωάννης Ντζούφρας είναι καθηγητής Στατιστικής και πρόεδρος στο Τμήμα Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών. Είναι ιδρυτικό μέλος της ερευνητικής ομάδας AUEB Sports Analytics Group μαζί με τον Δημήτρη Καρλή. Έχει αναγνωρισμένη επιστημονική δραστηριότητα σε τομείς όπως η Μπευζιανή στατιστική μεθοδολογία, υπολογιστική στατιστική, Βιοστατιστική, ψυχομετρία και αναλυτική των σπορ.
* O Δημήτρης Καρλής είναι καθηγητής Στατιστικής και αναπληρωτής πρόεδρος στο Τμήμα Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών. Είναι ιδρυτικό μέλος της ερευνητικής ομάδας AUEB Sports Analytics Group μαζί με τον Ιωάννη Ντζούφρα. Έχει αναγνωρισμένη επιστημονική δραστηριότητα σε τομείς όπως η στατιστική μεθοδολογία, υπολογιστική στατιστική, Βιοστατιστική, και αναλυτική των σπορ.
Οι τρεις συγγραφείς του άρθρου αυτή τη στιγμή συνεργάζονται για τη συγγραφή ενός βιβλίου σε Football Analytics σε διεθνή επιστημονικό οίκο ενώ στο τελευταίο workshop της ομάδας έδωσαν ένα σεμιναριακό μάθημα σε Football analytics.
Η ερευνητική ομάδα του Οικονομικού Πανεπιστημίου Αθηνών AUEB Sports Analytics Group ιδρύθηκε το 2015 από τους καθηγητές Ιωάννη Ντζούφρα και Δημήτρη Καρλή. Μέλη του είναι σημαντικά μέλη της κοινότητα της αναλυτικής των σπορ όπως οι Stefan Kesenne (Πανεπιστήμιο Antwerp & Leuven), Leonardo Egidi (Πανεπιστήμιο Trieste), Ιωάννης Κοσμίδης (Warwick), Κωνσταντίνος Πελεχρίνης (Pittsburg), Nial Friel (UCD) και Gianluca Baio (UCL) καθώς επίσης και ο πρώην προπονητής της εθνικής Ελλάδας Βόλεϊ, Σωτήρης Δρίκος. Η ερευνητική ομάδα είναι υπεύθυνη για της σειρά ετήσιων συνεδρίων με το όνομα AUEB Sports Analytics Workshop (5 συνολικά) ενώ το 2019 διοργάνωσε το διεθνές συνέδριο MathSport 2019 με 200 συμμετέχοντες επιστήμονες από όλο τον κόσμο. Τέλος η ομάδα έχει μια σειρά από σημαντικές επιστημονικές δημοσιεύσεις στο χώρο της αναλυτικής των σπορ.
Πηγή: OT.gr
- Ακίνητα: Τι πρέπει να γνωρίζουν ιδιοκτήτες, ενοικιαστές πριν υπογράψουν
- Ακόμα γεμίζεις τις καρδιές μας: Η Σελίν Ντιόν συγκινεί με ανάρτηση για την επέτειο γάμου της
- Χριστούγεννα: Τέσσερα βήματα για να αντιμετωπίσετε τη μοναξιά των γιορτών
- Η Νικόλ Κίντμαν απαντά με «αγένεια» στο κόκκινο χαλί της πρεμιέρας του Babygirl και διχάζει
- «Οι διακοπές είναι για τεμπέληδες» – Μια αιρετική άποψη της αρχαιότητας
- Kids Wallet: Το πρώτο βήμα για φίλτρο στα social κατά του εθισμού των ανηλίκων