Impacto de COVID-19 en la Premier League de fútbol inglesa: análisis de clasificaciones y ventaja de local utilizando modelos extendidos de Bradley-Terry

Resumen

El COVID-19 impactó significativamente los torneos deportivos, particularmente el fútbol. Durante la pandemia, las restricciones a los espectadores y los frecuentes cambios en la composición del equipo debido a los brotes, brindaron una oportunidad única para explorar los efectos en el rendimiento del equipo y la ventaja de local (HA). En este estudio tenemos dos enfoques. Primero presentamos un nuevo modelo Bradley-Terry extendido. El modelo propuesto demostró varias ventajas sobre los modelos existentes, particularmente en términos de estabilidad, facilidad de implementación e interpretación. Se puede aplicar a cualquier deporte que tenga dinámicas de local y visitante. El segundo objetivo es aplicar el modelo propuesto a los datos de la Premier League inglesa durante las últimas diez temporadas. El análisis tiene como objetivo evaluar los cambios en las clasificaciones de los equipos y la ventaja de jugar en casa antes, durante y después de las interrupciones de la pandemia. Nuestros hallazgos indican marcadas fluctuaciones en el desempeño del equipo y la ventaja de jugar en casa durante la pandemia, con un cambio distintivo en la dinámica del equipo y el equilibrio competitivo bajo las restricciones pandémicas.

Introducción

La Premier League inglesa (EPL) es ampliamente considerada como la liga de fútbol más prestigiosa del mundo, y atrae a los mejores talentos y a importantes inversiones financieras (1). Su alto nivel de juego y el apasionado apoyo de los fanáticos crean una pronunciada ventaja de local (HA) (2). Sin embargo, durante la pandemia, la temporada 2019-2020 se detuvo temporalmente a principios de marzo y se reanudó a mediados de junio, y los partidos restantes se jugaron sin aficionados. Un cambio significativo que se adoptó fue la limitación o prohibición de que los aficionados asistan a los partidos. Además de los partidos sin aficionados, los equipos se han visto acosados ​​por grupos de casos de COVID-19, lo que ha provocado alineaciones inconsistentes. El doble impacto de los aficionados ausentes y los riesgos para la salud tiene el potencial de alterar las clasificaciones de los equipos y disminuir la tradicional ventaja de jugar en casa. Estudios como el de McCarrick et al. (3), demuestran una reducción en HA durante los juegos sin público, atribuyéndolo a decisiones arbitrales menos favorables y a una menor motivación de los jugadores. leitner et al. (4) corroboró estos hallazgos, destacando la disminución de HA en las ligas europeas durante los «juegos fantasma», vinculándolo con los efectos psicológicos de la ausencia de aficionados en los árbitros y jugadores por igual. De manera similar, Wang y Qin (5) confirmó que la ausencia del público reduce significativamente el rendimiento del equipo, lo que afecta las métricas tácticas y físicas, como la finalización de pases y la precisión de los tiros. lavabo et al. (6) exploraron la competitividad de la EPL a través de un modelo de bloques estocástico, revelando cambios estructurales en el equilibrio competitivo que podrían interactuar con los efectos de la pandemia en el desempeño del equipo. Sin embargo, no toda la evidencia se alinea con esta tendencia. Scelles et al. (7) informaron que la ventaja de jugar en casa persistió incluso en partidos sin fanáticos, lo que sugiere factores más allá de la presencia del público.

Para medir los cambios en la pandemia, nos centramos en dos características: el poder predictivo del desempeño general del equipo y la ventaja de jugar en casa. Históricamente, los intentos de predecir el resultado de los partidos de fútbol a menudo han implicado modelar de forma independiente el potencial goleador de cada equipo y estas predicciones normalmente utilizaban distribuciones de Poisson independientes para predecir los goles marcados. Por ejemplo, el artículo de Maher (8) utiliza un modelo de Poisson con parámetros ofensivos y defensivos específicos del equipo. Sin embargo, estos modelos son algo «estáticos» en el sentido de que la información utilizada para calcular los parámetros de fuerza no tiene en cuenta el tiempo. Posteriormente se desarrollaron modelos dinámicos, como en Dixon y Coles (9) la importancia de los resultados se ponderó de tal manera que los resultados más recientes tuvieron un mayor impacto en la fuerza del equipo que los resultados de hace mucho tiempo.

Más allá del modelo de Poisson de los goles marcados, otros enfoques implican el uso de datos específicos de los partidos, o incluso simplemente resultados de partidos como victoria/empate/perdida para construir modelos de comparación pareada para predecir el resultado de un juego. kuk (10) propusieron un modelo de comparación lineal por pares para deportes con tasas de empate frecuentes y variables, donde la estimación de máxima probabilidad no es factible, sino que compara los resultados observados y esperados para manejar la ventaja de jugar en casa. Schauberger et al. (11) utilizó numerosos datos específicos de los partidos, como posesión del balón, tasas de pases completados, distancia recorrida por los jugadores y mucho más, para intentar construir un modelo capaz de superar a las casas de apuestas en la predicción de los resultados de los partidos. Aunque tuvieron éxito, se trataba de modelos bastante complicados con cantidades excesivas de parámetros que dependían de recibir grandes cantidades de datos específicos de los partidos. Además, Schauberger (11) utiliza intercepciones específicas del equipo, lo que requiere penalización debido a la gran cantidad de parámetros. Si bien esto evita el sobreajuste, reduce la interpretabilidad, lo que dificulta sacar conclusiones claras sobre la ventaja relativa de cada equipo y limita el valor práctico del modelo para comprender los cambios de HA. Cattelan et al. (12) alternativamente intentó construir un modelo para predecir los resultados de los partidos utilizando solo los resultados de partidos anteriores (ganado/empatado/perdido).

Todos estos modelos tienen en cuenta la ventaja de jugar en casa (HA), un fenómeno explicado por la influencia del público en la motivación de los jugadores y el arbitraje.13,14), fatiga de viaje para los equipos visitantes (15), y familiaridad con el lugar (16). leitner et al. (4) proporcionó una descripción concisa de estos mecanismos desde perspectivas sociopsicológicas y ambientales. Empíricamente, el análisis de Pollard confirmó que el fútbol muestra uno de los mayores efectos HA entre los principales deportes de equipo (2). Una revisión exhaustiva realizada por Nevill y Holder (17) resume estos mecanismos.

En los últimos años, un número creciente de estudios han explorado el aprendizaje automático y modelos estadísticos avanzados para mejorar la precisión predictiva de los resultados de los partidos de fútbol. groll et al. (18,19) propusieron métodos híbridos que combinan características diseñadas por expertos con bosques aleatorios o regresión de Poisson para la predicción de torneos internacionales. De manera similar, Schauberger y Groll (20) utilizaron modelos de conjunto que incorporan clasificaciones de equipos y probabilidades de casas de apuestas. Yeung et al. (21) evaluaron enfoques de aprendizaje profundo y aumento de gradientes, y resaltaron la importancia de las características de ingeniería, como las calificaciones de fuerza. Los modelos de clasificación de aprendizaje automático han demostrado un sólido rendimiento predictivo, pero estos métodos exigen grandes conjuntos de datos y sacrifican la interpretabilidad, lo que los hace inadecuados para nuestros datos relativamente pequeños del período COVID. Constantinou y Fenton (22) introdujo el pi-rating, una extensión dinámica del modelo Bradley-Terry que incorpora márgenes de puntuación y supera las calificaciones Elo estándar en la predicción de partidos de la Premier League inglesa. Macrì Demartino et al. (23) propuso recientemente un modelo bayesiano Bradley-Terry-Davidson para competiciones internacionales, demostrando un rendimiento mejorado con respecto a los modelos de estilo Elo y basados ​​en objetivos.

Entre los sistemas de calificación, los modelos tipo Elo (24) son ampliamente utilizados debido a su simplicidad y actualización secuencial. Sin embargo, requieren calibración de k-factores y a menudo carecen de transparencia en la interpretación de los parámetros. Es importante destacar que el modelo BT utiliza una regresión logística ordenada para manejar resultados ternarios (ganar/empatar/perder) directamente, mientras que los métodos Elo normalmente omiten los empates. Szczecinski et al. (25) demostró que el sistema de clasificación Elo de la FIFA se aproxima a un modelo en línea de Bradley-Terry y abogó por una alternativa híbrida más basada en datos. Honda (26) argumentó además que el modelo Bradley-Terry (BT) produce estimaciones de fuerza más estables e interpretables que Elo, ya que evita la dependencia de la trayectoria y considera el historial completo de los resultados de los partidos. Además, el modelo BT permite inferencias basadas en probabilidad e intervalos de confianza, que normalmente no están disponibles en los marcos estándar de Elo. El modelo de Davidson (27) amplía el modelo BT para dar cabida a las corbatas, lo que mejora la flexibilidad para deportes como el fútbol y el hockey. Si bien los modelos de Davidson permiten empates, no se adaptan a la parametrización HA específica del equipo que requiere nuestro estudio, mientras que el modelo BT incorpora de manera flexible dicha estructura.

En conjunto, estos hallazgos respaldan el uso de modelos tipo BT como una elección equilibrada entre simplicidad, interpretabilidad y desempeño empírico. Nuestro modelo omite covariables específicas de partidos e intersecciones específicas de equipos, lo que produce un modelo parsimonioso que no requiere penalización y sigue siendo interpretable, sigue siendo ventajoso para (i) manejar comparaciones por pares incompletas, (ii) robustez ante interrupciones abruptas (por ejemplo, COVID-19), (iii) incorporación directa de parámetros HA y (iv) parametrización parsimoniosa.

Utilizando datos de las 10 temporadas más recientes de la Premier League inglesa, desarrollamos y aplicamos un modelo Bradley-Terry extendido y lo comparamos con dos modelos Bradley-Terry extendidos existentes en Cattelan. et al. (12): modelos estáticos y dinámicos. Nuestro trabajo está estrechamente relacionado con el de Schauberger. et al. (11). Sin embargo, sin intercepciones específicas del equipo y covariables específicas del partido, no se necesita penalización, lo que da como resultado un modelo más simple e interpretable. Primero examinamos si los tres modelos pueden manejar adecuadamente los cambios inesperados posteriores a la pausa del COVID-19 y seguir funcionando bien. La comparación se realiza para evaluar si el modelo propuesto superaría a los modelos estático y dinámico en la situación en que los partidos jugados después de la pausa serían tan variables y un modelo más flexible funcionaría mejor. Los tres modelos se utilizarán para ajustar los datos de tres períodos diferentes. Se prestó especial atención a la evolución del parámetro HA y los cambios de clasificación estimados utilizando estos modelos, para evaluar la importancia de HA en la predicción del resultado de los partidos.

Para abordar los dos enfoques, presentar el nuevo modelo Bradley-Terry y examinar el impacto de la COVID-19 en el rendimiento deportivo, el documento se organiza de la siguiente manera. Methods describe dos modelos Bradley-Terry existentes e introduce un nuevo modelo Bradley-Terry. Resultados describe los datos de diez equipos de la Premier League inglesa durante diez temporadas y presenta los resultados de la aplicación de los tres modelos, así como la validación y comparación de los tres modelos. El artículo concluye con una discusión en Discusión.

Métodos

Modelos

Considerando cada juego como una comparación emparejada de dos equipos, Bradley y Terry (28) desarrolló el modelo Bradley-Terry original para evaluar enfrentamientos emparejados de equipos en un grupo,

(1)

dónde y Son parámetros que miden el nivel de habilidad del equipo. hi y equipo en el grupo. Tenga en cuenta que en esta formulación original, sólo podemos modelar la probabilidad de un resultado binario (yi= 1 por victoria o 0 por derrota) entre equipos hi ganando contra el equipo .

Modelo 1: modelo estático de Bradley-Terry con un factor de ventaja de local uniforme

Para tener en cuenta los empates y los factores de local y visitante, que ocurren en los partidos de fútbol, ​​el modelo original de Bradley-Terry se ha ampliado de diferentes maneras. Teniendo en cuenta la ventaja de jugar en casa, el primer modelo que consideramos incluye un parámetro de efecto local común. η para todos los equipos. Para dar cabida a los tres resultados posibles (2 para una victoria del equipo local; 1 para un empate; y 0 para una victoria del equipo visitante), el modelo Bradley-Terry se amplió para tener en cuenta el parámetro de ventaja de local así como los empates a través de una especificación de vínculo acumulativo en Cattelan. et al. (12). para juego iestá escrito como

(2)

dónde yi toma un valor de 2, 1 o 0 si el equipo local gana, empata o pierde ante el equipo visitante, respectivamente y hi, representa al equipo local y al equipo visitante en el partido i con , . Cada equipo tiene su propio parámetro de habilidad. ak, . Un parámetro universal de ventaja local (HA) η representa el HA promedio de todos los equipos en el análisis, y son parámetros correspondientes a los tres resultados. Al imponer restricciones «simétricas» tales que nos aseguramos de que dos equipos se enfrenten entre sí con el mismo parámetro de habilidad y sin HA () tendría las mismas probabilidades de ganar de modo que

Si el número de resultados posibles se reduce a Ecuación (2) (es decir, sin vínculos), y el modelo logit acumulativo Ecuación (2) Se reduce al modelo estándar Bradley-Terry. Ecuación (1). Debido a…

Truncado en 12000 caracteresTraducido automáticamente
Publicación Original

¿Quieres recibir semanalmente todos los contenidos de G-SE?