Resumen
La predicción precisa y confiable del flujo de tráfico a largo plazo es una piedra angular de los sistemas de transporte inteligentes (ITS) modernos, pero sigue siendo un desafío debido a las dependencias espacio-temporales complejas, no lineales y dinámicas inherentes a los datos de tráfico. Si bien los modelos recientes basados en Transformer se han mostrado prometedores, normalmente son sistemas de extremo a extremo que combinan la extracción de características y la predicción de secuencias, lo que puede limitar su capacidad para aprovechar plenamente la información de dominio multifacética. Para abordar esto, proponemos un marco de dos etapas, el iTransformer con características mejoradas (FE-iTransformer), basado en una filosofía de extraer y mejorar. El marco primero emplea un módulo de mejora de funciones (FEM) integral para destilar un vector de contexto global a partir de dinámicas espacio-temporales, patrones periódicos y contexto temporal, sin depender de una estructura gráfica predefinida. Posteriormente, un innovador mecanismo de mejora de características por paso utiliza este vector global para enriquecer la secuencia de entrada original, generando una representación rica en información que luego es procesada por una sólida columna vertebral de iTransformer para la predicción final. La eficacia de FE-iTransformer se valida mediante extensos experimentos: los estudios de ablación en dos conjuntos de datos clásicos (Freeway y Urban) proporcionan evidencia convincente de la eficacia del diseño de dos etapas, lo que demuestra que la introducción de FEM mejora significativamente la columna vertebral pura de iTransformer; Los experimentos complementarios en el punto de referencia PEMS08 a gran escala confirman aún más la escalabilidad y el rendimiento a largo plazo, reduciendo el error absoluto medio (MAE) en un 19,1% sobre la columna vertebral básica en la tarea de pronóstico de 120 minutos. Es importante destacar que este estudio se centra en entornos sin gráficos o con gráficos débiles y no pretende superar los modelos con gráficos anteriores; más bien, ofrece una alternativa sin gráficos y lista para implementar cuando el gráfico de la carretera no está disponible o no es confiable.
1. Introducción
El rápido ritmo de la urbanización global ha generado desafíos sin precedentes en la movilidad urbana, con la congestión del tráfico emergiendo como un cuello de botella crítico que afecta la productividad económica, la calidad ambiental y la seguridad pública (1,2). Los sistemas de transporte inteligentes (ITS) se han convertido en la piedra angular de las iniciativas modernas de ciudades inteligentes, aprovechando tecnologías avanzadas de información y comunicación para monitorear, analizar y gestionar redes de tráfico complejas (3,4). En el corazón de ITS se encuentra la tarea de predecir el flujo de tráfico de manera precisa y confiable, lo que proporciona los datos fundamentales para una infinidad de aplicaciones, incluido el control dinámico de señales de tráfico (5), mitigación proactiva de la congestión (6) y guía de ruta inteligente (7). Al anticipar los estados futuros del tráfico, las autoridades de transporte pueden optimizar la eficiencia de la red, reducir los tiempos de viaje y mejorar la seguridad vial general, haciendo que la predicción del flujo de tráfico sea un área de búsqueda de suma importancia (8).
A pesar de estos avances, lograr una predicción del flujo de tráfico de alta precisión es una tarea inherentemente desafiante debido a la naturaleza compleja y dinámica de los datos de tráfico. Es necesario abordar varios desafíos técnicos fundamentales. En primer lugar, el flujo de tráfico exhibe intrincadas dependencias espacio-temporales (9). El estado del tráfico en un lugar específico no sólo está determinado por sus propios patrones históricos (dependencia temporal), sino que también está fuertemente influenciado por las condiciones de los segmentos de carretera aguas arriba, aguas abajo e incluso funcionalmente similares pero geográficamente distantes (dependencia espacial).10). En segundo lugar, los sistemas de tráfico se caracterizan por una alta no linealidad y dinámica, frecuentemente afectados por eventos no recurrentes como accidentes de tráfico, condiciones climáticas extremas y días festivos, que pueden causar cambios abruptos en los patrones de flujo (11). En tercer lugar, los datos de tráfico están integrados con múltiples patrones periódicos, como las horas pico diarias y las variaciones semanales entre los días laborables y los fines de semana, que son cruciales para los pronósticos a largo plazo (12).
Para abordar estos desafíos, los métodos han evolucionado desde modelos estadísticos hasta el aprendizaje profundo. Los primeros enfoques, incluidos modelos estadísticos como ARIMA y métodos de aprendizaje automático como Support Vector Regression (SVR), a menudo tienen dificultades para capturar las complejas relaciones no lineales inherentes a los datos de tráfico (2). En los últimos años, los modelos de aprendizaje profundo se han convertido en el paradigma dominante. Los métodos basados en redes neuronales recurrentes (RNN), como la memoria larga y a corto plazo (LSTM), sobresalen en el modelado de secuencias temporales, pero a menudo no logran capturar de manera efectiva dependencias de largo alcance y correlaciones espaciales complejas (13,14). Las redes neuronales convolucionales (CNN) capturan características espaciales locales pero están limitadas por campos receptivos fijos, lo que dificulta su adaptabilidad a redes de carreteras no euclidianas (15). Las redes convolucionales gráficas (GCN) se han mostrado muy prometedoras al modelar explícitamente la estructura topológica de las redes de carreteras (16). Sin embargo, su rendimiento depende en gran medida de una matriz de adyacencia predefinida, a menudo estática, que puede no capturar la naturaleza dinámica y variable en el tiempo de las dependencias espaciales en el tráfico del mundo real (17,18).
Más recientemente, los modelos basados en Transformer han demostrado un éxito notable en la captura de dependencias de largo alcance en datos secuenciales (19). Sin embargo, los Transformers estándar, cuando se aplican directamente a la previsión del tráfico, pueden pasar por alto el contexto local y la naturaleza secuencial de los datos de series temporales. Además, su complejidad computacional cuadrática con respecto a la longitud de la secuencia sigue siendo un desafío importante para las tareas de predicción a largo plazo (20). Esto ha estimulado la investigación sobre variantes de Transformer más eficientes y especializadas; sin embargo, una solución integral que integre de manera efectiva características de tráfico multifacéticas sin depender de una estructura gráfica predefinida sigue siendo un desafío abierto.
Para abordar las limitaciones antes mencionadas, proponemos un marco novedoso, el iTransformer con características mejoradas (FE-iTransformer). Nuestro enfoque se basa en una filosofía de dos etapas de “extraer y mejorar”. En primer lugar, un módulo de mejora de funciones (FEM) sin gráficos destila un vector de contexto global a partir de datos espaciotemporales, periódicos y temporales. Este vector luego enriquece la secuencia de entrada mediante un mecanismo por paso. Finalmente, una columna vertebral de iTransformer procesa la secuencia mejorada para realizar pronósticos. Este diseño desacopla efectivamente la extracción de características complejas del modelado de dependencia de largo alcance.
Las principales contribuciones de este artículo se resumen a continuación:
- Proponemos un novedoso marco de dos etapas, llamado Feature-Enhanced iTransformer (FE-iTransformer), para el pronóstico del flujo de tráfico de alta precisión, que desacopla la tarea compleja en distintas etapas de mejora de características y predicción mejorada.
- Diseñamos un módulo de mejora de funciones (FEM) integral que captura de manera efectiva características de tráfico multifacéticas mediante el modelado simultáneo de dinámicas espacio-temporales, patrones periódicos y contexto temporal sin depender de una estructura gráfica predefinida.
- Introducimos un innovador mecanismo de mejora de características por paso que aprovecha el vector de contexto global destilado por el FEM para enriquecer la secuencia de entrada original, mejorando significativamente el rendimiento del modelo, especialmente en escenarios de pronóstico a largo plazo.
- Amplios experimentos demuestran la eficacia y solidez de nuestro enfoque. Los estudios de ablación en profundidad en nuestros conjuntos de datos primarios (Freeway y Urban) validan rigurosamente la eficacia de cada componente de nuestro diseño, mientras que los experimentos complementarios en el punto de referencia PEMS08 a gran escala confirman el rendimiento superior y la escalabilidad del marco en un entorno de pronóstico desafiante del mundo real.
Este trabajo se centra en entornos previos sin gráficos o con gráficos débiles que surgen con frecuencia en la práctica. Por lo tanto, estudiamos un proceso de dos etapas sin gráficos en el que se extrae e inyecta el contexto temporal de múltiples fuentes antes de la atención variable. No afirmamos superioridad sobre los modelos de gráficos anteriores en condiciones ricas en gráficos; más bien, proporcionamos una alternativa lista para la implementación cuando construir o mantener una adyacencia confiable es costoso o poco práctico. De acuerdo con este alcance, nuestras comparaciones empíricas se centran en líneas de base no gráficas (familias lineales, recurrentes y transformadoras). La eficacia se demuestra mediante comparaciones verticales con la columna vertebral de iTransformer y comparaciones horizontales con líneas de base representativas sin gráficos, con énfasis en configuraciones de horizonte largo (hasta 120 minutos). Los resultados complementarios de PEMS08 corroboran la escalabilidad.
El resto de este documento está organizado de la siguiente manera. La sección 2 revisa el trabajo relacionado. La sección 3 detalla la metodología de nuestro modelo propuesto. La sección 4 presenta los resultados experimentales y el análisis. Finalmente, la Sección 5 concluye el artículo.
2. Trabajo relacionado
Las metodologías para la predicción del flujo de tráfico han evolucionado sustancialmente, pasando de modelos estadísticos clásicos a complejos marcos de aprendizaje profundo que pueden navegar mejor en la intrincada dinámica de los sistemas de transporte modernos.2,21). Los primeros enfoques estuvieron dominados por métodos estadísticos como la media móvil integrada autorregresiva (ARIMA), que modela series temporales basándose en sus patrones históricos (22) y técnicas de aprendizaje automático como la regresión de vectores de soporte (SVR), que aprovecha los métodos del kernel para manejar no linealidades (23). Si bien son fundamentales, estos modelos a menudo tienen dificultades para capturar las dependencias espacio-temporales altamente complejas y no lineales inherentes a los datos de tráfico sin una extensa ingeniería manual de funciones (24).
El auge del aprendizaje profundo introdujo una nueva era para la previsión del tráfico. Redes neuronales recurrentes (RNN) y sus variantes avanzadas, en particular la red de memoria a corto plazo (LSTM) introducida por Hochreiter & Schmidhuber (25), se convirtieron en las principales herramientas para modelar secuencias temporales. Su capacidad para capturar dependencias a largo plazo los convirtió en una opción popular en varios marcos híbridos, como el trabajo de Wang et al.(14), que combinó LSTM con redes neuronales bayesianas para la cuantificación de la incertidumbre. Sin embargo, una limitación fundamental de los RNN es su incapacidad inherente para modelar directamente las relaciones espaciales. Para abordar esto, los investigadores comenzaron a incorporar redes neuronales convolucionales (CNN). Por ejemplo, Zhang et al.(26) demostró un enfoque basado en CNN que trataba los datos espacio-temporales como una matriz 2D. Si bien son efectivos para extraer patrones espaciales locales, los campos receptivos fijos de las CNN limitan su capacidad para modelar la topología no euclidiana de las redes de carreteras y las correlaciones espaciales dinámicas de largo alcance, un desafío que los modelos híbridos recientes como el CCNN de Liu et al.27) y el transformador convolucional de Sattarzadeh et al.(28) pretenden resolver combinando CNN con arquitecturas Transformer. Más allá de estas arquitecturas establecidas, los avances recientes han introducido paradigmas novedosos para abordar la escasez de datos y la complejidad del modelado. Por ejemplo, las redes generativas adversarias (29) y modelos de difusión (30), junto con simulaciones de fusión virtual-real (31), se han empleado eficazmente para abordar la escasez de datos y sintetizar representaciones de alta fidelidad. Además, arquitecturas emergentes como Kolmogorov-Arnold Networks (32) han demostrado una capacidad superior para capturar dinámicas no lineales complejas en comparación con los MLP tradicionales.
Para modelar explícitamente la estructura gráfica de las redes de carreteras, Graph Neural Networks (GNN) surgió como una tecnología histórica. El trabajo fundamental de Yu et al.(33) en redes convolucionales de gráficos espacio-temporales (STGCN) proporcionó un marco poderoso para capturar simultáneamente características espaciales y temporales. Sobre esta base, el campo ha avanzado rápidamente. Chen y otros (16) incorporaron mecanismos de atención en GCN dinámicos para mejorar la predicción de la velocidad del tráfico, mientras que Mu et al.(9) desarrollaron una GNN jerárquica para capturar la semántica espacio-temporal de múltiples escalas. De manera similar, Ji et al.(10) propusieron un marco híbrido que combina convoluciones separables en profundidad con GNN para una extracción eficiente de características a múltiples escalas. A pesar de su éxito, un desafío fundamental para la mayoría de los modelos basados en GNN…





