Resumen
En el dominio de la imagen de detección de teledetección, la detección de objetivos pequeños, los desafíos como las dificultades para extraer características de pequeños objetivos, fondos complejos que conducen fácilmente a la confusión con los objetivos y la alta complejidad computacional con un consumo significativo de recursos prevalecen. Proponemos un algoritmo liviano de detección de objetivos pequeños para imágenes de detección remota que combina GSCONV y PCONV, llamada Li-Yolov8. Usando Yolov8n como algoritmo de referencia, la función de activación Silu en el CBS en el SPPF de la red de la red troncal se reemplaza con RELU, lo que reduce las interdependencias entre los parámetros. Luego, RFACONV está integrado después del primer CBS para expandir el campo receptivo y extraer más características de objetivos pequeños. Un mecanismo eficiente de atención múltiple (EMA) está integrado en el terminal de C2F dentro de la red de cuello para integrar información más detallada, mejorando el enfoque en objetivos pequeños. La red de cabezal incorpora un cabezal de detección ligero, GP Detect, que combina GSCONV y PCONV para disminuir el recuento de parámetros y la demanda computacional. Integrando Inner-Iou y Wise-Iou V3 para diseñar la función de pérdida IOU interna, reemplazando la función de pérdida de CIOU original. Este enfoque proporciona al algoritmo una estrategia de distribución de ganancias, se centra en cajas de anclaje de calidad ordinaria y fortalece la capacidad de generalización. Realizamos experimentos comparativos y de ablación en los conjuntos de datos públicos RSOD y NWPU VHR-10. En comparación con Yolov8, nuestro enfoque logró mejoras de 7.6% y 2.8% en [email protected], y aumentos de 2.1% y 1.1% en [email protected]: 0.95. Además, los parámetros y GFLOP se redujeron en 10.0% y 23.2%, respectivamente, lo que indica una mejora significativa en la precisión de detección junto con una disminución sustancial en los parámetros y los costos computacionales. Los experimentos de generalización se realizaron en los conjuntos de datos TinyPerson, Levir-Ship, Brain-tumor y Smoke_fire_1. La métrica [email protected] mejoró en 2.6%, 5.3%, 2.6%y 2.3%, respectivamente, demostrando el rendimiento robusto del algoritmo.
Introducción
Las imágenes de teledetección se investigan y se aplican ampliamente en varios campos, incluido el monitoreo y protección ambiental, la planificación y la gestión urbana y la predicción del rendimiento de los cultivos. Sin embargo, la detección de objetivos pequeños dentro de las imágenes de detección remota presenta varios desafíos, como dificultades en la extracción de características, fondos complejos que pueden confundirse fácilmente con objetivos, desviaciones significativas en las cajas limitadas predichas y requisitos de precisión estrictos, todos los cuales obstaculizan la detección precisa. Con el avance de la fabricación inteligente en China, los métodos de detección de objetos basados en el aprendizaje profundo han ganado una prominencia creciente. Algoritmos de detección de una sola etapa, ejemplificados por el detector multibox de disparo único (SSD ((1)) y solo miras una vez (yolo (2–6)) se han convertido en la corriente principal para la detección de objetivos pequeños en imágenes de detección remota debido a sus ventajas en la velocidad de detección, recuentos de parámetros más bajos y altas tasas de reconocimiento.
En 2022, Zhang et al. (7) incorporó el módulo de atención del cuello de botella (BAM (8)) en yolov5, mejorando el enfoque en la información de objetivos pequeños dentro de los mapas de características poco profundas. Este enfoque demostró una efectividad significativa en la detección de objetos a pequeña escala, pero no pudo controlar el aumento resultante en el número de parámetros. Del mismo modo, Luo et al. (9) integró un módulo de fusión de características espaciales adaptativas en la red de cuello de Yolov4, capturando efectivamente información global sobre objetivos pequeños; Sin embargo, esto requirió una capacidad sustancial de almacenamiento de hardware. En 2023, Zhao et al. (10) utilizaron yolov7 como algoritmo de referencia, incorporando un pequeño cabezal de detección de objetivos y mecanismos de atención para mejorar el rendimiento de detección de pequeños objetivos en superficies de agua, aunque con una mayor complejidad del modelo. Zhang et al. (11) desarrollaron un módulo DSC-SS compacto que fusiona una convolución separable profunda con atención SE, reduciendo el volumen de parámetros del modelo de defecto aislante, pero se queda corto en la extracción de objetivos pequeños. Xie et al. (12) desarrollaron un módulo de extracción de características livianas, CSPARTIALSTAGE, que se introdujo en YOLOV7 para reducir los cálculos redundantes sin comprometer la precisión de la detección de objetivos pequeños en imágenes de detección remota; Sin embargo, la carga computacional se mantuvo significativa. En 2024, Cheng et al. (13) introdujo una convolución dinámica omni-dimensional (ODCONV (14)) y un mecanismo de atención global para suprimir expresiones de características redundantes e insignificantes; Sin embargo, estas técnicas carecían de adaptabilidad en múltiples escenarios. Finalmente, estos métodos suprimen las expresiones de características redundantes e insignificantes; Sin embargo, carecen de adaptabilidad en múltiples escenarios. Zhu et al. (15) Integró un innovador módulo de canal parcial de convolución espacial ligera de la pirámide espacial (LSPHDCCSPC) en la red troncal Yolov7, que refuerza la capacidad de extraer características de pequeños objetivos; Sin embargo, esta integración ha llevado a una disminución en la precisión de detección y reconocimiento de estos objetivos.
En resumen, a pesar de los avances significativos en la investigación y la aplicación de la pequeña detección de objetivos en imágenes de detección remota, persisten varios desafíos. Estos desafíos incluyen un enfoque inadecuado en objetivos pequeños, alta complejidad algorítmica, mayores tasas de detecciones perdidas o falsas y capacidades de generalización limitadas. Para abordar estos problemas, este documento propone un algoritmo liviano de detección de objetivos pequeños para imágenes de detección remota que integra GSCONV y PCONV dentro del marco YOLOV8N. Las principales contribuciones de este estudio son las siguientes:
- En el módulo Fast (SPPF) de agrupación de pirámides espaciales (SPPF) de la red backbone, la función de activación de Silu dentro de la capa CBS se reemplaza con RELU para reducir las interdependencias de los parámetros. Además, RFACONV se integra después de la primera capa de CBS para mejorar el enfoque en las áreas de muestra, mejorando así el rendimiento de reconocimiento de objetivos pequeños.
- Un eficiente mecanismo de atención a múltiples escala (EMA) está integrado en la terminal de C2F dentro de la red del cuello para capturar información más detallada, mejorando el enfoque en las características de las pequeñas áreas objetivo.
- El cabezal de detección original se reemplaza con Detect GP, un cabezal de detección ligero diseñado combinando GSCONV y PCONV, reduciendo los parámetros y la carga computacional.
- La función de pérdida de ajuste de borde del algoritmo se optimiza mediante el reemplazo de CIOU con la función de pérdida de IOU interna, que se diseña integrando Inner-IoU y Wise-Iou V3. Este enfoque se centra en las cajas de anclaje de calidad ordinaria a través de una estrategia de asignación de ganancia, mejorando así la capacidad de generalización del algoritmo.
Fundamentos del modelo Yolov8
YOLOV8 representa una iteración optimizada y mejorada de Yolov5, que integran tecnologías avanzadas como la arquitectura de red Pyramid Pyramid (PA-FPN), un diseño sin anclaje y una cabeza desacoplada. Está disponible en cinco variantes: N, S, M, L y X, cada una con tamaños y recuentos de parámetros aumentados progresivamente. Yolov8 comprende tres componentes principales: columna vertebral, cuello y cabeza, como se ilustra en Fig. 1.
La red de backbone comprende tres módulos: CBS, C2F y SPPF (16). El módulo CBS extrae características de imagen inicial, mientras que C2F captura características a escamas de (S1),
(S2), y
(S3) Píxeles, proporcionando así información semántica de alto nivel en diferentes escalas. El módulo SPPF extiende el campo receptivo para integrar las características múltiples. Sin embargo, la función de activación de la capa de convolución en SPPF incurre en una alta complejidad computacional, y el número de pequeños puntos de características de objetivos capturados es limitado, lo que hace que el modelo sea susceptible a las detecciones perdidas de objetivos pequeños.
La red de cuello comprende la red Pyramid de funciones (FPN (17)) y la red de agregación de ruta (PAN (18)). El FPN transfiere características semánticas profundas hacia abajo, mientras que el PAN propaga la información de localización hacia arriba. Esta red de cuello integra efectivamente las características en diferentes niveles, facilitando el aprendizaje de múltiples escala que enriquece la información semántica de las características contextuales y mejora las capacidades de percepción del objetivo. Durante la etapa de fusión de características de la red del cuello, cada píxel en la imagen sufre múltiples compresiones y concatenaciones a través de operaciones CBS y concat. Sin embargo, durante la extracción de características C2F, la atención insuficiente a las áreas de características de pequeños objetivos puede conducir a la pérdida de información detallada.
El cabezal de detección emplea principalmente una configuración de cabeza desacoplada, que segrega la regresión y las tareas de clasificación. La pérdida focal de varianza (VFL) sirve como la función de pérdida de clasificación, equilibrando los pesos entre objetivos y fondos durante el entrenamiento de la detección de objetivos pequeños, mejorando así las probabilidades de clase de objetos predichos. Pérdida focal de distribución (DFL), cuando se combina con una intersección completa sobre la unión (Ciou (19)) como una función de pérdida de regresión, se enfoca rápidamente en las regiones proximales al objetivo para obtener información precisa de la posición del cuadro limitado. Sin embargo, el cabezal de detección contiene redundancias convolucionales, con su número de parámetros y costos computacionales que representan aproximadamente el 25% de los parámetros totales en yolov8n. Esto da como resultado una carga computacional significativa al detectar pequeños objetivos.
Métodos
Implementación del algoritmo
La estructura y los principios de trabajo de Li-yolov8 se muestran en Fig. 2. SPPF-R denota el módulo de agrupación de pirámide espacial refinado, utilizado para aumentar la extracción de características de objetos pequeños. El C2F-E significa el módulo C2F actualizado, destinado a elevar el enfoque en objetos pequeños. Por último, GP Detect se refiere a la cabeza de detección mejorada, diseñada para disminuir la complejidad de la red.
SPPF-R mejora la extracción de características
SPPF procesa el mapa de características de entrada a través de CBS para capturar características preliminares. Dado el pequeño tamaño de píxeles de los objetivos dentro del área de campo receptivo, la característica inicial HboxExtracción no es integral. Para mejorar esto, la función de activación Silu en CBS en SPPF se reemplaza por RELU, lo que resulta en CBR. Además, RFACONV está integrado en el primer CBR para reforzar el enfoque en la información de características de varios objetivos dentro del campo receptivo, mejorando así la extracción de características. Después de la mejora, SPPF se denota como SPPF-R. Los procesos de mejora para CBR y SPPF-R se muestran en Figs 3 y 4.
Para un mapa de funciones de entrada de tamaño Rfaconv (20) Primero emplea la agrupación promedio (AVGPOOL) para agregar características globales en cada campo receptivo. Luego utiliza tres paralelos 1
1 Grupo Convoluciones (Conv) para extraer e interactuar rápidamente con las características. Esto es seguido por una función Softmax, que enfatiza la importancia de cada característica dentro del campo receptivo, generando así mapas de atención con las dimensiones del canal de
. Posteriormente, el mapa de la función de entrada sufre un 3
3 Convolución grupal para capturar información espacial dentro del campo receptivo. Este proceso extrae e interactúa con información de características, lo que resulta en un mapa de características espaciales de campo receptivo de dimensiones
. El mapa de atención y el campo receptivo …