Resumen
Antecedentes
Los datos de registros médicos electrónicos (EHR) casi en tiempo real ofrecen un potencial significativo para uso secundario en investigación, operaciones y atención clínica, pero aún persisten desafíos para garantizar la calidad y la estabilidad de los datos. Si bien estudios anteriores han evaluado conjuntos de datos retrospectivos de EHR, pocos han examinado sistemáticamente la integridad de los datos en tiempo real para prepararlos para la investigación.
Métodos
Desarrollamos un proceso de evaluación comparativa automatizado para evaluar la estabilidad y la integridad de los datos de EHR en tiempo real del almacén de datos clínicos de Yale New Haven Health, transformados en el modelo de datos común OMOP. Se analizaron veintinueve instantáneas semanales de la HCE recopiladas de julio a noviembre de 2024 y veintidós instantáneas diarias recopiladas de abril a mayo de 2025. Los puntos de referencia se centraron en (1) acciones clínicas como altas, eliminaciones y fusiones de pacientes; (2) cambios en variables demográficas (fecha de nacimiento, género, raza, etnia); y (3) estabilidad de la información de alta (tiempo y estado). Se utilizó un conjunto de datos sintéticos derivado de MIMIC-III para validar el código de evaluación comparativa antes de realizar análisis a gran escala.
Resultados
La evaluación comparativa reveló actualizaciones frecuentes debido a acciones clínicas y correcciones demográficas en instantáneas consecutivas. Los cambios demográficos se relacionaron con mayor frecuencia con la raza y el origen étnico, lo que resalta posibles inconsistencias en el flujo de trabajo y el ingreso de datos. El tiempo de alta y los valores de estado demostraron inestabilidad durante varios días después del encuentro, alcanzando típicamente un estado estable dentro de 4 a 7 días. Estos hallazgos indican que, si bien los datos de EHR casi en tiempo real brindan información valiosa, el momento de la estabilización de los datos es fundamental para un uso secundario preciso.
Conclusiones
Este estudio demuestra la viabilidad de la evaluación comparativa automatizada para evaluar la integridad de los datos de EHR en tiempo real e identificar cuándo dichos datos están listos para el análisis. Nuestros hallazgos resaltan los desafíos clave para el uso secundario de datos clínicos dinámicos y proporcionan un marco automatizado que se puede aplicar en todos los sistemas de salud para respaldar la investigación, la vigilancia y la preparación de ensayos clínicos de alta calidad.
Introducción
Los datos sanitarios casi en tiempo real tienen potencial para amplias aplicaciones más allá de las interacciones directas entre pacientes y médicos. El uso secundario de registros médicos electrónicos (EHR) y otros datos del mundo real (RWD), como datos de reclamos administrativos, registros de enfermedades y datos de salud personal recopilados a través de dispositivos médicos en el hogar o aplicaciones móviles, ha aumentado rápidamente (1–10). La adopción de análisis de datos clínicos casi en tiempo real puede ser beneficioso desde las perspectivas clínica, operativa y de investigación: brinda la posibilidad de reducir costos y duplicar procedimientos, permitir la detección temprana de condiciones de deterioro o de alto riesgo, disminuir el tiempo de espera de los pacientes y garantizar un tratamiento más personalizado para los pacientes que mejore los resultados.
Sin embargo, los datos administrativos de atención médica, como los datos de reclamaciones y los datos de mortalidad, generalmente experimentan retrasos de al menos 90 días a un año o más antes de volverse utilizables para el análisis en la investigación clínica (11). Además, estos datos pueden representar sólo una «instantánea» de los pacientes en lugar de una evaluación longitudinal sobre causa y efecto (6). La información extraída de la HCE tiene el potencial de proporcionar acceso casi en tiempo real a un conjunto de datos más completo que el que se puede proporcionar a partir de otras fuentes de datos del mundo real (12,13).
Aún así, existen desafíos notables en el uso de datos de EHR, que incluyen garantizar la calidad de los datos, la detección de sesgos, el acceso a los datos y la entrega de información (10,14–17) y captura de datos retrasada, incompleta y errónea causada por omisiones durante la documentación al momento de la prestación del servicio (13,18–24). El enfoque de diseño de EHR ha sido transaccional debido a su enfoque histórico en la facturación (25), y el uso principal en los flujos de trabajo de atención clínica diaria; El uso analítico de datos de HCE en tiempo real en la investigación clínica solo se considera un caso de uso secundario. Trabajos anteriores han propuesto que los métodos consistentes y estandarizados para describir, evaluar e informar los hallazgos de la calidad de los datos (DQ) podrían ayudar a los usuarios y consumidores de datos secundarios a comprender mejor el impacto potencial de la DQ en la reutilización de datos y la interpretación de los hallazgos. Kahn MG et al. (26,27) introdujo un marco de evaluación DQ de los datos de EHR de tres categorías: conformidad, integridad y plausibilidad: la conformidad se centra estrictamente en la concordancia de los valores con varias especificaciones técnicas, la integridad se centra en la ausencia de datos de una variable y la plausibilidad se centra en la razonabilidad o corrección de los datos. Sin embargo, la mayoría de los estudios realizaron una evaluación de DQ en conjuntos de datos retrospectivos de EHR (28–30), tratando los datos de HCE como entidades estáticas que requieren un control de calidad retrospectivo en lugar de sistemas dinámicos que requieren validación temporal. Para garantizar un análisis de alta calidad y caracterizar y comprender mejor las implicaciones del uso del sistema y los datos de HCE en tiempo real, se deben abordar tres brechas críticas: (1) ¿Qué tipo de información del paciente se ingresó y actualizó? (2) ¿Con qué frecuencia se actualizó la información? (3) ¿Cuándo y cómo fluiría la información actualizada a una plataforma computacional para su análisis? (4) ¿Cómo podemos identificar cuándo los datos de EHR casi en tiempo real han alcanzado un estado «estable» para su análisis? Dado que los datos de la HCE casi en tiempo real cambian constantemente durante los flujos de trabajo clínicos y se derivan de la agregación de datos, los datos de la HCE reflejan lo que se registró en los sistemas, pero es posible que no reflejen con precisión el estado de un paciente.
En este estudio, evaluamos la integridad de los datos de EHR en tiempo real, es decir, si los datos de EHR en tiempo real han alcanzado una etapa estabilizada y están listos para usarse para análisis adicionales, comparando múltiples instantáneas de los datos de EHR en tiempo real a lo largo de un período de tiempo definido. Nuestro objetivo era identificar los cambios y la coherencia de los datos de los pacientes de la HCE a lo largo del tiempo. Caracterizamos los datos de EHR para tres casos de uso: (1) Registro de pacientes duplicados (2) Información demográfica del paciente documentada incorrectamente (3) Información de alta documentada incorrectamente para encuentros dados de alta. Nuestros hallazgos resaltan la viabilidad de aplicar un proceso de evaluación comparativa automatizado para determinar cuándo los datos clínicos en tiempo real de EHR están listos para el análisis en varios casos de uso.
Métodos
Descripción general
Realizamos un estudio retrospectivo para evaluar la integridad de los datos de HCE en un entorno operativo en tiempo real comparando 22 extractos diarios consecutivos y 29 extractos semanales del almacén de datos clínicos de Yale New Haven Health (YNHH) (Epic Caboodle). Estas instantáneas diarias se transformaron continuamente en el modelo de datos común (CDM) de la Observational Medical Outcomes Partnership (OMOP) (31) utilizando la plataforma de salud computacional (CHP) YNHH, que mantiene un canal de datos actualizado diariamente con datos clínicos actuales (32). Como estudio de DQ basado en datos existentes y no identificados, este trabajo no se clasificó como investigación con sujetos humanos y no requirió la aprobación de la Junta de Revisión Institucional.
Fuentes de datos
Se utilizaron dos tipos de conjuntos de datos en el estudio. Uno era un conjunto de datos de prueba sintéticos diseñado para emular el comportamiento de los datos de EHR y validar el código de evaluación comparativa. El segundo conjunto fue el conjunto de datos de evaluación comparativa más amplio extraído del sistema de salud de YNHH.
Creamos nuestro conjunto de datos de prueba a partir de la base de datos Medical Information Mart for Intensive Care III versión 1.4 (MIMIC III v1.4) para el estudio. MIMIC-III es una base de datos de cuidados críticos de un solo centro disponible públicamente que contiene información de atención médica de 46,520 pacientes que fueron admitidos entre 2001 y 2012 en varias UCI del Centro Médico Beth Israel Deaconess en Boston, Massachusetts (33). Todas las tablas MIMIC se transformaron en OMOP CDM mediante el proceso Extract-Transform-Load (ETL) (34).
El conjunto de datos de evaluación comparativa contenía extracciones diarias y semanales del almacén de datos clínicos de YNHH transformado en OMOP CDM.
Análisis de datos y enfoques estadísticos.
Los conjuntos de datos de origen se almacenaron como archivos en formato parquet en el sistema de archivos distribuido Hadoop (HDFS) del clúster CHP Spark. La extracción y el análisis de datos se realizaron con scripts PySpark personalizados utilizando Apache Spark (v2.3.2) (35). Los resultados de las evaluaciones comparativas se almacenaron como archivos CSV en HDFS de CHP. Todos los guiones específicos del estudio fueron revisados por un científico de datos independiente.
Analizamos dos conjuntos distintos de instantáneas de EHR que diferían en la cobertura temporal y la frecuencia de muestreo. Primero, utilizamos 29 instantáneas semanales recopiladas entre el 30 de julio y el 13 de noviembre de 2024, que representaron la serie más completa y temporalmente continua disponible; Estas instantáneas se utilizaron para los análisis presentados en higos 3 y 4. Para evaluar si las tendencias observadas en 2024 eran consistentes más adelante en el año, analizamos adicionalmente 22 instantáneas diarias obtenidas entre el 12 de abril y el 3 de mayo de 2025. Para la serie diaria, la primera instantánea (12 de abril de 2025) sirvió como línea de base. Verificamos que la selección de la línea de base no influyó en los resultados al volver a ejecutar el código de evaluación comparativa utilizando fechas de referencia alternativas y observando resultados comparables. Los análisis que utilizan datos diarios (22 instantáneas consecutivas del 12 de abril al 3 de mayo de 2025) se informan en el Suplementario y se utilizaron para el análisis BM-3 para pacientes hospitalizados/ambulatorios, mientras que todos los demás análisis visualizados se basan en las instantáneas semanales de 2024. Se calcularon estadísticas resumidas, informándose la mediana y el rango intercuartil (IQR) de los recuentos de pacientes.
Se realizaron tres evaluaciones comparativas: (1) un análisis preespecificado de los cambios a nivel de base de datos en los registros de pacientes (denominados “acciones clínicas”) entre instantáneas consecutivas que incluyen adiciones, eliminaciones, fusiones y cambios demográficos de pacientes; (2) un análisis post hoc de actualizaciones de información demográfica específica entre pacientes con cambios, realizado para investigar los factores de inestabilidad demográfica identificados en BM-1; y (3) un análisis preespecificado del tiempo de estabilización para el tiempo y el estado del alta en los encuentros iniciales. El marco de evaluación comparativa se ilustra en Higo 1.
Para el Punto de referencia 1 (BM-1), evaluamos cinco categorías de acciones clínicas que ocurrieron entre dos instantáneas (ya sean instantáneas consecutivas o todas en comparación con la instantánea inicial). Estas acciones clínicas abarcan tanto cambios prospectivos (como pacientes recién agregados que ingresan al sistema de atención médica) como correcciones retrospectivas, incluidas actualizaciones de identificación de pacientes, registros duplicados fusionados y registros eliminados. Comparar estos cambios nos ayuda a comprender mejor la evolución de la población de pacientes fuente y los procesos de mejora de la calidad de los datos en nuestro conjunto de datos. Hemos utilizado la combinación de género, fecha de nacimiento, raza y origen étnico para identificar mejor al mismo paciente en dos instantáneas diferentes. Esto se basó en dos consideraciones: (1) La identificación del paciente no era confiable (2) La información demográfica individual podría actualizarse, pero la posibilidad de actualizar la combinación completa era comparativamente baja. Tras la observación de actualizaciones demográficas frecuentes en BM-1, realizamos un análisis post hoc, Punto de referencia 2 (BM-2), para evaluar más a fondo los cambios en la información demográfica, es decir, fecha de nacimiento, género, raza y origen étnico. Si bien esta información generalmente se considera consistente en los pacientes, los cambios frecuentes pueden indicar información ingresada incorrectamente o correcciones sistemáticas de datos. El punto de referencia 3 (BM-3) se centró en el ingreso de datos sobre el tiempo y el estado del alta, ya que la información debe recopilarse de manera consistente y correspondiente en el flujo de trabajo clínico, pero a menudo no es así.




