Métodos Estadísticos Para Evaluar el Error de la Medición (Fiabilidad) en las Variables Relevantes Para la Medicina Deportiva (I)

Statistical Methods for Assessing Measurement Error (Reliability) in Variables Relevant to Sports Medicine (I)

Greg Atkinson y Alan M. Nevill

Instituto de Investigación para el Deporte y Ciencias de la Actividad Física, Universidad John Moore de Liverpool (Reino Unido)

Artículo publicado en el journal Revista de Entrenamiento Deportivo, Volumen 26, Número 2 del año .

Resumen

El error mínimo de la medición (fiabilidad) durante la recogida de datos es extremadamente importante para la investigación de la medicina deportiva. Los principales componentes del error de la medición son la predisposición sistemática (ej., aprendizaje general o efectos de la fatiga en las pruebas) y el error aleatorio debido a la variación biológica o mecánica. Ambos componentes del error serían significativamente cuantificados por el médico deportivo para relacionar el error descrito con los juicios sobre los “objetivos analíticos” (los requisitos del instrumento de medición para el uso práctico efectivo) en vez del significado estadístico de los indicadores de la fiabilidad. Los métodos basados en los coeficientes de correlación y en la regresión proporcionan una indicación de la “fiabilidad relativa”. Dado que estos métodos están muy influidos por el rango de valores medidos, los investigadores deberían ser cautos al: (I) determinar la fiabilidad relativa aceptable, incluso si una correlación es mayor que 0.9; (II) extrapolar los resultados de una correlación test-retest a una nueva muestra de individuos implicados en un experimento; y (III) comparar las correlaciones test-retest entre diferentes estudios de la fiabilidad.

Palabras clave: Investigación, estadística, fiabilidad, medicina, deporte

Abstract

Minimal measurement error (reliability) during the collection of data is critically important to sports medicine research. The main components of measurement error are systematic bias (e.g. general learning or fatigue effects on the tests) and random error due to biological or mechanical variation. Both error components should be meaningfully quantified for the sports physician to relate the described error to judgements regarding ‘analytical goals’ (the requirements of the measurement tool for effective practical use) rather than the statistical significance of any reliability indicators. Methods based on correlation coefficients and regression provide an indication of ‘relative reliability’. Since these methods are highly influenced by the range of measured values, researchers should be cautious in: (I) concluding acceptable relative reliability even if a correlation is above 0.9; (II) extrapolating the results of a test-retest correlation to a new sample of individuals involved in an experiment; and (III) comparing test-retest correlations between different reliability studies.

Keywords: research, statistics, reliability, medicine, sport

INTRODUCCIÓN

Es extremadamente importante asegurar que las mediciones hechas como parte de la investigación o del trabajo de apoyo del atleta en la medicina deportiva son adecuadamente fiables y válidas. La dependencia del médico deportivo de las mediciones adecuadas se mencionó recientemente en revistas sobre las subdisciplinas de la medicina deportiva de las investigaciones biomecánica, fisiológica y psicológica (13). Esta naturaleza multidisciplinaria de la medicina deportiva significa que los investigadores recogen una variedad de tipos diferentes de datos. No obstante, las mediciones más comunes en la medicina deportiva son continuas y en una escala de intervalo o proporción. Por ejemplo, la temperatura corporal medida en grados Celsius o la flexibilidad del cuerpo entero medida en centímetros por encima o por debajo de la posición de los pies al levantarlos del suelo teóricamente no están limitadas por el cero y por tanto se consideran datos en intervalos (4). Por otra parte, es imposible obtener valores de la fuerza muscular o de la masa corporal por ejemplo, que están por debajo del cero. Tales variables debieran medirse en una escala de proporción (5). Ambos tipos de datos se consideran continuos, ya que los valores pueden expresarse, además de con números enteros, como cualquier número con decimales según la precisión del instrumento de medición (6).

Los instrumentos clínicos ortodoxos pueden tener suficiente fiabilidad para detectar las diferencias a menudo grandes en las mediciones de intervalo o de razón que existen entre pacientes sanos y enfermos. Los clínicos disponen ahora fórmulas para calcular, a partir de mediciones continuas, la probabilidad de este concepto de “clasificación discordante” entre los pacientes (7). No obstante, las medidas de laboratorio de la actuación humana necesitan ser bastante sensibles para distinguir entre las menores diferencias que existen entre atletas de élite y sub-élite (la habilidad para detectar cambios en la actuación, que pueden ser muy pequeños, aunque todavía significativos para la ejecución atlética). Para el trabajo de apoyo de la medicina deportiva, es deseable que un instrumento de medición sea bastante fiable para usarlo en los atletas individuales. Por ejemplo, un clínico necesita conocer si una mejora en la fuerza después de un programa de rehabilitación de una lesión es real o sólo se debe al error de la medición. Los investigadores en medicina deportiva necesitan conocer la infiuencia del error de la medición sobre la potencia estadística y la estimación del tamaño de la muestra para los experimentos. Una completa discusión de esta última cuestión está fuera del propósito de esta revisión aunque los lectores interesados pueden consultar a Bates y otros (8) y a Dufek y otros (9), que recientemente esbozaron la importancia de la fiabilidad de los datos sobre la potencia estadística (la habilidad para detectar diferencias reales entre las condiciones o grupos).

La cuestión de qué prueba estadística emplear para la cuantificación de la medición “correcta” se ha planteado recientemente en el boletín de la Asociación Británica de las Ciencias del Deporte y el Ejercicio (10) y en un Editorial de la Revista de la Ciencia Deportiva (11), así como en otras fuentes relacionadas con subdisciplinas de la ciencia del deporte y el ejercicio (1215). Atkinson (16) y Nevill (17) fomentaron el uso de los “límites de acuerdo del 95%” (16) para los análisis suplementarios efectuados en los estudios de medición. Esto generó mucha discusión entre los científicos deportivos mediante la comunicación personal con respecto a la elección de estadísticos para valorar la idoneidad de las mediciones. Esta revisión es un intento de comunicar estas discusiones formalmente.

1.DEFINICIÓN DE TÉRMINOS

Los estudios sobre las cuestiones de la medición abarcan todas las subdisciplinas de la medicina deportiva. Los temas más comunes implican la valoración de la fiabilidad y validez de un instrumento particular de medición. Generalmente, la validez es la habilidad del instrumento de medición para reflejar lo que está diseñado para medir. Este concepto no se trata detalladamente en la actual revisión (aparte de un tipo especial de validez llamado “comparación del método”, que se menciona en la discusión) principalmente por las diferentes interpretaciones y métodos de valorar la validez entre los investigadores. Discusiones detalladas de las cuestiones de la validez pueden encontrarse en el libro editado por Safrit y Wood (17).

La fiabilidad puede definirse como la consistencia de las mediciones, o de la actuación de un individuo, en una prueba; o “la ausencia del error de la medición” (17). De modo realista, alguna cantidad de error siempre está presente con las mediciones continuas. Por lo tanto, la fiabilidad podría ser considerada como la cantidad de error de la medición considerado aceptable para el uso práctico eficaz de un instrumento de medición. Lógicamente, es la fiabilidad la que sería verificada primero en un nuevo instrumento de medición, ya que nunca será válido si no es adecuadamente consistente con ningún valor indicado en mediciones repetidas. Los términos usados indistintamente con “fiabilidad”, en la literatura, son “repetitibilidad”, “reproducibilidad”, “consistencia”, “acuerdo”, “concordancia” y “estabilidad”.

Baurngarter (18) identificó dos tipos de fiabilidad: relativa y absoluta. La fiabilidad relativa es el grado con que los individuos mantienen su posición en una muestra con mediciones repetidas. Este tipo de fiabilidad normalmente se evalúa con algún tipo de coeficiente de correlación. La fiabilidad absoluta es el grado con que mediciones repetidas varían para los individuos. Este tipo de fiabilidad se valora bien en las verdaderas unidades de la medición, bien como una proporción de los valores medidos (proporción sin dimensión).

Baumgarter (18) también definió la fiabilidad en función de la fuente del error de la medición. Por ejemplo, la fiabilidad interna de la consistencia es la variabilidad entre ensayos repetidos en el plazo de un día. Los investigadores debieran ser cautos en la interpretación de este tipo de fiabilidad, ya que los resultados podrían estar inFIuidos por el sesgo sistemático debido a la variación circadiana en la actuación (19). La fiabilidad de la estabilidad se definía como la variabilidad diaria en las mediciones. Este es el tipo más común de análisis de la fiabilidad, aunque se enfatiza que las pruebas de realización de ejercicios pueden necesitar más de un día entre las mediciones repetidas para tener en cuenta la predisposición debida a la adecuada recuperación. La objetividad es el grado con que diferentes observadores concuerdan en las mediciones y a veces se denomina fiabilidad del evaluador (20). Este tipo de valoración de la fiabilidad es relevan te para las mediciones que pudieran ser administradas por diferentes clínicos a lo largo del tiempo.

Estas diferentes definiciones de la fiabilidad apenas infiuyen en la actual revisión, ya que todas se han analizado con similares métodos estadísticos en la literatura de la medicina deportiva. No obstante, un investigador puede estar interesado en examinar la relativa influencia de estos diferentes tipos de fiabilidad dentro del mismo estudio. La teoría de la generalizabilidad (la partición del error de la medición debido a diferentes fuentes) es apropiada para este tipo de análisis. Esta revisión considera uno de los estadísticos básicos (el error típico de la medición, SEM) para el error de la medición que ocurre para ser usado en la teoría de la generalizabilidad, aunque no abarca el verdadero concepto en sí. Los lectores interesados pueden consultar a Morrow (21) para una discusión más completa y a Roebroeck y otros (22) para un ejemplo del uso de la teoría en una aplicación de la medicina deportiva.

1.1 Predisposición sistemática y error aleatorio

Independientemente del tipo de fiabilidad valorada (consistencia interna, estabilidad, objetividad), existen dos componentes de la variabilidad asociadas con cada evaluación del error de la medición. Estos son la predisposición sistemática y el error aleatorio. La suma total de estos componentes de la variación se conoce como el error total (23).

La predisposición sistemática se refiere a una tendencia general para que las mediciones sean diferentes en una dirección particular (positiva o negativa) entre pruebas repetidas. Podría existir una tendencia para que un retest fuera superior a una prueba anterior debido a que estuviera presente un efecto del aprendizaje. Por ejemplo, Coldwells y otros (24) hallaron una predisposición debida a los efectos del aprendizaje para la medición de la fuerza de la espalda usando un dinamómetro portátil. La predisposición también puede deberse a que existe una recuperación insuficiente entre las pruebas. En este caso, un retest mostraría una puntuación “peor” que en una prueba previa. Puede ser que, después de numerosas pruebas repetidas, se patentice la predisposición sistemática debida a los efectos del entrenamiento (si la prueba es físicamente desafiante) o a los incrementos transitorios en la motivación. Por ejemplo, Hickey y otros (25) encontraron que la prueba final de algunas ejecuciones del ensayo temporal del pedaleo durante 16 Km. era significativamente mejor que las 3 pruebas anteriores medidas sobre una base semanal. Tal predisposición sería investigada si la prueba se administrara muchas veces como parte de un experimento y sería controlada intentando maximizar la motivación en todas las pruebas con individuos bien entrenados.

El otro componente de la variabilidad entre pruebas repetidas es el grado de error aleatorio. Grandes cantidades de diferencias aleatorias podrían surgir debido a la inherente variación biológica o mecánica, o inconsistencias en el protocolo de medición, ej. Sin controlar la postura de un modo firme durante las mediciones de la fuerza muscular (24). Aun cuando se pueden controlar tales fuentes de error como variación del protocolo, el componente del error aleatorio normalmente todavía es mayor que el debido a la predisposición. Desafortunadamente, el investigador puede hacer relativamente poco para reducir el error aleatorio una vez adquirida la herramienta de medición, especialmente si se debe totalmente a la variación mecánica (instrumento) inherente. Por lo tanto, un importante asunto aquí es que el investigador podría comparar magnitudes del error aleatorio entre diferentes piezas del equipo que miden la misma variable de modo que se adquiera el “mejor” instrumento de medición. Esto indica que, con cualquier estadístico del error de la medición elegido, los investigadores que estudian la fiabilidad de una herramienta de medición también estarían firmes en esta selección (o proporcionan varios análisis estadísticos para la comparación global con futuros investigadores).

1.2 Heterocedasticidad y homocedasticidad

Una cuestión que casi nunca se menciona en los estudios sobre la fiabilidad del deporte y el ejercicio es cómo se relaciona el error de la medición con la magnitud de la variable medida. Cuando aumenta la cantidad de error aleatorio a medida que se incrementan los valores medidos, se dice que los datos son heteroce dásticos. Los datos heterocedásticos también pueden mostrar desviaciones de una distribución normal (es decir, asimetría positiva) (6). Cuando no existe relación entre el error y el tamaño del valor medido, los datos se describen como homocedás ticos. Tales características de los datos influyen en el modo en que el error descrito se expresa y analiza eventualmente (26,27). Los errores homocedásticos pueden expresarse en las unidades reales de medición, pero los datos heterocedásticos se medirían en una escala de proporción (aunque esto puede interpretarse de vuelta en las unidades de medición, multiplicando y dividiendo un valor medido concreto por la proporción del error). Con los errores homocedásticos, a condición de que también se distribuyan normalmente, los datos directos pueden analizarse con los análisis paramétricos convencionales, pero los datos heterocedásticos deberían transformarse logarítmicamente antes del análisis o investigarse con un análisis basado en rangos.

Podrían existir implicaciones prácticas en la investigación de la presencia de errores heterocedásticos en las mediciones. La heterocedasticidad significa que los individuos con los máximos valores en una prueba particular también muestran la mayor cantidad de error de la medición (en las unidades de la medición). También es probable que estos individuos con elevadas puntuaciones muestren los menores cambios (en las unidades de la medición) en respuesta a una cierta intervención experimental (28). Por lo tanto, de acuerdo con las discusiones sobre el error de la medición y la potencia estadística mencionadas en la introducción, puede ser que sea particularmente difícil la detección de cambios pequeños aunque significativos en las variables relacionadas con la medicina deportiva medidas en una escala de proporción sea particularmente difícil con individuos que puntúan altamente en esas variables particulares.

2. ¿UN INSTRUMENTO DE MEDICIÓN PUEDE SER SIGNIFICATIVAMENTE FIABLE?

La filosofía estadística para valorar el acuerdo entre las mediciones puede considerarse diferente de la que rodea la comprobación de las hipótesis de la investigación (29,30). En efecto, la identificación (de) y adhesión a un único método estadístico (o la mención de varios métodos diferentes en un artículo sobre la fiabilidad) podría considerarse más importante para los asuntos de la medición que para las hipótesis a prueba. Existen diferentes métodos estadísticos que pueden ayudar a examinar una hipótesis particular. Por ejemplo, en un experimento multifactorial que implica las comparaciones de los cambios a lo largo del tiempo entre diferentes tratamientos, puede emplearse el análisis de estadísticos sumarios (31) o los modelos multifactoriales del análisis de varianza (ANOVA) (32) para comprobar las hipótesis. La consideración del error de la medición es un concepto diferente, ya que no necesariamente está preocupado por la comprobación de la hipótesis, sino por la correcta, significativa y firme cuantificación de la variabilidad entre diferentes métodos o pruebas repetidas. Conectado con esto, el investigador necesitaría llegar a la decisión final acerca de si un instrumento de medición es o no fiable (si el error de la medición es aceptable para su uso práctico).

3. OBJETIVOS ANALÍTICOS

El concepto citado sobre la valoración de la fiabilidad básicamente vincula al investigador que relaciona el error de la medición con los “objetivos analíticos” en vez del significado de las pruebas de la hipótesis. La consideración de los objetivos analíticos es rutinaria en el laboratorio de medicina (33,34) aunque parece haberse descuidado en la ciencia del deporte y el ejercicio.

Un modo de llegar a la aceptación de un cierto grado de error de la medición (alcanzando un objetivo analítico), ya mencionado, es calcular las implicaciones del error de la medición sobre la estimación del tamaño de la muestra o sobre las diferencias/cambios de los individuos. Los presentes autores sólo fueron capaces de localizar 3 estudios publicados sobre la fiabilidad relevante para la medicina/ciencia deportiva que han calculado la infiuencia del error de la medición descrito sobre la estimación del tamaño de la muestra para la investigación futura (3537). Hopkins (38) proporciona métodos, basados en las correlaciones test-retest, con los que los investigadores podrían realizar esta extrapolación del error de la medición a la estimación del tamaño de la muestra. El tamaño de la muestra también puede estimarse a partir de estadísticos de la fiabilidad absoluta como la desviación típica (SD) o las diferencias test-retest (6,39).

Los investigadores de la ciencia del deporte han reconocido, por lo menos, que un objetivo analítico no tendría que ser necesariamente el mismo que la aceptación del significado en una prueba de hipótesis (29). En la presente revisión, tratamos de subrayar cómo un “aceptable” nivel de error de la medición todavía pudiera aceptarse falsamente, cuando se emplean criterios estadísticos que aún no se basan en objetivos analíticos bien definidos (ej., correlaciones > 0.9, coeficientes de variación promedio de la muestra < 10%). Tales criterios son de uso corriente en las ciencias del deporte y el ejercicio.

4. MÉTODOS ESTADÍSTICOS PARA EVALUAR LA FIABILIDAD EN LA MEDICINA DEPORTIVA

La literatura de la ciencia deportiva ha propuesto muchas pruebas estadísticas para la evaluación de los problemas de medición. Esto se ilustra en la tabla 1, que menciona los diferentes métodos usados en los estudios sobre la “medición” presentados en la conferencia de 1996 del Colegio Americano de Medicina Deportiva. Se resalta que algunos de estos estudios eran trabajos de “comparación del método” (validez), aunque la mayoría investigaba los problemas de la fiabilidad. Puede observarse que los métodos más corrientes implican el uso de pruebas de hipótesis (pruebas t emparejadas, ANOVA) y/o coeficientes de correlación (el de Pearson, correlación intraclase). Otros métodos citados en la literatura comprenden el análisis de regresión, el coeficiente de variación (CV) o diversos métodos que calculan la “variación del porcentaje”. Un método poco mencionado en los estudios relevantes para las ciencias del deporte es la técnica de los “límites del acuerdo” esbozada por Bland y Altman en 1983 (1641) Y mejorada en años posteriores (4244). En las siguientes secciones de esta revisión, se considerará cada método estadístico para evaluar la fiabilidad usando, en la medida de lo posible, datos reales relevantes para la ciencia y la medicina deportiva.


Tabla I. Los diversos métodos estadísticos usados en los estudios de reproductibilidad y validez presentados en la XLIII Reunión del Colegio Americano de Medicina Deportiva (40)
a) Los estudios de validez así como las investigaciones de fiabilidad se incluyeron en esta búsqueda de la literatura. La crítica de los análisis estadísticos en la actual revisión no puede aplicarse necesariamente al examen de la validez.  
b) El 5.6% de todos los estudios presentados, 1256. ANOVA = análisis de varianza; CV = coeficiente de variación; ICC = correlación intraclase.

4.1 La prueba t emparejada para la detección de la predisposición sistemática

Esta prueba se usaría para comparar las medias de un test y retest, es decir si existe alguna predisposición estadísticamente significativa entre las pruebas. Aunque esto es útil, por supuesto no se emplearía sobre si mismo como una valoración de la fiabilidad, ya que el estadístico t no proporciona ninguna indicación de variación aleatoria entre las pruebas. Altman (30) y Bland & Altman (42) enfatizaron la cautela en la interpretación de una prueba t relacionada para valorar la fiabilidad, ya que la detección de una diferencia significativa depende realmente de la cantidad de variación aleatoria entre las pruebas.

Especialmente, debido a la naturaleza de la fórmula empleada para calcular el valor t, la predisposición sistemática significativa será menos probable de detectar si está acompañada por grandes cantidades de error aleatorio entre las pruebas. Por ejemplo, una prueba t emparejada se desempeñaba en los datos presenta dos en la tabla II para valorar la repetitibilidad de la prueba del paso “Fitech” para predecir el máximo consumo de oxígeno V02max). La predisposición sistemática media entre la semana 1 y la semana 2 de 1.5 ml/kg/min no era estadísticamente significativa (t29 = 1.22, p = 0.234), un hallazgo que algunos investigadores han usado en sí mismo (tabla I) para concluir que un instrumento tiene un error de la medición aceptable. Sin embargo, si uno examina los datos de participantes individuales, puede verse que existen diferencias entre las 2 semanas de hasta ± 16 ml/kg/min (el participante 23 registró 61 ml/kg/min en la primera prueba pero sólo 45 ml/kg/min en el retest).


Tabla II: Datos test-retest para la prueba del paso Fitech que predice el máximo consumo de oxígeno. Los datos se han ordenado para mostrar que una alta correlación no significa necesariamente que 105 individuos mantienen sus posiciones en una muestra después de repetidas mediciones (adecuada flexibibilidad relativa).
a) Datos obtenidos en una práctica de laboratorio en la Universidad John Moores de Liverpool. t = 1.22 (p = 0.234); r = 0.88 (p < 0.001); ICC = 0.88; ro = 0.78; CV de la muestra = 7.6% ; límites del acuerdo = -1.5± 12.9 ml/kg/min (0.97 x/ 0.29 como una razón).
CV = coeficiente de variación; ICC = correlación intraclase; r = correlación producto-momento de Pearson; ro =  correlación de la concordancia; SD = desviación típica; t = prueba estadística del test t. El posible efecto comprometedor de grandes cantidades de error aleatorio sobre los resultados de la prueba t emparejada además se ilustra aplicándolo a los hipotéticos datos en la tabla III [ver 2ª parte del artículo]. Con estos datos, se obtendría un valor t test retest de cero (p = 0.99), lo que podría interpretarse como fiabilidad excelente, aunque existen diferencias aleatorias muy grandes en los casos individuales. Con el uso de una prueba t per se, unas mediciones muy poco fiables (error aleatorio relativamente grande) llegarían a ser muy fiables (predisposición relativamente pequeña). Se observaría que la correlación testretest no puede ser, en todos los grupos de datos, un buen indicador de la cantidad de error aleatorio absoluto actual, que es la base del denominador en la ecuación de la prueba t emparejada (ver la discusión de los métodos de correlación más adelante).

El uso de una prueba t todavía puede recomendarse en un estudio de la medición que investiga un sencillo testretest, ya que detectará una gran predisposición sistemática (relacionada con el error aleatorio), y los términos en la fórmula para el valor t pueden usarse en el cálculo de las mediciones del error aleatorio (ej., los límites del acuerdo). No obstante, el investigador necesita complementar este análisis con la consideración de un objetivo analítico. Por ejemplo, la predisposición de 1.5 ml/kg/min para los datos en la tabla I representa casi el 3% del gran VO2max medio de la muestra. Esto parece poco en comparación con la cantidad de error aleatorio en estos datos (ver la sección 8). Además, un buen experimento se diseñaría para controlar tal predisposición (es decir, grupos/condiciones de control). No obstante, pudiera ser que la predisposición (probablemente debido a la familiarización en este caso) se redujera si se realizan y examinan más retests para la fiabilidad. Esto significa la utilización de los procedimientos del ANOVA.

4.2 El análisis de varianza para la detección de la predisposición sistemática

El ANOVA con medidas repetidas (preferiblemente con una corrección para la “esfericidad”) (32) se ha usado para comparar más de un retest con un test (32,45). Con apropiadas comparaciones a priori o post hoc (ej., pruebas de Tukey), puede usarse para valorar la predisposición sistemática entre pruebas. Sin embargo, el único uso del ANOVA se asocia exactamente con el mismo inconveniente que la prueba t emparejada ya que la detección de la predisposición sistemática está infiuida por la gran variación aleatoria (residual). De nuevo se observaría que un coeficiente de correlación (intraclase en el caso del ANOVA) no puede ser tan sensible un indicador de este error aleatorio como un examen del mismo error cuadrático medio residual en la tabla de resultados del ANOVA (el cálculo de un valor F para las diferencias entre las pruebas en un ANOVA de medidas repetidas incluye la variación debida a las pruebas y al error residual. La variación debida a los individuos está incluida en el cálculo de una correlación intraclase aunque es “separada” de una prueba de hipótesis con ANOVA de medidas repetidas; ver la sección 8).

Referencias

Cita en Rev Entren Deport

Greg Atkinson y Alan M. Nevill (2012). Métodos Estadísticos Para Evaluar el Error de la Medición (Fiabilidad) en las Variables Relevantes Para la Medicina Deportiva (I). Rev Entren Deport. 26 (2).
https://g-se.com/metodos-estadisticos-para-evaluar-el-error-de-la-medicion-fiabilidad-en-las-variables-relevantes-para-la-medicina-deportiva-i-1566-sa-U57cfb2722d9c2

COMPARTIR