Métodos Estadísticos para Evaluar el Error de la Medición (Fiabilidad) en las Variables Relevantes para la Medicina Deportiva (II)

Statistical Methods for Assessing Measurement Error (Reliability) in Variables Relevant to Sports Medicine

Greg Atkinson y Alan M. Nevill

Instituto de Investigación para el Deporte y Ciencias de la Actividad Física, Universidad John Moore de Liverpool (Reino Unido)

Artículo publicado en el journal Revista de Entrenamiento Deportivo, Volumen 26, Número 3 del año .

Resumen

El error mínimo de la medición (fiabilidad) durante la recogida de datos es extremadamente importante para la investigación de la medicina deportiva. Los principales componentes del error de la medición son la predisposición sistemática (ej., aprendizaje general o efectos de la fatiga en las pruebas) y el error aleatorio debido a la variación biológica o mecánica. Ambos componentes del error serían significativamente cuantificados por el médico deportivo para relacionar el error descrito con los juicios sobre los “objetivos analíticos” (los requisitos del instrumento de medición para el uso práctico efectivo) en vez del significado estadístico de los indicadores de la fiabilidad. Los métodos basados en los coeficientes de correlación y en la regresión proporcionan una indicación de la “fiabilidad relativa”. Dado que estos métodos están muy influidos por el rango de valores medidos, los investigadores deberían ser cautos al: (i) determinar la fiabilidad relativa aceptable, incluso si una correlación es mayor que 0.9; (ii) extrapolar los resultados de una correlación test-retest a una nueva muestra de individuos implicados en un experimento; y (iii) comparar las correlaciones test-retest entre diferentes estudios de la fiabilidad.

Palabras clave: investigación, estadística, fiabilidad, medicina, deporte

Abstract

Minimal measurement error (reliability) during the collection of data is critically important to sports medicine research. The main components of measurement error are systematic bias (e.g. general learning or fatigue effects on the tests) and random error due to biological or mechanical variation. Both error components should be meaningfully quantified for the sports physician to relate the described error to judgements regarding ‘analytical goals’ (the requirements of the measurement tool for effective practical use) rather than the statistical significance of any reliability indicators. Methods based on correlation coefficients and regression provide an indication of ‘relative reliability’. Since these methods are highly influenced by the range of measured values, researchers should be cautious in: (i) concluding acceptable relative reliability even if a correlation is above 0.9; (ii) extrapolating the results of a test-retest correlation to a new sample of individuals involved in an experiment; and (iii) comparing test-retest correlations between different reliability studies.

Keywords: research, statistics, reliability, medicine, sport

INTRODUCCION

Al igual que con la prueba t, el ANOVA es útil para detectar grandes errores sistemáticos y el error cuadrático medio del ANOVA puede usarse en el cálculo de los indicadores de la fiabilidad absoluta (39,46). Un punto importante en el uso de una prueba de hipótesis para valorar el acuerdo, sea una prueba t emparejada o un ANOVA, es que si se detecta una predisposición sistemática significativa (o un ANOVA, es que si se detecta una predisposición sistemática significativa (o bastante grande para ser importante), un investigador necesitaría adaptar el protocolo de medición para eliminar el efecto del aprendizaje o de la fatiga en la prueba (ej., incluir más ensayos de familiarización o incrementar el tiempo entre mediciones repetidas, respectivamente). Entonces es preferible que el método se reevaluara para la fiabilidad (18). Un investigador intuitivo podría sospechar que una prueba mostrara alguna predisposición debido a la familiarización. Por lo tanto, se sigue que un estudio de la fiabilidad puede estar mejor planeado al tener múltiples retests. El investigador entonces no necesitaría “volver al tablero” sino simplemente examinar cuando la predisposición entre las pruebas se considera insignificante. El número de pruebas efectuadas antes de tomar esta decisión se sugeriría como sesiones de familiarización a un futuro investigador. Este concepto es discutido con mayor detalle por Baumgarter (18).

4.3. El coeficiente de correlación de Pearson

El coeficiente de correlación de Pearson ha sido la técnica más común para evaluar la fiabilidad. La idea es que si se obtiene un coeficiente de correlación elevado (> 0.8) y estadísticamente significativo, el material se considera suficientemente fiable (47). Baumgarter (18) señaló que los métodos de correlación realmente indican el grado de fiabilidad relativa. Esto se considera conceptualmente útil ya que un investigador podría, en teoría, decir cuán firmemente el instrumento de medición distingue entre los individuos de una población particular. Sin embargo, Bland & Altman (42) y Sale (48) consideraban inadecuado el uso del coeficiente de correlación, ya que, entre otras críticas, no puede, por sí mismo, valorar la predisposición sistemática y depende en gran parte del rango de valores en la muestra (49). Esta nota de cautela en el uso de los coeficientes de correlación test-retest es la más importante. Por ejemplo, ya hemos visto que existe una substancial variación aleatoria entre los datos individuales en la tabla II, pero si se ha usado la correlación para examinar esto, se concluiría que la prueba tiene una buena repetitibilidad (correlación test-retest de r = 0.60, p < 0.001). Observar que la muestra en la tabla II es muy variada en el máximo consumo de oxígeno (entre 28 y 77 ml/gr/min).


Tabla III. Datos hipotéticos de un estudio de validez que hace una comparación test-retest de la flexibilidad espinal. El uso exclusivo de una prueba t sobre estos datos proporcionará un valor t = 0 (p = 0.99), que puede llevar a algunos investigadores a suponer una buena fiabilidad cuando es evidente una amplia variación aleatoria.

En la tabla IV, los mismos datos de la tabla II han sido manipulados para disminuir la variación interindividual mientras conservan exactamente el mismo nivel de fiabilidad absoluta [indicada por la columna de las diferencias y por la desviación típica (SD) de estas diferencias]. Cuando se calcula la r de Pearson para estos datos, cae hasta 0.27 no-significativo (p > 0.05). Este fenómeno sugiere que los investigadores deberían ser extremadamente cautos en los 2 procedimientos comunes de: (i) extrapolar las correlaciones test-retest, consideradas aceptables para una nueva y posiblemente más homogénea muestra de individuos (ej., atletas de élite): y (ii) comparar los valores r test-retest entre diferentes estudios de fiabilidad (ej., Perrin (50). Para superar estas dificultades, existen métodos para corregir el coeficiente de correlación a pesar de la variabilidad interindividual (51). Conceptualmente, este procedimiento de corrección sería similar al uso de un indicador de la fiabilidad absoluta; estos estadísticos son relativamente sencillos por la heterogeneidad de la población (ver la sección 8).


Tabla IV: Los mismos datos que en la tabla II pero manipulados para ofrecer una muestra más heterogénea (indicada por las desviaciones típicas test-retest de la prueba (SDs) que son aproximadamente la mitad que en la tabla II). Los datos tienen exactamente el mismo grado de acuerdo (indicado por la columna de las diferencias) test-retest que los datos presentados en la tabla II a.
at = 1.22 (p = 0.234), r = 0.27 (p > 0.05), ICC = 0.43, rc = 0.28, CV de la muestra = 7.6%, límites del acuerdo = -1.5 ± 12.9 ml/kg/min (0.97 x/÷ 1.28 como una razón).
Observar que los resultados de los métodos de correlación son muy diferentes de los calculados sobre los datos de la tabla II.
CV = coeficiente de variación; ICC = correlación intraclase; r = correlación producto-momento de Pearson; rc = correlación de la concordancia; t = prueba estadística del test t.

5. LA CORRELACIÓN Y LA FIABILIDAD RELATIVA

Pese a las notas anteriores de cautela al comparar resultados de la correlación, podría argumentarse que un elevado coeficiente de correlación refleja la adecuada fiabilidad relativa para el uso del instrumento de medición en la particular población investigada. Esto parece sensato, ya que cuanto más homogénea es una población, el error de la medición menos necesitaría servir para detectar diferencias entre los individuos de esa población. Usando nuestros ejemplos, los coeficientes de correlación sugieren que la fiabilidad relativa es peor para los datos en la tabla IV que APRA los de la tabla II, ya que los primeros datos son más homogéneos y, por tanto, es más difícil detectar las diferencias entre los individuos para ese grado dado de error absoluto en la medición.

El uso de la correlación para valorar esta fiabilidad relativa específica de la población es bastante informativo aunque, desgraciadamente, también es dudosa, con ciertos conjuntos de datos, la habilidad de un elevado coeficiente de correlación para reflejar una consistencia adecuada de las posiciones del grupo en cualquier muestra. Por ejemplo, un investigador puede tener el “objetivo analítico” de que la prueba del VO2max (tabla II) puede usarse como una prueba de la actuación para atletas claramente ordenados en un grupo. El investigador puede seguir la convención y parecer que se ha cumplido este objetivo analítico, ya que se obtenía una correlación test-retest muy significativa de 0.80 (p < 0.001) (de hecho, sería extremadamente difícil) no obtener una correlación significativa en un estudio de la fiabilidad con el tipo de muestra que comúnmente se usa en los estudios sobre los problemas de la medición: hombres y mujeres, individuos de todas las edades con un amplio rango de habilidades de la actuación).

Si ahora se examinan, en la tabla II, los verdaderos rangos de la muestra basados en las 2 pruebas usando el instrumento de medición, puede verse que sólo 3 individuos mantenían sus posiciones en el grupo después del retest. Aunque el mantenimiento de la exacta misma jerarquía de individuos en una muestra puede ser un objetivo analítico algo estricto para un instrumento de medición en la medicina deportiva (aunque esto no se ha investigado), se observaría que 4 individuos en este conjunto de datos muy correlacionados realmente se movían más de 10 posiciones después de retest en comparación con la prueba original. A este respecto, un coeficiente de correlación basado en rangos (ej., el de Spearman) puede ser más informativo para la cuantificación y juicio de la “fiabilidad relativa”. Esto tendría el valor añadido de no hacer suposiciones sobre la forma de la distribución de los datos y estar menos afectado por observaciones anómalas en los datos (52).

Una correlación de rangos o una correlación sobre los datos anotados test-retest raramente se usa en los estudios de la fiabilidad. Esto es sorprendente dada la gran probabilidad de que la heterocedasticidad esté presente en los datos registrados en la escala de proporción (53). La presencia de tal característica en el error descrito significaría que un análisis de correlación convencional sobre los datos directos no es realmente adecuada (26). Detallando más este aspecto, un estudio de la fiabilidad que emplea tanto el análisis de correlación convencional sobre los datos directos no-transformados (que asume que la heterocedasticidad está presente) puede criticarse algo por mezclar “manzanas y naranjas” estadísticas.

5.1 Implicaciones de la pobre interpretación de las correlaciones test-retest

La disparidad anterior entre los resultados del análisis de correlación y la fiabilidad percibida significa que existen instrumentos de medición en la medicina deportiva que son fiables a partir del coeficiente de correlación, pero no realizarán, en el uso práctico, ciertos objetivos analíticos. Por ejemplo, la mayoría de instrumentos y protocolos para la medición de la fuerza muscular isocinética se han probado para la fiabilidad con métodos de correlación aplicados a los datos heterogéneos. La mayoría de estas correlaciones superan a 0.8 (50). Sólo recientemente, con la aparición de técnicas de análisis más apropiadas, está constándose que la repetitibilidad de estas mediciones es relativamente pobre en las velocidades isocinéticas más rápidas (54). Nevill y Atkinson (53) examinaron la fiabilidad de 23 instrumentos de medición comunes en la investigación de la ciencia del deporte y el ejercicio. El uso de una medida absoluta de fiabilidad (límites proporcionales del acuerdo) demostró que existían considerables diferencias en fiabilidad entre los instrumentos de medición.

Existen otras pruebas que apoyan la falta de sensibilidad de la correlación para valorar incluso la fiabilidad relativa; Bailey y otros (55) y Sarmandal y otros (56) evaluaron la fiabilidad de varias medidas clínicas. Las correlaciones test-retest varían entre 0.89 y 0.98, pero cuando una medida de la fiabilidad absoluta (límites del acuerdo) estaba relacionada con la variación interindividual, se cuestionaba la utilidad de los instrumentos de medición. Atkinson y otros (57) examinaron si el error de la medición de varias pruebas del rendimiento estaba influido por la hora en que se obtenían las mediciones. Las correlaciones test-retest eran constantemente muy altas a todas las horas del día. Sólo cuando se examinó un indicador absoluto de la fiabilidad se hizo evidente que el error aleatorio en la medición parecía ser mayor cuando se recogían los datos por la noche. Ottenbacher y Tomchek (15) también demostraron que el coeficiente de correlación no es bastante sensible para detectar la comparación del método inadecuado a partir de las diferencias interindividuales en una muestra. En un estudio de simulación de datos se encontró que una correlación inter-método sólo disminuía de 0.99 a 0.98 aunque la fiabilidad absoluta se alteraba hasta un grado mediante el cual afectaría a la deducción de las conclusiones a partir de las mediciones. Las implicaciones estadísticas de este estudio se aplicarían igualmente a la evaluación del error de la medición y de la fiabilidad relativa.

Es evidente que el concepto de “fiabilidad relativa” es útil y el análisis de correlación proporciona alguna indicación de esto. Interesantemente, en la química clínica, un criterio estadístico para la “fiabilidad relativa” no es un coeficiente de correlación elevado, sino la medición relacionada de la fiabilidad absoluta expresada como una cierta proporción de la variación interindividual (33, 34). Bailen y otros (55) y Sarmandal y otros (56) adoptaron un enfoque similar cuando relacionaron los límites del acuerdo entre 2 observadores con los gráficos del percentil poblacional (o las categorías cualitativas). Adoptando esta postura, el último objetivo analítico para la fiabilidad relativa sería que el error de la medición es menor que la diferencia entre las diferencias individuales o los centiles poblacionales relacionados con el objetivo analítico. Se recomienda que los estadísticos que trabajan en las ciencias del deporte y el ejercicio aborden el problema de definir un grado aceptable de fiabilidad relativa para el uso práctico de un instrumento de medición junto con una investigación del estadístico más sensible para la valoración de la fiabilidad relativa. Sugerimos el empleo de simulaciones analíticas aplicadas a los conjuntos de datos de la fiabilidad (15) para realizar estos fines.

Es posible relacionar las correlaciones test-retest con los objetivos analíticos en cuanto a los adecuados tamaños de la muestra para los experimentos (38, 58). Interesantemente, para la estimación de los tamaños de la muestra en experimentos con mediciones repetidas, la correlación se convertiría, matemáticamente, en un estadístico de fiabilidad absoluta. Bland (39) demostró como la SD de las diferencias o error residual (mediciones de fiabilidad absoluta) podría obtenerse de un coeficiente de correlación test-retest para estimar el tamaño de la muestra. Es el error residual, no el coeficiente de correlación, el que es el denominador en las pruebas de hipótesis con “mediciones repetidas” y por tanto se usa en este tipo de estimación de la potencia estadística.

6. LA CORRELACIÓN INTRACLASE

Los métodos de la correlación intraclase (ICC) se han vuelto una elección popular de los estadísticos en los estudios de la fiabilidad, porque son los métodos aconsejados en los 2 libros de texto sobre la metodología de la investigación en la ciencia deportiva (32, 45) Los métodos más comunes de la ICC se basan en los términos usados en el cálculo del valor F desde el ANOVA con mediciones repetidas (18). Las principales ventajas de este estadístico sobre la correlación de Pearson se mantienen para que la ICC sea univariable en vez de bivariable y puede usarse cuando más de un retest se compara con un test (18). La ICC también puede calcularse de tal modo que sea sensible a la presencia de la predisposición sistemática en los datos (existe un argumento, discutido en la sección 7, junto a la única mención de tal indicador del “error total” que combina la predisposición y la variación aleatoria en un solo coeficiente). De hecho, existen al menos 6 modos de calcular una ICC, dando todos diferentes resultados (15,19). Eliasziw y otros (60) discutían la elección de una ICC apropiada. La implicación más importante de esto, como Krebs (61) subrayó y cómo se ha calculado una ICC en un estudio de la fiabilidad.

Cualquiera que sea el tipo de ICC calculado, se sugiere que, igual que la r de Pearson, una ICC próxima a 1 indica una fiabilidad “excelente”. Varias categorías del acuerdo basadas en la ICC, variando de “cuestionable” (0.7-0.8) a “alta” (> 0.9), son proporcionadas por Vincent (32). Los presentes autores eran incapaces de localizar cualquier referencia en la literatura de la ciencia del deporte y el ejercicio relacionado estos puntos “fragmentarios” de la ICC con los objetivos de confianza para una ICC dada como detallaron Morgan y Jackson (29). La ICC calculada (45) de 0.88 para los datos en la tabla II sugeriría una “buena” fiabilidad de las mediciones. Esto es especialmente cierto cuando ya se ha visto que son bastantes grandes las diferencias test-retest en algunos individuos y la fiabilidad relativa, examinando la estabilidad de los rangos de la muestra, podría ser insuficiente para algunos objetivos analíticos. Cuando se calcula la ICC sobre los datos menos heterogéneos en la tabla IV (el mismo grado de acuerdo que con los datos en la tabla II), cae hasta un muy pobre 0.43. Por lo tanto, es patente que la ICC es propensa a exactamente las mismas limitaciones que la r de Pearson, ya que incluye el término de varianza para los individuos y por tanto está afectada por la heterogeneidad de la muestra hasta tal grado que una correlación elevada todavía supone un inaceptable error de la medición para algunos objetivos analíticos (62, 63).

Myrer y otros (64) resaltaron con un ejemplo práctico las dificultades para interpretar las ICCs. Ottenbacher y Tomchechk (15) demostraron en las simulaciones de datos que una ICC nunca descendía por debajo de 0.94. Esto ocurría a pesar de los marcados cambios en el acuerdo absoluto entre 2 métodos de medición y mientras se controlaban las características del muestreo. Quan y Shih (65) mantenían que la ICC realmente sólo debería emplearse cuando una población fija de individuos pueda estar bien definida. Apoyamos la mención de la ICC en cualquier estudio sobre la fiabilidad pero creemos que no debería emplearse como el único estadístico y hace falta más trabajo para definir ICCs aceptables basadas en la realización de claros objetivos analíticos.

7. OTROS MÉTODOS BASADOS EN LA CORRELACIÓN

En un esfuerzo por rectificar un problema percibido con la correlación de Pearson (que no es sensible al desacuerdo entre métodos/pruebas debido a la predisposición sistemática). Lin (66) introdujo el “coeficiente de correlación de la concordancia” (rc), que es la correlación entre 2 lecturas que caen sobre la línea de los 45 grados a través del origen (la línea de identidad en un gráfico de dispersión). Nickerson (67) mantenía que este estadístico es exactamente el mismo que un tipo de ICC que ya usan los investigadores. Primero, este método de nuevo es sensible a la heterogeneidad de la muestra (68). El rc para los datos heterogéneos (pero con el mismo nivel de acuerdo) de la tabla IV. Segundo, aunque puede parecer conveniente tener una única medición del acuerdo (una que es sensible tanto a la predisposición como al error aleatorio), puede ser incómodo en términos prácticos cuando se menciona este “error total” con respecto a sí mismo, por tanto el lector del estudio de la fiabilidad se queda sorprendido si el protocolo de la medición necesita adaptarse a lo correcto para la predisposición o está asociado con grandes cantidades de variación aleatoria (68). Esta posibilidad de “super generalizar el error, también se aplica, tanto al tipo de ICC que incluye el error cuadrático medio inter-ensayos así como la media cuadrática residual, en sus cálculos, como al método de los límites del acuerdo si la predisposición y el error aleatorio no se mencionan por separados (ver la sección 8.3).

7.1. El análisis de regresión

Este es otro método común de análisis en los estudios del acuerdo aunque, al igual que las pruebas de hipótesis y los métodos de correlación, puede ser engañoso en algunas valoraciones de la fiabilidad (42, 66). Conceptualmente, no se trata de un pronosticador y una variable de respuesta, que es la filosofía tras la regresión. Además, la heterogeneidad de la muestra es, de nuevo, un posible problema para la extrapolación del análisis de la fiabilidad; R2 y el análisis de regresión para los datos en la tabla II son 0.64 y F = 49.01 (p < 0.0001), respectivamente, que por tanto indican una “buena” fiabilidad. Para los datos más homogéneos aunque igualmente aceptables (en función de la fiabilidad absoluta) de la tabla IV, R2 y el análisis de regresión son 0.08 y F = (p > 0.10), respectivamente, que indican una fiabilidad muy pobre.

Para la predisposición sistemática, la hipótesis nula de que se probaría que la intercepción de la línea de regresión es igual a cero. Al igual que con la prueba t, una amplia dispersión de las diferencias individuales pueden llevar a una falsa aceptación de esta hipótesis (la conclusión de que la predisposición no es significativa, aunque puede ser bastante grande para ser importante.

8. MEDICIONES ESTADÍSTICAS DE LA FIABILIDAD ABSOLUTA

Los métodos más comunes para analizar la fiabilidad absoluta son el SEM y el CV. Un estadístico poco usado en las ciencias del deporte y el ejercicio, que podría tenerse en cuenta para medir la fiabilidad absoluta, es el método de los límites del acuerdo. Un aspecto que tienen en común estos estadísticos es que no están afectados por el rango de mediciones. Por lo tanto, teóricamente proporcionan una indicación de la variabilidad en pruebas repetidas para individuos específicos, independiente de en qué puesto figuran los sujetos en una muestra particular. La ventaja general de estos estadísticos sobre los indicadores de la fiabilidad relativa es que es más fácil, tanto extrapolar los resultados de los estudios acerca de la fiabilidad absoluta a nuevos individuos como comparar la fiabilidad entre diferentes instrumentos de medición. Como se discutirá en las secciones 8.1 a 8.3, estos 3 estadísticos parecen diferenciarse en la forma en que se expresa la fiabilidad absoluta. También realizan diferentes suposiciones sobre la presencia de heterocedasticidad (una relación positiva entre el grado del error de la medición y la magnitud del valor medido).

8.1. El error típico de la medición

Un indicador de la fiabilidad absoluta es el error típico de la medición (45, 60, 69). El modo más común de calcular este estadístico que se menciona en la literatura de la ciencia deportiva es mediante la siguiente ecuación (18, 45):

SEM = SD√(1-ICC)

donde SEM = “error típico de la medición”, SD = la desviación típica de la muestra e ICC = el coeficiente de correlación intraclase calculado. El uso de SD en la ecuación, en efecto, “neutraliza” parcialmente la variación interindividual que se usó para el cálculo de la ICC. No obstante, el estadístico todavía está afectado por la homogeneidad de la muestra (3.5 ml/kg/min para los datos en la tabla II versus 2.8 ml/ kg/min para los datos con la misma SD de las diferencias en la tabla IV).

Stratford & Goldsmith (69) y Eliasziw y otros (60) declaraban que SEM puede calcularse a partir de la raíz cuadrada del error cuadrático medio en un ANOVA con mediciones repetidas. Este estadístico no estaría nada afectado por el rango de valores medidos. Para añadir a la confusión sobre el método de cálculo, Bland y Altman (43) llamaban a este estadístico “la SD intraindividual”. Además de las diferencias en la terminología, este último cálculo también parece presentar un resultado ligeramente diferente (4.7 ml/kg/min para los datos en la tabla II y en la tabla IV) del obtenido con la ecuación anterior para el SEM a partir del ICC. La causa de esto parece residir en el tipo de ICC empleado (error aleatorio o error aleatorio + predisposición). Para los anteriores cálculos, empleamos el ICC sin el error de la predisposición según los métodos de Thomas y Nelson (45).

El estadístico se expresa en las verdaderas unidades de la medición, lo que es útil ya que cuanto menor es el SEM más fiables son las mediciones. El SEM también se usa como un “estadístico resumen” en la teoría de la generalizabilidad para investigar diferentes fuentes de variación en las puntuaciones de la prueba (22). También se han formulado métodos útiles para comparar los SEMs entre los instrumentos de medición (69).

La pregunta de “cómo se sabe si un estadístico SEM concreto indica la adecuada fiabilidad” parece estar sin contestar en la literatura. Baumgarter (18) demostró cómo podría usarse un SEM para averiguar si la diferencia en las mediciones entre 2 individuos es real o se debe al error de la medición. Se afirmaba que las “bandas de confianza” basadas en el SEM se forman alrededor de las puntuaciones individuales. Si estas bandas no se superponen, se mantenía que la diferencia entre las mediciones es real. Sin embargo, los investigadores deberían ser extremadamente cautos al seguir este consejo, ya que el SEM abarca casi el 68% de la variabilidad y no, como Thomas y Nelson (45) sostenían, el 95%, que es el criterio convencional usado en las comparaciones del intervalo de confianza. Eliasziw y otros (60) también discutían el uso del SEM para diferenciar entre los cambios reales y los debidos al error de la medición y sugerían 1.96 √(2×SEM) que, interesantemente, se aproximaba al estadístico de los límites del acuerdo (ver la sección 8.3).

Además de la falta de claridad acerca de un SEM aceptable, el uso de este estadístico está asociado con varias suposiciones. Primera, se asume que existe una “población” de mediciones para cada individuo (el SEM realmente se aproxima a la SD media para mediciones repetidas en los individuos), y que esta población está normalmente distribuida y que no existen efectos residuales entre las pruebas repetidas. Payne (70) discutió estas suposiciones más detalladamente. El uso del SEM también significa que la heterocedasticidad no está presente en los datos, de modo que sólo es adecuado si los datos son completamente intervalos en esencia. Por lo tanto, si por ejemplo se calcula un SEM de 3.5 ml/kg/min, se supone que esta cantidad de error absoluto es la misma para los individuos que registran elevados valores en la muestra como para los que obtienen bajos valores. Nevill y Atkinson (53) han demostrado que esta homocedasticidad es excepcional en las variables de la proporción relevantes para la medicina deportiva. De hecho, para los investigadores que examinan una submuestra de individuos con altas puntuaciones en ciertas pruebas, el uso del SEM puede engañarlos al pensar que el error de la medición es sólo un reducido porcentaje de estas puntuaciones (el error de la medición se ha subestimado con relación a la muestra particular examinada). Esto significa que, si la heterocedasticidad está presente en los datos, el uso de un estadístico de la proporción (ej., CV) puede ser más útil para los investigadores.

8.2. El coeficiente de variación

El CV es común en los estudios de bioquímica en los que es citado como una medición de la fiabilidad de un ensayo particular (71). Es algo más fácil realizar múltiples pruebas repetidas en este campo que en los estudios de la actuación humana. Existen varios métodos para calcular el CV, pero el modo más simple es con los datos de mediciones repetidas en un único caso, donde el SD de los datos se divide por la media y se multiplica por 100 (48). Una extensión de esto en una muestra de individuos es calcular el CV medio a partir de CVs individuales. El uso de un estadístico sin dimensión como el CV tiene gran atractivo, ya que puede compararse la fiabilidad de diferentes instrumentos de medición (72). Sin embargo, como Allison (73) y Yao & Sayre (74) discuten detalladamente, pueden existir ciertas limitaciones en el uso del CV.

Los investigadores deberían ser conscientes de que la suposición de normalidad para una “población” asumida de pruebas repetidas se aplica al CV del mismo modo que con el SEM. Detwiler y otros (75) discutieron la dificultad de examinar estas suposiciones para el CV con un pequeño número de mediciones repetidas. A diferencia del SEM, los métodos del CV se aplican a los datos en los que el grado de acuerdo entre las pruebas depende de la magnitud de los valores medidos. En otras palabras, el uso del CV asume que la mayor variación test-retest ocurre en los individuos con las máximas puntuaciones en la prueba (42). Aunque esta característica probablemente es muy común con los datos de la ciencia deportiva en una escala de proporción (ser la sección 8.3) (53), es mejor si la heterocedasticidad se explora y cuantifica realmente antes de asumir su presencia. Esta exploración no es muy común entre los investigadores de la ciencia del deporte que llevan a cabo estudios sobre la fiabilidad. Además, existen conjuntos de datos acerca de la fiabilidad que definitivamente el CV no describe. Por ejemplo, un CV no tendría sentido para los datos que pueden mostrar valores negativos (no limitados por el cero), ya que el uso del CV indica que el error de la medición se aproxima a cero para los valores medidos próximos a cero. Esto no sería así si los valores cero estuvieran a mitad de camino en una escala de medición (ej., las mediciones de la flexibilidad del cuerpo entero).

Otra nota preventiva sobre el uso del CV se centra alrededor de su significado práctico para los investigadores que realizan experimentos. Algunos científicos parecen haber seleccionado, bastante arbitrariamente, un objetivo analítico del CV del 10% o menos (76). Esto no significa que toda la variabilidad entre las pruebas sea siempre inferior al 10% de la media. Un CV del 10% obtenido sobre unas medias realmente individuales que, asumiendo que los datos están normalmente distribuidos, el 68% de las diferencias entre las pruebas reside dentro del 10% de la media de los datos (71%). Por lo tanto, como con el estadístico SEM, la variabilidad no está descrita por el 32% de las diferencias individuales. Por ejemplo, si se obtenía un CV test-retest del 10% con una prueba del máximo consumo de oxígeno y la media de las 2 pruebas de una muestra grande era de 50 ml/ kg/min, el CV del 10% podría ser considerado un indicador del acuerdo aceptable. De modo realista, podrían existir diferencias test-retest mayores de 10 ml/kg/min (20% de la media) en algunos individuos.

La crítica del CV de que muy raramente se aplica a un objetivo analítico se refiere en particular a la situación común en que se calculan las medias a partir de una muestra de CVs individuales. La auténtica variación entre las pruebas puede ser subestimada por algunos individuos nuevos en este caso. Por ejemplo, el CV medio de la muestra para los datos en la tabla II es del 7.6%, lo que podría usarse para indicar muy buena fiabilidad. Esto es poco realista dado que más de un tercio de la muestra exhibe unas diferencias individuales que pueden calcularse como superiores al 13% de las medias respectivas.

Sarmandal y otros (56) y Bailey y otros (55) también mostraron con ejemplos prácticos cómo CVs medias del 1.6 al 4% no reflejaban la adecuada fiabilidad para algunas mediciones clínicas. Probablemente es más informativo si la SD de la muestra de las pruebas repetidas se multiplica por 1.96 antes de expresarse como un CV para cada individuo (77), ya que esto abarcaría el 95% de las mediciones repetidas. Sin embargo, se subraya que si entonces se calcula un CV medio de la muestra, esto puede que todavía no refleje el error de la prueba repetida para todos los individuos sino sólo el “individuo promedio” (el 50% de los sujetos en la muestra). Quan y Shih (65) denominaron a este estadístico el “estimador sencillo” del CV y sugirieron que no se usaría. Estos y otros investigadores (38, 44) describían cálculos del CV más adecuados a partir del error cuadrático medio (del ANOVA) de los datos logarítmicamente transformados. Esta es una parte importante del último método estadístico discutido; la técnica de los límites del acuerdo.

8.3. Los límites del acuerdo del 95% de Bland y Altman

Altman y Bland (41) reconocían varias de las anteriores limitaciones con estas diferentes formas de análisis e introducían el método de los “límites del acuerdo”, un indicador de la fiabilidad absoluta como el SEM y el CV. La principal diferencia entre estos estadísticos parece ser que los límites del acuerdo asumen una población de diferencias test-retest individuales. Chatburn (23) denominó a este tipo de estadístico un intervalo de error. El SEM y el CV implican una supuesta población de mediciones repetidas alrededor de un “valor verdadero” para cada individuo. Chatburn (23) llamó a este concepto un intervalo de tolerancia. Aunque aquí existen diferencias sobre la filosofía estadística, la presente revisión está más interesada en el uso práctico de estos estadísticos.

El primer paso en el análisis de los límites del acuerdo consiste en presentar y explorar los datos test-retest con una gráfica de Bland-Altman, que es el tema individual de las diferencias entre las pruebas trazadas con relación a las respectivas medias individuales (es una equivocación trazar las diferencias con relación a las puntuaciones obtenidas para una de las pruebas) (78). Un ejemplo de una gráfica de Bland-Altman usando los datos de la tabla II aparece en la figura 1. Usando esta gráfica en vez del convencional gráfico de dispersión test-retest, se proporciona una tosca indicación de la predisposición sistemática y del error aleatorio examinando la dirección y magnitud de la dispersión alrededor de la línea cero, respectivamente. También es importante observar si existe heterocedasticidad en los datos (si las diferencias dependen de la magnitud de la media). La heterocedasticidad puede ser examinada formalmente trazando las diferencias absolutas con relación a las medias individuales (fig. 2) y calculando el coeficiente de correlación (la correlación aquí es adecuada, ya que la hipótesis alternativa es que existe una relación presente. Si la heterocedasticidad es sospechosa, el análisis es más complicado (ver más adelante).


Figura 1. Una gráfica de Bland-Altman para los datos presentados en la tabla II. Las diferencias entre las pruebas/métodos se trazan en función de la media de cada sujeto para las dos pruebas. La línea de la predisposición y las líneas del error aleatorio que forman los límites del acuerdo del 95% también aparecen en la gráfica. La inspección visual de los datos sugiere que las diferencias son mayores con los mayores valores del consumo máximo de oxígeno (VO2max). Una gráfica similar puede formarse con los resultados del análisis de varianza (ANOVA) trazando los residuos en función de las verdaderas puntuaciones. SD = desviación típica.


Figura 2. Una gráfica de Blas diferencias absolutas entre las pruebas/métodos y las medias individuales durante el examen de la heterocedasticidad en los datos presentados en la tabla II (r= 0.18, p=0.345). La correlación decrece a 0.01 cuando los datos se transforman logarítmicamente. Por lo tanto, existen pruebas de que los límites del acuerdo se expresarían mejor como proporciones (el error absoluto de la medición es mayor para los individuos con puntuaciones altas en la prueba). SD = desviación típica.

Si la correlación de la heterocedasticidad es próxima cero y las diferencias están normalmente distribuidas, puede procederse a calcular los límites del acuerdo como sigue. Primero, se calcula la SD de las diferencias entre la prueba 1 y la prueba 2. La SD de las diferencias de los datos en la tabla II es 6.6 ml/kg/min. Esta entonces se multiplica por 1.96 para obtener el 95% del componente del error aleatorio de 12.9 ml/kg/min (el percentil 95 sería el modo de presentar la fiabilidad de los datos según el Instituto Británico de Normativas) (79). Si no existe una predisposición sistemática significativa (identificada por una prueba t emparejada) entonces existe una razón para expresar los límites del acuerdo como ± este valor.

Referencias

Cita en Rev Entren Deport

Greg Atkinson y Alan M. Nevill (2012). Métodos Estadísticos para Evaluar el Error de la Medición (Fiabilidad) en las Variables Relevantes para la Medicina Deportiva (II). Rev Entren Deport. 26 (3).
https://g-se.com/metodos-estadisticos-para-evaluar-el-error-de-la-medicion-fiabilidad-en-las-variables-relevantes-para-la-medicina-deportiva-ii-1545-sa-E57cfb27226e39

COMPARTIR