Métodos Estadísticos para evaluar el Error de la Medición (Fiabilidad) en las Variables Relevantes para la Medicina Deportiva (y III)

Statistical Methods for Assessing Measurement Error (Reliability) in Variables Relevant to Sports Medicine (III)

Greg Atkinson y Alan M. Nevill

Instituto de Investigación para el Deporte y Ciencias de la Actividad Física, Universidad John Moore de Liverpool (Reino Unido)

Artículo publicado en el journal Revista de Entrenamiento Deportivo, Volumen 26, Número 4 del año .

Resumen

El error mínimo de la medición (fiabilidad) durante la recogida de datos es extremadamente importante para la investigación de la medicina deportiva. Los principales componentes del error de la medición son la predisposición sistemática (ej., aprendizaje general o efectos de la fatiga en las pruebas) y el error aleatorio debido a la variación biológica o mecánica. Ambos componentes del error serían significativamente cuantificados por el médico deportivo para relacionar el error descrito con los juicios sobre los “objetivos analíticos” (los requisitos del instrumento de medición para el uso práctico efectivo) en vez del significado estadístico de los indicadores de la fiabilidad. Los métodos basados en los coeficientes de correlación y en la regresión proporcionan una indicación de la “fiabilidad relativa”. Dado que estos métodos están muy influidos por el rango de valores medidos, los investigadores deberían ser cautos al: (i) determinar la fiabilidad relativa aceptable, incluso si una correlación es mayor que 0.9; (ii) extrapolar los resultados de una correlación test-retest a una nueva muestra de individuos implicados en un experimento; y (iii) comparar las correlaciones test-retest entre diferentes estudios de la fiabilidad.

Palabras clave: investigación, estadística, fiabilidad, medicina, deporte

Abstract

Minimal measurement error (reliability) during the collection of data is critically important to sports medicine research. The main components of measurement error are systematic bias (e.g. general learning or fatigue effects on the tests) and random error due to biological or mechanical variation. Both error components should be meaningfully quantified for the sports physician to relate the described error to judgements regarding ‘analytical goals’ (the requirements of the measurement tool for effective practical use) rather than the statistical significance of any reliability indicators. Methods based on correlation coefficients and regression provide an indication of ‘relative reliability’. Since these methods are highly influenced by the range of measured values, researchers should be cautious in: (i) concluding acceptable relative reliability even if a correlation is above 0.9; (ii) extrapolating the results of a test-retest correlation to a new sample of individuals involved in an experiment; and (iii) comparing test-retest correlations between different reliability studies.

Keywords: research, statistics, reliability, medicine, sport

INTRODUCCION

Sin embargo, uno de los inconvenientes discutidos de la prueba t era que no se detectaría una predisposición significativa si está acompañada por una elevada variación aleatoria. Podría citarse el error aleatorio con la predisposición a formar los límites del acuerdo, incluso si no es estadísticamente significativo. Para los datos en la tabla II, ya que existe una ligera predisposición de -1.5 ml/kg/ min, los límites del acuerdo son -14.4 a + 11.4. Expresado de este modo, los límites del acuerdo realmente son una medición del “error total” (la predisposición y el error aleatorio juntos). Probablemente es más informativo para los investigadores que leen resúmenes de estudios sobre la fiabilidad si los componentes de la predisposición y el error aleatorio se citan separadamente, ej. -1.5 ± 12.9 ml/kg/ min.

Anteriormente se afirmó que los métodos del CV sólo deberían usarse si la variabilidad dependiera de la magnitud de los valores medios (heterocedasticidad). Si, a partir de la correlación positiva entre las diferencias absolutas y las medias individuales, existe heterocedasticidad en los datos, entonces Bland y Altman (16) recomendaban la transformación logarítmica (natural) de los datos antes del cálculo de los límites del acuerdo. El paso final sería calcular el antilógaritmo de los datos. Bland y Altman (16) proporcionan un ejemplo elaborado de esto.

En el examen de la heterocedasticidad, Nevill y Atkinson (53) hallaron que, si la correlación entre las diferencias absolutas y las medias individuales es positiva pero no necesariamente significativa en un conjunto de datos, normalmente es beneficioso adoptar los valores logarítmicos cuando se calculan los límites del acuerdo. Por ejemplo, está presente una heterocedasticidad muy ligera en los datos de la tabla II (fig. 2, r = 0.18, p = 0.345). Si se adoptan los logaritmos, esta correlación se reduce a 0.01. Tomando los logaritmos de las mediciones de ambas semanas, el cálculo de la media ± límites del acuerdo de 95% es -0.0356 ± 0.237. Tomando los antilogaritmos de estos valores, la predisposición media en la escala de proporción es 0.97 y el componente del error aleatorio ahora es x/÷ 1.29. Por lo tanto, el 95% de las proporciones residiría entre 0.97 x/÷ 1.29. Si la muestra de las diferencias no está normalmente distribuida, lo que también se ha observado con algunas mediciones relevantes para la medicina deportiva (53), de nuevo, los datos se beneficiarían con la transformación logarítmica. Los datos de la tabla II realmente no están normalmente distribuidos (prueba de Anderson-Darling), pero después de la transformación logarítmica cumplen la normalidad. Resulta que las anteriores pruebas para la predisposición (prueba t relacionada, ANOVA) habrían sido realizadas, estrictamente hablando, sobre los datos transformados logarítmicamente. No obstante, esto no quita mérito, en ningún modo, a los aspectos citados sobre el uso de estas pruebas para detectar la predisposición en los estudios de la fiabilidad.


Figura 2. Una gráfica de las diferencias absolutas entre las pruebas/métodos y las medias individuales durante el examen de la heterocedasticidad en los datos presentados en la tabla II (r= 0.18, p=0.345). La correlación decrece a 0.01 cuando los datos se transforman logarítmicamente. Por lo tanto, existen pruebas de que los límites del acuerdo se expresarían mejor como proporciones (el error absoluto de la medición es mayor para los individuos con puntuaciones altas en la prueba). SD = desviación típica.

9. LOS LÍMITES DEL ACUERDO Y LOS OBJETIVOS ANALÍTICOS

El siguiente paso es la interpretación de los límites del acuerdo. Algunos investigadores (80) llegan a un aceptable error de la medición observando que sólo unas pocas de las diferencias test-retest caen fuera de los límites del acuerdo del 95% calculados de esas mismas diferencias. Esto no es cómo deberían interpretarse los límites. Antes bien, puede decirse que para un nuevo individuo de la población estudiada, se esperaría (una probabilidad aproximada del 95%) que la diferencia entre 2 muestras residiría dentro de los límites del acuerdo. Por lo tanto, en el caso de la prueba Fitech, esperamos que las diferencias test-retest de un individuo de una población particular se encuentren entre -14.4 y +11.5 ml/kg/min. Dado que existían pruebas de que la heterocedasticidad estaba presente en los datos Fitech (la correlación de la heterocedasticidad se reducía después de la transformación logarítmica de los datos), los límites se representan mejor con proporciones.

A partir de los límites del acuerdo de proporciones calculados anteriormente (0.97 x/÷ 1.29), puede decirse que para cualquier individuo de la población, suponiendo que la predisposición presente (3%) sea insignificante, 2 pruebas cualesquiera se diferenciarán no más del 29% debido al error de la medición, bien en una dirección positiva, bien en una dirección negativa (el error realmente es ligeramente mayor en la dirección positiva que en la negativa con los verdaderos datos proporcionales heterocedásticos). Debería advertirse, como Bland (39) observó, que este valor es muy similar al valor del 27% calculado de una forma discutiblemente más simple de 100 x (1.96 x SD dif/gran media) sobre los datos previos a la conversión logarítmica, donde “SD dif” representa a la desviación típica de las diferencias test-retest y “gran media” representa a (media de la prueba 1 + media de la prueba 2) /2.

Como se trataba inicialmente, la tarea del investigador es juzgar, usando los objetivos analíticos, si los límites del acuerdo son bastante estrechos para la mayoría para tener uso práctico. La comparación de la fiabilidad entre diferentes instrumentos de medición usando los límites del acuerdo es actualmente difícil, ya que existían pocos estudios que emplearan los límites del acuerdo para las mediciones de la ciencia deportiva. Con respecto a los datos de la prueba Fitech, los límites del acuerdo para la fiabilidad son muy semejantes a los publicados para prueba Astrand-Rhyming, similar en principio, del máximo consumo de oxígeno pronosticado (81).

Concluiríamos que estas pruebas probablemente no son bastante fiables como para supervisar los pequeños cambios en el máximo consumo de oxígeno que resultan de incrementar el entrenamiento de una persona ya atlética (82). Sin embargo, estas pruebas pronosticables pueden detectar las grandes diferencias en el máximo consumo de oxígeno, por ejemplo, después de que una persona inicialmente sedentaria realiza un programa de condicionamiento (83). Podría llegarse a una decisión más concluyente sobre la adecuada (o inadecuada) fiabilidad usando objetivos analíticos basados en los tamaños de la muestra para futuros usos experimentales. La SD de las diferencias (o la media cuadrática residual en el caso del ANOVA) puede usarse para estimar los tamaños de la muestra para los experimentos con mediciones repetidas (6). Sería evidente, incluso sin tales cálculos, que cuanto mayor es el componente del error aleatorio de los límites del acuerdo, tantos más individuos serían necesarios en un experimento para hipotético cambio experimental dado. Alternativamente, cuanto mayor es el error aleatorio indicado por los límites del acuerdo, tanto más grande debería ser el mínimo cambio detectable para un tamaño dado de la muestra en un experimento. Zar (6) también proporciona los cálculos para este problema de estimar los mínimos cambios detectables para los instrumentos de medición. No puede juzgarse la magnitud de un coeficiente de correlación per se tan sencillamente como esto, ya que existe un “factor añadido” de la variabilidad interindividual en este estadístico.

Tenemos 3 comentarios sobre el uso de los límites del acuerdo en la ciencia y medicina deportivas:
1) Sólo recientemente (39) se ha aplicado el método de los límites del acuerdo a retests múltiples usando un enfoque del ANOVA. Esto es preferible para la investigación en profundidad de la predisposición y también porque mejora el examen de la heterocedasticidad (incrementan los grados de libertad). El componente del error aleatorio de los límites del acuerdo del 95% se calcula de
1.96 √(2 × MSE)

donde MSE es el error cuadrático medio de un ANOVA con mediciones repetidas. Recientemente, Bland y Altman (43,44) aceptaban que el error de la medición puede expresarse en relación con una “población” de pruebas repetidas en los individuos, que es la base del SEM y el CV. Calculaban esto desde MSE, que se asocia a un método para calcular el SEM (69). Sin embargo, resaltaban la necesidad de multiplicar este valor por 1.96 para representar las diferencias entre el valor medido y el “auténtico” para el 95% de las observaciones. Para el ejemplo de los datos en la tabla II, el MSE es 4.7 ml/kg/min de modo que el “SEM del 95” es 1. 96 x 4.7 = ±9.2 ml/kg/min. Para los datos logaritmizados, debería antilogaritmizarse el MSE del ANOVA y expresar este CV elevado a la potencia de 1.96 para abarcar el 95% de las observaciones. Esto sería 1.0971.96 = x/÷ +1.20 para los datos de la tabla II expresados como una proporción.

Hopkins (38) cita un estadístico muy similar al CV de la proporción del 68% de 1.097 (9.7%) de Bland y Altman, aunque se calcula de un modo ligeramente diferente y siempre se expresa como un porcentaje (±9.3% para los datos de nuestro ejemplo). Observar que ambos métodos de calcular el CV (del ANOVA) aportan valores ligeramente superiores al “estimador sencillo” del valor medio del 7% calculado desde los CVs individuales. Esto coincide con las observaciones de Quan y Shih (65). Observar también que expresar un CV como ±porcentaje en lugar de como x/÷ proporción puede ser engañoso ya que una característica de los datos proporcionales es que el rango del error siempre será ligeramente menor, por debajo del valor medido dado en comparación con el error por encima de un valor medido. El cálculo de ± CV implica, erróneamente con los auténticos datos proporcionales, que el error es de igual magnitud sea cual sea el aspecto de un particular valor medido.

2) Debido a que los límites del acuerdo calculados son destinados a la extrapolación a una población dada, se recomienda que un gran tamaño de la muestra (> 40) se examine en cualquier estudio de la medición (30). Bland y Altman (16) también aconsejan el cálculo de los errores típicos de los límites del acuerdo para mostrar cuán exactos son en relación con la población completa. A partir de éstos, pueden calcularse los intervalos de confianza, que permiten el meta-análisis estadístico para la comparación de los límites del acuerdo entre diferentes estudios.

3) Los ejemplos de fiabilidad citados en el trabajo de Bland y Altman (16,39) no parecen considerar que la predisposición puede ocurrir en las mediciones repetidas (84). Solamente los ejemplos de comparación del método (validez) incorporan la estimación de la predisposición en los límites del acuerdo. Esto podría ser porque el clínico se relaciona frecuentemente con los ensayos biológicos, que no están afectados por el aprendizaje o la fatiga de la prueba. Ya que estos efectos probablemente influyan en las mediciones de la actuación humana, se recomienda que la predisposición entre ensayos repetidos sea anunciada siempre (separadamente del componente del error aleatorio) por el científico deportivo.

10. DISCUSIÓN

Esta revisión ha intentado evaluar los métodos estadís­ticos más comunes para valorar la fiabilidad. En vista de la importancia del error mínimo de la medición para la inves­tigación de la ciencia deportiva y, aunque se ha publicado un libro (17) sobre el tema, es sorprendente que existan debates negligentes sobre los problemas de la medición en la ciencia y la medicina deportivas. Un punto importante es que los métodos de la correlación (incluyendo la ICC) se interpre­tarían con cautela en tales estudios. Esta es una idea difícil de fomentar dada la popularidad de considerar una eleva­da correlación como indicativo de la fiabilidad adecuada. Una implicación de la pobre interpretación de los análisis de correlación es que el equipo usado rutinariamente en las ciencias del deporte y el ejercicio puede haberse considera­do erróneamente como suficientemente fiable (haciéndose cargo de ciertos objetivos analíticos para el uso de la ciencia deportiva). Sería razonable que los investigadores re-esti­men los resultados de las correlaciones test-retest y comple­menten esto con la aplicación de los indicadores absolutos de la fiabilidad. Idealmente, existiría una base de datos que proporcionara información sobre la fiabilidad de cada ins­trumento de medición usado rutinariamente en la medicina deportiva. Esto se ha intentado, usando la correlación, con mediciones isocinéticas de la fuerza muscular (50). Actual­mente, el método de los límites del acuerdo se ha aplicado más, entre las variables relevantes para la ciencia deportiva, para la fiabilidad y validez de las mediciones del tejido adi­poso (85-89).

La presente revisión ha intentado subrayar que se citan algunos estadísticos de la fiabilidad en la literatura de la ciencia deportiva sin la adecuada investigación de las suposiciones subyacentes. La importante suposición sobre la relación entre el error y la magnitud del valor medido raramente es explorada por los investigadores de la fiabilidad. Puede ser que con algunas mediciones, la variabilidad disminuya en vez de incrementarse según aumentan los valores medidos (la heterocedasticidad negativa). En este caso, podrían necesitar transformarse los datos de forma diferente antes de la aplicación de un indicador absoluto de la fiabilidad. Los estadísticos actualmente están trabajando sobre tales problemas (42). Es imprescindible que el médico deportivo se mantenga al corriente de las soluciones estadísticas correctas a estos problemas. Una recomendación práctica es que los futuros estudios de la fiabilidad incluyan un examen de cómo el error de la medición se relaciona con la magnitud de las variables medidas, independientemente de que tipo de estadístico de la fiabilidad absoluta se emplea (SEM, CV, límites del acuerdo). El modo más sencillo de hacer esto es trazando los valores residuales calculados del ANOVA con relación a los valores adaptados y observando si el “embudo” clásico de la heterocedasticidad es evidente.

Un asunto que Bland y Altman debaten firmemente en su trabajo sobre los problemas de la medición es el de la comparación de método (16,42). Mantienen que las desventajas de muchos estadísticos usados en los estudios de la fiabilidad también se aplican a los estudios que investigan qué otros métodos pueden usarse indistintamente o si un método está de acuerdo con un instrumento de medición. Proponen que el uso de los límites del acuerdo también es más apropiado en algunas situaciones, lo que es muy común en la ciencia deportiva como parte del examen de la validez (90). Obviamente, tal uso de los límites del acuerdo sería ajeno al científico deportivo que está acostumbrado a las pruebas de hipótesis, y los métodos de la regresión y la correlación como parte de este tipo de análisis de validez. Una importante cuestión como ésta merecería un debate adicional entre los investigadores de la ciencia deportiva.

Para concluir, parece irónico que los diversos estadísticos diseñados para valorar el acuerdo parecen tan inconsistentes en su cuantificación del error de la medición y su interpretación entre los investigadores para decidir si un instrumento de medición puede ser confiadamente empleado en el futuro trabajo de la investigación. En resumen, existen dificultades con los estadísticos de fiabilidad relativa en su interpretación y la extrapolación de los resultados a una investigación futura. También existen muchos métodos diferentes de calcular el estadístico de la fiabilidad, ICC. Además, la expresión de los estadísticos de fiabilidad absoluta se diferencia hasta tal grado que puede calcularse un estadístico (SEM) de un modo
SD √(1-ICC)
que todavía lo hace sensible a la heterogeneidad de la población (es decir, un indicador nada verdadero de fiabilidad absoluta). También existe una falta general de exploración de las suposiciones asociadas con los estadísticos de fiabilidad absoluta y el desacuerdo sobre la proporción descrita del error de la medición (68 versus 95%).

Mientras los estadísticos nunca serán más importantes que un estudio de la fiabilidad bien diseñado en sí, es sensato que existiría un análisis estadístico generalizado para cualquier estudio de la fiabilidad que implica la proporción de mediciones por intervalos. Esto puede acarrear el uso de varios estadísticos de la fiabilidad, de manera que diferentes investigadores pueden interpretar el que están más acostumbrados a usar. Con este fin, sugeriríamos:
• La inclusión en cualquier estudio de la fiabilidad de un examen de las suposiciones que rodean la elección de estadísticos, especialmente la presencia o ausencia de heterocedasticidad.
• Un completo examen de cualquier predisposición sistemática en las mediciones conectado con recomendaciones prácticas para investigadores futuros sobre el número de sesiones de familiarización pretest a emplear y el tiempo de recuperación aconsejado entre las pruebas de modo que se minimiza la predisposición debida a la fatiga.
• La inclusión del análisis de correlación intraclase, aunque con todos los detalles de que tipo de ICC se ha calculado y la mención de los intervalos de confianza para el ICC. Este análisis podría complementarse con un examen de la fiabilidad relativa mediante la estabilidad test-retest de los rangos de la muestra o la relación del grado de fiabilidad absoluta para las diferencias interindividuales o entre-centiles en una población. Se recomienda esto incluso si se obtiene un elevado ICC (> 0.9).
• La mención de las mediciones más populares de la fiabilidad absoluta, según que esté presente (CV, “límites proporcionales del acuerdo”) o ausente (SEM, “límites absolutos del acuerdo”) la heterocedasticidad. Es preferible que éstas se calculen a partir del error cuadrático medio en un ANOVA con mediciones repetidas. También se formularía el percentil descrito del error de la medición (68 o 95%).
• La llegada a una eventual decisión de la fiabilidad (o no) basada en la extrapolación del error de la medición a la realización de los “objetivos analíticos”. Estos pueden incluir la eficacia del uso del instrumento de medición sobre casos individuales, un grado significativo de fiabilidad relativa y las implicaciones del error de la medición para la estimación del tamaño de la muestra en los experimentos.

Referencias

1. Hollis S. (1996). Analysis of method comparison studies. Ann Clin Biochem; 33: 1-4

2. Liehr P, Dedo YL, Torres S, et al. (1995). Assessing agreement between clinical measurement methods. Heart Lung; 24: 240-5

3. Ottenbacher KJ, Tomcheck SD. (1994). Measurement variation in method comparison studies: an empirical examination. Arch Phys Med Rehabil; 75 (5): 505-12

4. Bland JM, Altman DG. (1986). Statistical methods for assessing agreement between two methods of clinical measurement. Lancet; I: 307-10.

5. Safrit MJ, Wood TM, editors. (1989). Measurement concepts in physical education and exercise science. Champaign (IL): Human Kinetics.

6. Baumgarter TA. (1989). Norm-referenced measurement: reliability. In: Safrit MJ, Wood TM, editors. Measurement concepts in physical education and exercise science. Champaign (IL): Human Kinetics, 45-72.

7. Atkinson G. Reilly T. (1996). Circadian variation in sports performance. Sports Med; 21 (4): 292-312.

8. Morrow JR, Jackson AW, Disch JG, et al. (1995). Measurement and evaluation in human performance. Champaign (IL): Human Kinetics.

9. Morrow JR. (1989). Generalizability theory. In: Safrit MJ, Wood TM, editors. Measurement concepts in physical education and exercise science. Champaign (IL): Human Kinetics: 73-96.

10. Roebroeck ME, Harlaar J, Lankhorst GJ. (1993). The application of generalizability theory to reliability assessment: an illustration using isometric force measurements. Phys Ther; 73 (6): 386-95.

11. Chatburn RL. (1996). Evaluation of instrument error and method agreement. Am Assoc Nurse Anesthet J; 64 (3): 261-8.

12. Coldwells A, Atkinson G, Reilly T. (1994). Sources of variation in back and leg dynamometry. Ergonomics; 37: 79-86 .

13. Hickey MS, Costill DL, McConnell GK, et al. (1992). Day-to-day variation in time trial cycling performance. Int J Sports Med; 13: 467-70.

14. Nevill A. (1997). Why the analysis of performance variables recorded on a ratio scale will invariably benefit from a log transformation. J Sports Sci; 15: 457-8.

15. Bland JM, Altman DG. (1996). Transforming data. BMJ; 312 (7033): 770.

16. Schultz RW. (1989). Analysing change. In: Safrit MJ, Wood TM, editors. Measurement concepts in physical education and exercise science.. Champaign (IL): Human Kinetics: 207-28.

17. Morrow JR, Jackson AW. (1993). How ‘significant’ is your reliability?. Res Q Exerc Sport; 64 (3): 352-5.

18. Altman DG. (1991). Practical statistics for medical research. London: Chapman and Hall: 396-403.

19. Mathews JNS, Altman DG, Campbell MJ, et al. (1990). Analysis of serial measurements in medical research. BMJ; 300: 230-5.

20. Vincent J. (1994). Statistics in kinesiology. Champaign (IL): Human Kinetics Books.

21. Ross JW, Fraser MD. (1993). Analytical goals developed from the inherent error of medical tests. Clin Chem; 39 (7): 1481-93.

22. Fraser CG, Hyltoft Peterson P, et al. (1990). Setting analytical goals for random analytical error in specific clinical monitoring situations. Clin Chem; 36 (9): 1625-8.

23. Zehr ER, Sale DG. (1997). Reproducibility of ballistic movement. Med Sci Sports Exerc; 29: 1383-8.

24. Hofstra WB, Sont JK, Sterk PJ, et al. (1997). Sample size estimation in studies monitoring exercise-induced bronchoconstriction in asthmatic children. Thorax; 52: 739-41.

25. Schabort EJ, Hopkins WG, Hawley JA. (1998). Reproducibility of selfpaced treadmill performance of trained endurance runners. Int J Sports Med; 19: 48-51.

26. Hopkins W. (1997). A new view of statistics. Internet site, http:// www.sportsci.org/resource/stats/index.html.

27. Bland M. (1995). An introduction to medical statistics. Oxford: University Press.

28. - (1996). Proceedings of the 43rd Meeting of the American College of Sports Medicine. Med Sci Sports Exerc; 28: S1-211.

29. Altman DG, Bland JM. (1983). Measurement in medicine: the analysis of method comparison studies. Statistician; 32: 307- 17.

30. Bland JM, Altman DG. (1995). Comparing two methods of clinical measurement: a personal history. Int J Epidemiol; 24 Suppl. 1: S7-14.

31. Bland JM, Altman DG. (1996). Measurement error. BMJ; 312 (7047): 1654.

32. Bland JM, Altman DG. (1996). Measurement error proportional to the mean. BMJ; 313 (7049): 106.

33. Thomas JR, Nelson JK. (1990). Research methods in physical activity. Champaign (IL): Human Kinetics.

34. Nevill AN, Atkinson G. (1998). Assessing measurement agreement (repeatability) between 3 or more trials [abstract]. J Sports Sci; 16: 29.

35. Coolican H. (1994). Research methods and statistics in psychology. London: Hodder and Stoughton

36. Sale DG. (1994). Testing strength and power. In: MacDougall JD, Wenger HA, Green HJ, editors. Physiological testing of the high performance athlete. Champaign (IL): Human Kinetics: 21-106.

37. Bates BT, Zhang S, Dufek JS, et al. (1996). The effects of sample size and variability on the correlation coefficient. Med Sci Sports Exerc; 28 (3): 386-91.

38. Perrin DH. (1993). Isokinetic exercise and assessment. Champaign (IL): Human Kinetics.

39. Glass GV, Hopkins KD. (1984). Statistical methods in education and psychology. 2nd ed. Englewood Cliffs (NJ): Prentice- Hall.

40. Estelberger W, Reibnegger G. (1995). The rank correlation coefficient: an additional aid in the interpretation of laboratory data. Clin Chim Acta; 239 (2): 203-7.

41. Nevill AN, Atkinson G. (1997). Assessing agreement between measurements recorded on a ratio scale in sports medicine and sports science. Br J Sports Med; 31: 314-8.

42. Atkinson G, Greeves J, Reilly T, et al. (1995). Day-to-day and circadian variability of leg strength measured with the lido isokinetic dynamometer. J Sports Sci; 13: 18-9.

43. Bailey SM, Sarmandal P, Grant JM. (1989). A comparison of three methods of assessing inter-observer variation applied to measurement of the symphysis-fundal height. Br J Obstet Gynaecol; 96 (11): 1266-71.

44. Sarmandal P, Bailey SM, Grant JM. (1989). A comparison of three methods of assessing inter-observer variation applied to ultrasonicultrasonic fetal measurement in the third trimester. Br J Obstet Gynaecol; 96 (11): 1261-5.

Cita Original

-

Cita en Rev Entren Deport

Greg Atkinson y Alan M. Nevill (2012). Métodos Estadísticos para evaluar el Error de la Medición (Fiabilidad) en las Variables Relevantes para la Medicina Deportiva (y III). Rev Entren Deport. 26 (4).
https://g-se.com/-metodos-estadisticos-para-evaluar-el-error-de-la-medicion-fiabilidad-en-las-variables-relevantes-para-la-medicina-deportiva-y-iii-1534-sa-P57cfb27224f7c

COMPARTIR