Comparación de poblaciones

| |

La comparación de poblaciones es el análisis de dos o más conjuntos de datos con el objetivo de comprobar si se pueden considerar iguales o no. Para llevar a cabo esta comparación se utilizan los llamados contrastes de hipótesis, que se pueden clasificar en dos grandes grupos: tests paramétricos y tests no paramétricos. Vamos a hablar de ellos con un poco más de detalle.

Contrastes de hipótesis paramétricos

Para poder ser aplicados, los contrastes de hipótesis paramétricos requieren datos que sigan una distribución normal. En este caso, las poblaciones vendrán representadas por sus medias, por lo que dichas medias serán los parámetros a contrastar en los tests paramétricos.

Es importante tener en cuenta que, dentro de este tipo de tests, hay algunos que solo pueden ser aplicados en el caso de que las varianzas de las poblaciones que estamos comparando sean iguales (suposición de homocedasticidad).

Por otro lado, en ocasiones puede suceder que no se cumplan las suposiciones necesarias, pero si los tamaños de las muestras que hemos tomado de las poblaciones son lo suficientemente grandes los requisitos se vuelven más flexibles y es posible utilizar estos tests.

Contrastes de hipótesis no paramétricos

Cuando no se verifican las suposiciones necesarias para que podamos utilizar los tests paramétricos y además los tamaños muestrales no son lo suficientemente grandes, entonces es necesario recurrir a los tests no paramétricos, que no requieren datos normales. En este caso, los parámetros a contrastar serán las medianas.

Guía para la comparación de dos poblaciones

El siguiente esquema puede servirte de guía para escoger correctamente el test a realizar a la hora de comparar dos poblaciones, en función de las condiciones que se cumplan:

Guía para la comparación de más de dos poblaciones

Si lo que necesitas es comparar más de dos poblaciones, mejor échale un vistazo a este otro esquema:

El test de Chi cuadrado, en este caso, tendrá como hipótesis nula la homogeneidad de las poblaciones.

Algunas consideraciones adicionales

En general, se consideran más potentes los contrastes paramétricos, por lo que siempre que sea posible es mejor recurrir a ellos. De hecho, para facilitar esta tarea se han ideado métodos de transformación de los datos, de tal forma que cumplan las suposiciones necesarias para poder utilizar estos tests. Además, como recurso adicional, existe la opción de utilizar Métodos Estadísticos Robustos.

En cualquier caso, el primer paso siempre será llevar a cabo los análisis de normalidad y homocedasticidad necesarios sobre los datos originales (que pueden realizarse de forma gráfica o mediante tests específicos para ello), con el fin de valorar las opciones más apropiadas.

Anterior

Coronavirus: más detalles, gracias al Machine Learning

Clasificación: verdaderos y falsos positivos, verdaderos y falsos negativos

Siguiente

Deja un comentario