Clasificación: verdaderos y falsos positivos, verdaderos y falsos negativos

| |

En este artículo vamos a aclarar los conceptos de Verdadero Positivo (TP, True Positive en inglés), Falso Positivo (FP, False Positive), Verdadero Negativo (TN, True Negative) y Falso Negativo (FN, False Negative). Además, veremos cuándo es más importante fijarse en unas u otras de estas métricas, que se usan habitualmente para evaluar los resultados de los modelos de clasificación.

Conceptos de verdadero positivo, falso positivo, verdadero negativo y falso negativo

Supongamos que estamos trabajando en un problema con el objetivo de ser capaces de predecir si una muestra dada pertenece a una de estas dos clases:

  • Positivo en Covid-19
  • Negativo en Covid-19

Nuestro modelo de clasificación puede arrojar, por tanto, 4 resultados distintos:

Verdadero Positivo (TP)
El modelo predice que la muestra es positiva y, en realidad, sí que lo es.
Falso Positivo (FP)
El modelo predice que la muestra es positiva pero, en realidad, no lo es.
Falso Negativo (FN)
El modelo predice que la muestra es negativa pero, en realidad, no lo es.
Verdadero Negativo (FN)
El modelo predice que la muestra es negativa y, en realidad, sí que lo es.

La tabla anterior es la matriz de confusión (de dimensiones 2×2) que resume nuestro modelo de clasificación de predicción de positivos en Covid-19. Vamos a ver más en profundidad los posibles resultados:

  • Un verdadero positivo es un resultado en el que el modelo predice correctamente la clase positiva.
  • Un verdadero negativo es un resultado en el que el modelo predice correctamente la clase negativa.
  • Un falso positivo es un resultado en el que el modelo predice incorrectamente la clase positiva. Es decir, el modelo predice que la muestra pertenece a la clase positiva pero, en realidad, pertenece a la negativa.
  • Un falso negativo es un resultado en el que el modelo predice incorrectamente la clase negativa. Es decir, el modelo predice que la muestra pertenece a la clase negativa pero, en realidad, pertenece a la positiva.

En el siguiente apartado, veremos cómo evaluar un modelo de clasificación con métricas derivadas de estos cuatro resultados.

Exactitud, ratio de predicciones correctas

La exactitud es una métrica que se calcula como la fracción de predicciones correctas del modelo:

Exactitud = Número de predicciones correctas / Número total de predicciones

En problemas de clasificación binaria, como el de nuestro ejemplo, la exactitud también se puede calcular de la siguiente manera:

Exactitud = (TP + TN) / (TP + TN + FP + FN)

Donde TP son los verdaderos positivos, TN son los verdaderos negativos, FP son los falsos positivos y FN son los falsos negativos.

Por ejemplo, imagina que nuestro modelo ha arrojado las siguientes predicciones:

  • Verdaderos positivos: 1
  • Verdaderos negativos: 90
  • Falsos positivos: 1
  • Falsos negativos: 8

Entonces, el resultado de calcular la fracción de exactitud sería el siguiente:

Exactitud = (1 + 90) / (1 + 90 + 1 + 8) = 0.91

La exactitud de nuestro modelo sería, por tanto, de un 91% (de cada 100 predicciones que ha hecho el modelo, 91 han sido correctas).

Precisión, proporción de positivos correctamente identificados

La precisión informa acerca de la proporción de positivos correctamente identificados:

Precisión = TP / (TP + FP)

Siguiendo con el ejemplo anterior, obtendríamos el siguiente resultado:

Precisión = 1 / (1 + 1) = 0.5

Es decir, una precisión del 50%, que indica que cuando el modelo predice que una persona es positiva en Covid-19, acierta el 50% de las veces.

Exhaustividad, proporción de positivos reales correctamente identificados

La exhaustividad o recuperación (recall, en inglés) informa acerca de la proporción de positivos reales que se identificó correctamente:

Exhaustividad = TP / (TP + FN)

En nuestro ejemplo, obtenemos el siguiente resultado:

Exhaustividad = 1 / (1 + 8) = 0.11

Es decir, una exhaustividad de un 11%, que significa que el modelo identifica correctamente el 11% de positivos en Covid-19.

¿Cuándo es más importante una u otra métrica?

En el caso de nuestro ejemplo, para evaluar cómo de bueno es realmente nuestro modelo de clasificación, es necesario analizar a fondo todos los resultados.

Hemos obtenido un 91% de exactitud que, a priori, parece un resultado muy bueno. Sin embargo, de los 9 positivos reales en Covid-19 (1 VP + 8 FN), el modelo solo ha sido capaz de identificar correctamente 1 como positivo. Por tanto, el resultado que tan bueno nos parecía, es en realidad malísimo, ya que 8 de cada 9 personas enfermas no se diagnostican.

En cuanto a la precisión y el recall, con frecuencia hay tensión entre ambos. Esto quiere decir que, al mejorar la precisión, suele reducirse la exhaustividad, y viceversa. En determinadas situaciones será preferible sacrificar algo de precisión a costa de aumentar la exhaustividad, mientras que en otras sucederá justo lo contrario.

Por tanto, es importante estudiar a fondo los resultados teniendo siempre muy en cuenta el contexto del problema.

Anterior

Comparación de poblaciones

Deja un comentario