Validación del modelo
Ahora imaginemos que entra una nueva botella de vino que, por su edad y los puntos que ha recibido en las reseñas, se nos sitúa en el siguiente lugar de la gráfica:
El vino nos gustará o bien no nos gustará: uno de los dos modelos hará por tanto una predicción errónea.
¿Dice la teoría algo sobre qué algoritmo resulta más conveniente utilizar?
No hay nada escrito sobre esto. Cada caso es diferente y cada algoritmo tiene sus virtudes y sus limitaciones.
Entonces, ¿cómo podemos saber cuál es el adecuado? Aquí es donde debemos recordar que:
Se trata de que funcione con datos nuevos
Debe generalizar correctamente más allá de los datos con los que hemos construido-entrenado el modelo.
Por tanto, para averiguar la idoneidad de uno u otro modelo debemos evaluar los resultados.
En nuestro ejemplo resulta que la nueva botella de vino me ha gustado y en consecuencia el modelo que ha dado el resultado correcto es el de la línea recta con pendiente, mientras que el de la zona cuadrada ha fallado.
Pero con un solo dato nuevo no es suficiente. Hay que repetirlo con muchos otros y obtener de ellos los porcentajes de acierto, lo que vendría a darnos la precisión de cada uno de los modelos. De manera que:
Hay que reservar datos para testear
Además de los datos de aprendizaje o entrenamiento, con los que el algoritmo construye el modelo, es necesario reservar otro conjunto adicional de datos etiquetados para evaluar y finalmente validar los modelos propuestos.