El examen como ya saben será una parte (media hora aproximadamente) de preguntas teóricas o conceptuales sin material y luego un trabajo con datos con sus laptops personales.
Para no perder tiempo y no tener inconvenientes para el día del examen, sugiero que tengan pronto un script (o varios) que sepan hacer lo siguiente:
1-aplicar componentes principales,
2-criterios para calcular la cantidad la cantidad de componentes,
3- separar en grupos por kmeans y por pam,
4-calcular coeficientes de Silhouette y Dunn o algún otro,
5- construir dendrogramas con distintas medidas de distancias y heatmaps,
6- aplicar criterios de LDA, QDA, naive Bayes, KNN y logística para clasificar nuevos datos,
7- dado un conjunto de datos separarlos en una parte para entrenamiento y otra para calcular los tests error rates,
8- construir diagramas de caja con los errores de clasificación de nuevos datos (test error rates),
9- dibujar las curvas ROC para los distintos métodos de clasificación.
10- CART y SVM, después agrego en función de lo que demos en clase.
Si me olvido de algo aviso acá mismo como respuesta a este mensaje.
Saludos, Juan.