Entrega 1: Componentes principales
Ejercicio 1: hacer el ejercicio 6 del práctico correspondiente a 2021.
Ejercicio 2: los datos (que tienen en el adjunto) corresponden a 6 variables correspondientes a 91 países del mundo (ejemplo MUNDODES del libro de Peña). Realizar el análisis de componentes principales para esos datos (lo que vimos en las clases), realizar el biplot e interpretar todo lo que se pueda respecto al mismo. ¿Qué tan informativo es el biplot? ¿Es de utilidad?
Ejercicio 3: bajar el archivo de datos genéticos llamados NCI60 del libro de James-Witten-Hastie-Tibshirani (página 542). Hacer el análisis de componentes principales. ¿Cuál es el porcentaje de la varianza explicada considerando las principales 10 componentes? ¿Cuántas componentes principales debemos considerar para obtener el 92% de la variabilidad explicada?
Entrega 2: Análisis de clusters
Ejercicio 1.
1- Escribir un programa en R que a partir de un conjunto de datos, grafique en función de k (cantidad de clusters a separar entre los datos) para k entre 2 y un determinado valor y que calcule la suma de cuadrados whithin (lo cual servirá para sugerir algún valor adecuado de la cantidad de clusters en la cual separar: aquel donde se encuentre un "codo" en la disminución de la función a minimizar).
2- Utilizando los datos de USArrests, hacer un gráfico como el programado en la parte anterior, elegir un valor de k y separar en esos k grupos, indicando los estados pertenecientes a cada grupo.
3- Aplicar las partes 1 y 2 pero aplicando pam en lugar de kmeans con la distancia de Manhattan.
Ejercicio 2.
1- Utilizando los datos NCI60 (de la entrega anterior) seleccionar un número adecuado de grupos en los cuales separar (utilizar algún criterio para la elección del número adecuado de grupos).
2- Aplicar kmeans y PAM a los mismos. Calcular los grados de similitud entre la partición generada por PAM y la generada por kmeans.
3- Graficar dendrogramas utilizando las distintas medidas de disimilaridad que proporciona la función hclust de R (complete, single, average, centroid y Ward). ¿Cuáles de los dendrogramas realiza un ajuste más en concordancia con las distancias originales entre los datos?
Ejercicio 3.
Repetir el ejercicio 2 pero tomando como individuos las lineas genéticas.
Entrega 3. Clasificación
Ejercicio 1.
1- Realizar lo utilizado en el punto 4.7 del libro de James-Witten-Hastie-Tibshirani excluyendo la regresión de Poisson.
En particular interesa saber realizar las predicciones, armar la matriz de confusión y separar los datos en determinado porcentaje para entrenamiento y el resto para predicción.
2- Utilizar alguna base de datos, elegir un porcentaje de entrenamiento y otro de predicción y realizar las comparaciones como se muestran en la figura 4.12 del libro (página 163).
3- Dibujar las curvas ROC en cada caso y calcular la medida AUC para comparar los métodos de predicción.
Ejercicio 2.
1- Realizar el ejercicio 2 del práctico 7 del curso 2021.
2- Con los mismos datos del ejercicio aplicar knn, lda, qda, y naiveBayes.