Entrega 3: Análisis de clusters
Ejercicio 1.
1- Escribir un programa en R que a partir de un conjunto de datos, grafique en función de k (cantidad de clusters a separar entre los datos) para k entre 2 y un determinado valor y que calcule la suma de cuadrados whithin (lo cual servirá para sugerir algún valor adecuado de la cantidad de clusters en la cual separar: aquel donde se encuentre un "codo" en la disminución de la función a minimizar).
2- Utilizando los datos de USArrests, hacer un gráfico como el programado en la parte anterior, elegir un valor de k y separar en esos k grupos, indicando los estados pertenecientes a cada grupo.
3- Aplicar las partes 1 y 2 pero aplicando pam en lugar de kmeans con la distancia de Manhattan.
Ejercicio 2.
1- Utilizando los datos NCI60 (de la entrega anterior) seleccionar un número adecuado de grupos en los cuales separar (utilizar algún criterio para la elección del número adecuado de grupos).
2- Aplicar kmeans y PAM a los mismos. Calcular los grados de similitud entre la partición generada por PAM y la generada por kmeans.
3- Graficar dendrogramas utilizando las distintas medidas de disimilaridad que proporciona la función hclust de R (complete, single, average, centroid y Ward). ¿Cuáles de los dendrogramas realiza un ajuste más en concordancia con las distancias originales entre los datos?
Ejercicio 3.
Repetir el ejercicio 2 pero tomando como individuos las lineas genéticas.