Entrega de ejercicios

Entrega de ejercicios

de Juan Kalemkerian -
Número de respuestas: 3

Voy a dejar esta "novedad" fijada para ir organizando los ejercicios prácticos que les pediré vayan haciendo y entregando.

En cada bloque colocaré los ejercicios correspondientes a las entregas de acuerdo a los temas que iremos viendo en el curso.

Saludos, Juan.


En respuesta a Juan Kalemkerian

Re: Entrega de ejercicios

de Juan Kalemkerian -
Entrega 1. (va para los que están por maestría en matemática (incluido 3+3+3), para los que están por ingemat altamente recomendado,, para los demás queda como opcional).

Ejercicios 1 al 5 del práctico 1 de 2021 (lo encuentran en la pestaña ("matriz de datos").
En respuesta a Juan Kalemkerian

Re: Entrega de ejercicios

de Juan Kalemkerian -
Entrega 2: Componentes principales

Ejercicio 1: hacer el ejercicio 6 del práctico correspondiente a 2021.
Ejercicio 2: los datos (que tienen en el adjunto) corresponden a 6 variables correspondientes a 91 países del mundo (ejemplo MUNDODES del libro de Peña). Realizar el análisis de componentes principales para esos datos (lo que vimos en las clases), realizar el biplot e interpretar todo lo que se pueda respecto al mismo. ¿Qué tan informativo es el biplot? ¿Es de utilidad?
Ejercicio 3: bajar el archivo de datos genéticos llamados NCI60 del libro de James-Witten-Hastie-Tibshirani (página 542, u otra según la versión que tengan bajada del libro). Hacer el análisis de componentes principales. ¿Cuál es el porcentaje de la varianza explicada considerando las principales 10 componentes? ¿Cuántas componentes principales debemos considerar para obtener el 92% de la variabilidad explicada?
En respuesta a Juan Kalemkerian

Re: Entrega de ejercicios

de Juan Kalemkerian -
Entrega 3: Análisis de clusters

Ejercicio 1.
1- Escribir un programa en R que a partir de un conjunto de datos, grafique en función de k (cantidad de clusters a separar entre los datos) para k entre 2 y un determinado valor y que calcule la suma de cuadrados whithin (lo cual servirá para sugerir algún valor adecuado de la cantidad de clusters en la cual separar: aquel donde se encuentre un "codo" en la disminución de la función a minimizar).
2- Utilizando los datos de USArrests, hacer un gráfico como el programado en la parte anterior, elegir un valor de k y separar en esos k grupos, indicando los estados pertenecientes a cada grupo.
3- Aplicar las partes 1 y 2 pero aplicando pam en lugar de kmeans con la distancia de Manhattan.
Ejercicio 2.
1- Utilizando los datos NCI60 (de la entrega anterior) seleccionar un número adecuado de grupos en los cuales separar (utilizar algún criterio para la elección del número adecuado de grupos).
2- Aplicar kmeans y PAM a los mismos. Calcular los grados de similitud entre la partición generada por PAM y la generada por kmeans.
3- Graficar dendrogramas utilizando las distintas medidas de disimilaridad que proporciona la función hclust de R (complete, single, average, centroid y Ward). ¿Cuáles de los dendrogramas realiza un ajuste más en concordancia con las distancias originales entre los datos?

Ejercicio 3.
Repetir el ejercicio 2 pero tomando como individuos las lineas genéticas.