EMC: Entrega de ejercicios

Voy a dejar esta "novedad" fijada para ir organizando los ejercicios prácticos que les pediré vayan haciendo y entregando.

En cada bloque colocaré los ejercicios correspondientes a las entregas de acuerdo a los temas que iremos viendo en el curso.

Saludos, Juan.

Re: Entrega de ejercicios

de Juan Kalemkerian - miércoles, 28 de agosto de 2024, 16:50

Entrega 1. (va para los que están por maestría en matemática (incluido 3+3+3), para los que están por ingemat altamente recomendado,, para los demás queda como opcional).

Ejercicios 1 al 5 del práctico 1 de 2021 (lo encuentran en la pestaña ("matriz de datos").

Re: Entrega de ejercicios

de Juan Kalemkerian - jueves, 19 de septiembre de 2024, 16:09

Entrega 2: Componentes principales

Ejercicio 1: hacer el ejercicio 6 del práctico correspondiente a 2021.
Ejercicio 2: los datos (que tienen en el adjunto) corresponden a 6 variables correspondientes a 91 países del mundo (ejemplo MUNDODES del libro de Peña). Realizar el análisis de componentes principales para esos datos (lo que vimos en las clases), realizar el biplot e interpretar todo lo que se pueda respecto al mismo. ¿Qué tan informativo es el biplot? ¿Es de utilidad?
Ejercicio 3: bajar el archivo de datos genéticos llamados NCI60 del libro de James-Witten-Hastie-Tibshirani (página 542, u otra según la versión que tengan bajada del libro). Hacer el análisis de componentes principales. ¿Cuál es el porcentaje de la varianza explicada considerando las principales 10 componentes? ¿Cuántas componentes principales debemos considerar para obtener el 92% de la variabilidad explicada?

mundodes.RData

Re: Entrega de ejercicios

de Juan Kalemkerian - jueves, 10 de octubre de 2024, 13:35

Entrega 3: Análisis de clusters

Ejercicio 1.
1- Escribir un programa en R que a partir de un conjunto de datos, grafique en función de k (cantidad de clusters a separar entre los datos) para k entre 2 y un determinado valor y que calcule la suma de cuadrados whithin (lo cual servirá para sugerir algún valor adecuado de la cantidad de clusters en la cual separar: aquel donde se encuentre un "codo" en la disminución de la función a minimizar).
2- Utilizando los datos de USArrests, hacer un gráfico como el programado en la parte anterior, elegir un valor de k y separar en esos k grupos, indicando los estados pertenecientes a cada grupo.
3- Aplicar las partes 1 y 2 pero aplicando pam en lugar de kmeans con la distancia de Manhattan.
Ejercicio 2.
1- Utilizando los datos NCI60 (de la entrega anterior) seleccionar un número adecuado de grupos en los cuales separar (utilizar algún criterio para la elección del número adecuado de grupos).
2- Aplicar kmeans y PAM a los mismos. Calcular los grados de similitud entre la partición generada por PAM y la generada por kmeans.
3- Graficar dendrogramas utilizando las distintas medidas de disimilaridad que proporciona la función hclust de R (complete, single, average, centroid y Ward). ¿Cuáles de los dendrogramas realiza un ajuste más en concordancia con las distancias originales entre los datos?

Ejercicio 3.
Repetir el ejercicio 2 pero tomando como individuos las lineas genéticas.

Re: Entrega de ejercicios

de Juan Kalemkerian - jueves, 21 de noviembre de 2024, 10:41

Entrega 4. Clasificación

Ejercicio 1.
1- Correr lo visto en el curso de la sección "Lab" del libro de James-Witten-Hastie-Tibshirani para el capítulo de clasificación.
En particular interesa saber realizar las predicciones, armar la matriz de confusión y separar los datos en determinado porcentaje para entrenamiento y el resto para predicción.
2- (opcional) Utilizar alguna base de datos, elegir un porcentaje de entrenamiento y otro de predicción y realizar las comparaciones como se muestran en las figuras 4.10 y 4.11 del libro (página 152).
3- Dibujar las curvas ROC en cada caso y calcular la medida AUC para comparar los métodos de predicción.
Ejercicio 2.
1- Realizar el ejercicio 2 del práctico 7 del curso 2021.
2- Con los mismos datos del ejercicio aplicar knn, lda, qda, y naiveBayes.

3- Con los mismos datos del ejercicio aplicar SVM, RandomForests y CART