Cuando termine el curso, sería importante que sepan tener respuestas a las siguientes preguntas sobre los distintos temas abordados en el curso. Estas preguntas tienen dos objetivos.
1- Ayudar a redondear conceptos de cada uno de los temas.
2- Preparación de la parte de preguntas teóricas el día del examen.
Estas preguntas no forman parte del material que deben entregar. Lo que deben entregar son lo que les indico en el otro topic.
Iré actualizando esta lista en la medida que recorramos los próximos temas.
ÁLGEBRA LINEAL
1. ¿Qué es una forma cuadrática?
2. ¿Qué propiedades tienen los valores propios de una matriz simétrica?
3. ¿Qué significa que una matriz simétrica sea definida positiva o semidefinida positiva? Indicar dos definiciones equivalentes entre sí.
4. ¿Qué relación existe entre la traza de una matriz y sus valores propios? ¿Y entre el determinante de la matriz y sus valores propios?
5. ¿Qué dice el teorema espectral? Dar dos resultados equivalentes entre sí.
6. ¿Qué dice el teorema de la esfera unidad?
7. ¿Qué propiedades tienen las matrices de covarianzas?
ANÁLISIS EN COMPONENTES PRINCIPALES (PCA)
1. ¿Cuál es el objetivo principal que aborda el análisis en componentes principales?
2. ¿Cómo se hallan las componentes principales? ¿Qué problema resuelven?
3. ¿Qué problema trae aparejada la existencia de datos atípicos en el PCA?
4. Si las variables tienen distintas unidades de medida o distintas magnitudes ¿qué problema puede aparecer en el PCA y cómo se puede hacer para resolverlo?
5. ¿Qué desventaja puede tener estandarizar los datos antes de hacer un PCA?
6. ¿Qué es un biplot y para qué sirve?
7. ¿Cómo se interpretan en el biplot el lugar que ocupan las observaciones? ¿Y el ángulo entre los vectores? ¿Y la longitud de los mismos?
8. ¿Cómo se sabe cuándo un biplot es mucho o poco informativo del conjunto de datos que tenemos?
9. Cuando vemos la salida de la función prcom() en R ¿qué propiedades cumplen los valores que nos arroja la matriz de rotación?
CLUSTERING
¿Cuál es el objetivo general que persigue la técnica llamada clustering?
¿En qué consiste la técnica de k-means? ¿Qué problema computacional tiene?
¿Cómo funciona el algoritmo de separación en grupos de k-means? Describirlo.
Si corro varias veces el programa que calcula las k-means ¿pueden dar grupos distintos? ¿Por qué?
- Responder las preguntas 3 y 4 para la metodología PAM. ¿Qué ventajas y desventajas tiene respecto a kmeans?
¿Qué son los clusters jerárquicos?
¿Cómo se realiza el método de agrupamiento (aglomerativo) que termina con el gráfico llamado dendrograma? Describirlo.
En un dendrograma ¿qué van en las abscisas y en las ordenadas? ¿En las abscisas hay unidad de medida?
- Definición de cada una de las posibles distancias que se pueden utilizar en el agrupamiento por dendrogramas (single, complete, average, centroid, Ward).
- ¿Cómo se estudia la correlación entre un dendrograma y las distancias (o disimilaridades) que tienen los datos originales?
Si en un dendrograma hay dos individuos que están cercanos con distancias cercanas ¿eso implica que son parecidos?
Definición e interpretación de los índices de Silhouette y Dunn.
¿Qué son los heatmaps? Saber explicar cómo se definen, cómo se interpretan y para qué sirven.
¿A qué se le llama estudio de la tendencia en clustering? Explicar en qué consiste.
¿Qué herramientas existen para saber si es razonable separar un conjunto de observaciones en clusters? En clase hablamos de 5 (en particular describir la idea que está detrás del estadístico de Hopkins).
- Definir los índices de Rand y de Jaccard para comparar el grados de similitud entre dos distintas particiones y explicar qué miden y cómo se interpretan.