Cuando termine el curso, sería importante que sepan tener respuestas a las siguientes preguntas sobre los distintos temas abordados en el curso. Estas preguntas tienen dos objetivos.
1- Ayudar a redondear conceptos de cada uno de los temas.
2- Preparación de la parte de preguntas teóricas el día del examen.
Estas preguntas no forman parte del material que deben entregar. Lo que deben entregar son lo que les indico en el otro topic.
Iré actualizando esta lista en la medida que recorramos los próximos temas.
ÁLGEBRA LINEAL
1. ¿Qué es una forma cuadrática?
2. ¿Qué propiedades tienen los valores propios de una matriz simétrica?
3. ¿Qué significa que una matriz simétrica sea definida positiva o semidefinida positiva? Indicar dos definiciones equivalentes entre sí.
4. ¿Qué relación existe entre la traza de una matriz y sus valores propios? ¿Y entre el determinante de la matriz y sus valores propios?
5. ¿Qué dice el teorema espectral? Dar dos resultados equivalentes entre sí.
6. ¿Qué dice el teorema de la esfera unidad?
7. ¿Qué propiedades tienen las matrices de covarianzas?
ANÁLISIS EN COMPONENTES PRINCIPALES (PCA)
1. ¿Cuál es el objetivo principal que aborda el análisis en componentes principales?
2. ¿Cómo se hallan las componentes principales? ¿Qué problema resuelven?
3. ¿Qué problema trae aparejada la existencia de datos atípicos en el PCA?
4. Si las variables tienen distintas unidades de medida o distintas magnitudes ¿qué problema puede aparecer en el PCA y cómo se puede hacer para resolverlo?
5. ¿Qué desventaja puede tener estandarizar los datos antes de hacer un PCA?
6. ¿Qué es un biplot y para qué sirve?
7. ¿Cómo se interpretan en el biplot el lugar que ocupan las observaciones? ¿Y el ángulo entre los vectores? ¿Y la longitud de los mismos?
8. ¿Cómo se sabe cuándo un biplot es mucho o poco informativo del conjunto de datos que tenemos?
9. Cuando vemos la salida de la función prcom() en R ¿qué propiedades cumplen los valores que nos arroja la matriz de rotación?
CLUSTERING
¿Cuál es el objetivo general que persigue la técnica llamada clustering?
¿En qué consiste la técnica de k-means? ¿Qué problema computacional tiene?
¿Cómo funciona el algoritmo de separación en grupos de k-means? Describirlo.
Si corro varias veces el programa que calcula las k-means ¿pueden dar grupos distintos? ¿Por qué?
- Responder las preguntas 3 y 4 para la metodología PAM. ¿Qué ventajas y desventajas tiene respecto a kmeans?
¿Qué son los clusters jerárquicos?
¿Cómo se realiza el método de agrupamiento (aglomerativo) que termina con el gráfico llamado dendrograma? Describirlo.
En un dendrograma ¿qué van en las abscisas y en las ordenadas? ¿En las abscisas hay unidad de medida?
- Definición de cada una de las posibles distancias que se pueden utilizar en el agrupamiento por dendrogramas (single, complete, average, centroid, Ward).
- ¿Cómo se estudia la correlación entre un dendrograma y las distancias (o disimilaridades) que tienen los datos originales?
Si en un dendrograma hay dos individuos que están cercanos con distancias cercanas ¿eso implica que son parecidos?
Definición e interpretación de los índices de Silhouette y Dunn.
¿Qué son los heatmaps? Saber explicar cómo se definen, cómo se interpretan y para qué sirven.
¿A qué se le llama estudio de la tendencia en clustering? Explicar en qué consiste.
¿Qué herramientas existen para saber si es razonable separar un conjunto de observaciones en clusters? En clase hablamos de 5 (en particular describir la idea que está detrás del estadístico de Hopkins).
- Definir los índices de Rand y de Jaccard para comparar el grados de similitud entre dos distintas particiones y explicar qué miden y cómo se interpretan.
CLASIFICACIÓN I (5 MÉTODOS CLÁSICOS)
Describir el problema de la clasificación binaria o no binaria.
¿Qué es la regla de decisión Bayes y qué propiedad tiene? ¿Qué problema tiene a la hora de intentar llevarla a la práctica?
Describir el método de k vecinos más cercanos (knn) para clasificar. ¿Qué papel juega la elección del valor de k? Entender el significado de las figuras 2.15 y 2.16 del libro de James-Witten-Hastie-Tibshirani.
Describir el método de clasificación basado en la logística.
¿Cómo se estiman los parámetros en la logística?
Describir el método de análisis discriminante (LDA) para clasificar y el análisis discriminante cuadrático (QDA).
¿Qué limitaciones tienen los métodos LDA y QDA? ¿En qué casos uno es mejor que el otro?
Describir el método naive Bayes para clasificar.
¿Cuáles de los métodos de clasificación vistos es paramétrico y cuáles son no paramétricos?
Saber entender e interpretar gráficos como las figuras 4.6, 4.9 del libro de James-Witten-Hastie-Tibshirani.
Indicar al menos una ventaja y al menos una desventaja de cada uno de los métodos de clasificación.
Definir el training error test y el test error rate. ¿Cuál es el más importante y por qué? ¿Cómo se calculan?
Definir la curva ROC ¿Cómo puede ser utilizada para comparar métodos de clasificación?
Describir el método de cross validation para obtener el valor de k en KNN.
¿En qué consiste el criterio de información de Akaike para la selección de modelos? ¿Cómo se puede utilizar en la logística? En particular vale la pena ver y entender la figura 5.7 del libro de James-Witten-Hastie-Tibshirani.
CLASIFICACIÓN II (SVM, CART)
Describir en qué consiste el método de support vector machines para clasificar datos.
Plantear matemáticamente el problema el problema de optimización que se resuelve para encontrar el hiperplano separador por svm, en ambos casos (cuando los datos están linealmente separados y cuando no lo están).
Explicar de dónde salen los vectores soporte que intervienen en la construcción del hiperplano de separación.
¿Cómo se adapta el método de svm para clasificar cuando los grupos que conforman los datos no están linealmente separados?
Enunciar y explicar el potencial que tiene en svm el teorema de Mercer.
Dar al menos una ventaja y al menos una desventaja de aplicar el método de svm
Describir el método de árboles de regresión y clasificación. Dar ventajas y desventajas del método.
¿Cómo se obtienen las variables que aparecen en el encabezado de las distintas ramas y los valores que aparecen en las mismas? ¿Qué son los valores que aparecen en los nodos del árbol?
- ¿¿Qué significan los métodos de agregación en el tema predicción o regresión?
- Explicar en qué consiste el método de Random Forest para clasificar ¿cuál es la ventaja respecto a CART? ¿Y la desventaja?