preguntómetro: para reflexionar, buscar y encontrar respuestas

preguntómetro: para reflexionar, buscar y encontrar respuestas

de Juan Kalemkerian -
Número de respuestas: 0

Cuando termine el curso, sería importante que sepan tener respuestas a las siguientes preguntas sobre los distintos temas abordados en el curso. Estas preguntas tienen dos objetivos.

1- Ayudar a redondear conceptos de cada uno de los temas.

2- Preparación de la parte de preguntas el día del examen.

Estas preguntas no forman parte del material que deben entregar. Lo que deben entregar son lo que les indico de cada práctico (que tiene una componente más matemática).

Iré actualizando esta lista en la medida que recorramos los próximos temas.


ÁLGEBRA LINEAL

 

1.     ¿Qué es una forma cuadrática?

2.     ¿Qué propiedades tienen los valores propios de una matriz simétrica?

3.     ¿Qué significa que una matriz simétrica sea definida positiva o semidefinida positiva? Indicar dos definiciones equivalentes entre sí.

4.     ¿Qué relación existe entre la traza de una matriz y sus valores propios? ¿Y entre el determinante de la matriz y sus valores propios?

5.     ¿Qué dice el teorema espectral? Dar dos resultados equivalentes entre sí.

6.     ¿Qué dice el teorema de la esfera unidad?

7.     ¿Qué propiedades tienen las matrices de covarianzas?

ANÁLISIS EN COMPONENTES PRINCIPALES (PCA)

 

1.     ¿Cuál es el objetivo principal que aborda el análisis en componentes principales?

2.     ¿Cómo se hallan las componentes principales? ¿Qué problema resuelven?

3.     ¿Qué problema trae aparejada la existencia de datos atípicos en el PCA?

4.     Si las variables tienen distintas unidades de medida o distintas magnitudes ¿qué problema puede aparecer en el PCA y cómo se puede hacer para resolverlo?

5.     ¿Qué desventaja puede tener estandarizar los datos antes de hacer un PCA?

6.     ¿Qué es un biplot y para qué sirve?

7.     ¿Cómo se interpretan en el biplot el lugar que ocupan las observaciones? ¿Y el ángulo entre los vectores?

8.     ¿Cómo se sabe cuándo un biplot es mucho o poco  informativo del conjunto de datos que tenemos?

9.     Cuando vemos la salida de la  función prcom() en R ¿qué propiedades cumplen los valores que nos arroja la matriz de rotación?

 

ESCALADO MULTIDIMENSIONAL-ISOMAPS

1.     ¿Qué objetivo busca el escalado multidimensional?

2.     ¿En qué se diferencia del análisis en componentes principales?

3.     ¿Qué es una variedad? ¿Qué es una geodésica?

4.     ¿Cuál es el papel que cumple la función de distancia elegida en el análisis del escalado multidimensional?

5.     ¿Cómo se sabe si las conclusiones que puedo sacar de la visualización de un plot bidimensional en el escalado multidimensional?

6.     ¿Qué problema ataca el Isomap?


CLUSTERING

  1. ¿Cuál es el objetivo general que persigue la técnica llamada clustering?

  2. ¿En qué consiste la técnica de k-means? ¿Qué problema computacional tiene?

  3. ¿Cómo funciona el algoritmo de separación en grupos de k-means? Describirlo.

  4. Si corro varias veces el programa que calcula las k-means ¿pueden dar grupos distintos? ¿Por qué?

  5. ¿Qué son los clusters jerárquicos?

  6. ¿Cómo se realiza el método de agrupamiento (aglomerativo) que termina con el gráfico llamado dendrograma? Describirlo.

  7. En un dendrograma ¿qué van en las abscisas y en las ordenadas? ¿En las abscisas hay unidad de medida?

  8. Si en un dendrograma hay dos individuos que están cercanos con distancias cercanas ¿eso implica que son parecidos?

  9. Definición e interpretación de los índices de Silhouette y Dunn.

  10. ¿Qué son los heatmaps? Saber explicar cómo se definen y cómo se interpretan.

  11. ¿A qué se le llama estudio de la tendencia en clustering? Explicar en qué consiste.

  12. ¿Qué herramientas existen para saber si es razonable separar un conjunto de observaciones en clusters? En clase hablamos de 4.

  13. CLASIFICACIÓN I (5 MÉTODOS CLÁSICOS)

    1. Describir el problema de la clasificación binaria o no binaria.

    2. ¿Qué es la regla de decisión Bayes y qué propiedad tiene? ¿Qué problema tiene a la hora de intentar llevarla a la práctica?

    3. Definir el training error test y el test error rate. ¿Cuál es el más importante y por qué? ¿Cómo se calculan?

    4. Definir la curva ROC ¿Cómo puede ser utilizada para comparar métodos de clasificación?

    5. Describir el método de k vecinos más cercanos (knn) para clasificar. ¿Qué papel juega la elección del valor de k? Entender el significado de las figuras 2.15 y 2.16 del libro de James-Witten-Hastie-Tibshirani.

    6. Describir el método de cross validation para obtener el valor de k en KNN.

    7. Describir el método de análisis discriminante (LDA) para clasificar y el análisis discriminante cuadrático (QDA).

    8. ¿Qué limitaciones tienen los métodos LDA y QDA? ¿En qué casos uno es mejor que el otro?

    9. Describir el método de la logística para clasificar.

    10. ¿Cómo se estiman los parámetros en la logística?

    11. ¿En qué consiste el criterio de información de Akaike para la selección de modelos? ¿Cómo se puede utilizar en la logística? En particular vale la pena ver y entender la figura 5.7 del libro de James-Witten-Hastie-Tibshirani.

    12. Describir el método naive Bayes para clasificar.

    13. Saber entender e interpretar gráficos como las figuras 4.6, 4.9 del libro de James-Witten-Hastie-Tibshirani.

    14. Indicar al menos una ventaja y al menos una desventaja de cada uno de los métodos de clasificación.

    15. ¿Cuáles de los métodos de clasificación vistos es paramétrico y cuáles son no paramétricos?


    CLASIFICACIÓN II (SVM, CART)

    1. Describir en qué consiste el método de support vector machines para clasificar datos.

    2. Plantear matemáticamente el problema el problema de optimización que se resuelve para encontrar el hiperplano separador por svm, en ambos casos (cuando los datos están linealmente separados y cuando no lo están).

    3. Explicar de dónde salen los vectores soporte que intervienen en la construcción del hiperplano de separación.

    4. ¿Cómo se adapta el método de svm para clasificar cuando los grupos que conforman los datos no están linealmente separados?

    5. Enunciar y explicar el potencial que tiene en svm el teorema de Mercer.

    6. Dar al menos una ventaja y al menos una desventaja de aplicar el método de svm

    7. Describir el método de árboles de regresión y clasificación. Dar ventajas y desventajas del método.

    8. ¿Cómo se obtienen las variables que aparecen en el encabezado de las distintas ramas y los valores que aparecen en las mismas? ¿Qué son los valores que aparecen en los nodos del árbol?