El archivo avila2.R El conjunto de datos consiste en una matriz de 10437x11 y se obtuvieron a partir de copias de la Biblia de Ávila. Dichas copias han sido realizadas por 12 copistas distintos que se indican en la columna 11 (llamados A,B,C,D,E,F,G,H,I,W,X,Y). En las columnas 1 a 10 se encuentran 10 características de las copias de acuerdo al siguiente detalle: col1=distancia intercolumnar col2=margen superior col3=margen inferior col4=explotación col5=número de líneas col6= razón modular col7=espaciado entre líneas col8=peso de la hoja col9=número máximo de palabras col10=razón modular/espaciado entre líneas Los valores de la matriz están estandarizados. EJERICICIO 1 En este ejercicio consideramos únicamente las características de las copias de la matriz de datos. 1-Mediante un análsis de componentes principales, graficar el porcentaje de la varianza explicada por cada componente y el porcentaje acumulado de la varianza explicada e indicar cuántas de estas componentes principales es necesario considerar para obtener al menos el 90% de la varianza explicada. 2- Realizar un biplot considerando todos los datos y por otro lado otro biplot considerando la submatriz formada por los primeros 1000 datos. 3-¿Qué tan informativo resulta en este caso el biplot? 4- ¿Cómo se relacionan las variables V5 con V2? ¿Y V5 con V10? ¿Y V8 con V11? 5-¿Cómo se interpretan las observaciones 7386 y 4928, que aparecen en el biplot de todos los datos y a qué copistas corresponden? EJERCICIO 2 En este ejercicio consideramos únicamente las características de las copias de la matriz de datos, intentamos ver la existencia de agrupamientos entre los mismos. 1-Asumiendo que existen agrupamientos entre las observaciones, indicar de acuerdo a determinado criterio en cuántos grupos es razonable separar. Nota: si se hace algún cálculo para responder a esta pregunta trabajar únicamente con las primeras 1000 observaciones. 2-¿Existen indicios de agrupamiento entre las observaciones? 3- Responder a las mismas preguntas anteriores si buscamos agrupamientos entre las variables. EJERCICIO 3 En este ejercicio comparamos la performance predictiva de distintas metodologías aplicadas a una nueva observación. Se pretende predecir si una nueva observación corresponde al copista A o no. Para ello separamos las 10437 observaciones en las 1000 primeras de entranamiento y las 437 restantes para calcular el porcentaje de error (error rate). 1- Ajustar un modelo logístico tomando como predictores a las variables V4, V5, V8 y V9 y calcular la matriz de confusión. 2- Aplicar KNN con k= 5, k=10 y calcular la matriz de confusión. 3- Aplicar LDA y calcular la matriz de confusión. 4- Aplicar QDA y calcular la matriz de confusión. 5- Aplicar naive Bayes usando como predictores a las variables V4, V5, V8 y V9 y calcular la matriz de confusión. 6- Comentar los resultados obtenidos.