El archivo avila2.R
El conjunto de datos consiste en una matriz de 10437x11 y se obtuvieron a partir de 
copias de la Biblia de Ávila. Dichas copias han sido realizadas por 12 copistas distintos
que se indican en la columna 11 (llamados A,B,C,D,E,F,G,H,I,W,X,Y).
En las columnas 1 a 10 se encuentran 10 características de las copias de acuerdo al siguiente detalle:
col1=distancia intercolumnar
col2=margen superior
col3=margen inferior
col4=explotación
col5=número de líneas
col6= razón modular
col7=espaciado entre líneas
col8=peso de la hoja
col9=número máximo de palabras
col10=razón modular/espaciado entre líneas

Los valores de la matriz están estandarizados.

EJERICICIO 1

En este ejercicio consideramos únicamente las características de las copias de la matriz de datos.
1-Mediante un análsis de componentes principales, graficar el porcentaje de la varianza explicada 
por cada componente y el porcentaje acumulado de la varianza explicada e indicar cuántas de estas componentes
principales es necesario considerar para obtener al menos el 90% de la varianza explicada.
2- Realizar un biplot considerando todos los datos y por otro lado otro biplot considerando la submatriz formada por 
los primeros 1000 datos. 
3-¿Qué tan informativo resulta en este caso el biplot?
4- ¿Cómo se relacionan las variables V5 con V2? ¿Y V5 con V10? ¿Y V8 con V11?
5-¿Cómo se interpretan las observaciones 7386 y  4928, que aparecen en el biplot de todos los datos
y a qué copistas corresponden?


EJERCICIO 2

En este ejercicio consideramos únicamente las características de las copias de la matriz de datos, intentamos ver 
la existencia de agrupamientos entre los mismos.
1-Asumiendo que existen agrupamientos entre las observaciones, indicar de acuerdo a determinado criterio en cuántos 
grupos es razonable separar. 
Nota: si se hace algún cálculo para responder a esta pregunta trabajar únicamente 
con las primeras 1000 observaciones.
2-¿Existen indicios de agrupamiento entre las observaciones?
3- Responder a las mismas preguntas anteriores si buscamos agrupamientos entre las variables. 

EJERCICIO 3

En este ejercicio comparamos la performance predictiva de distintas metodologías aplicadas a una nueva observación.
Se pretende predecir si una nueva observación corresponde al copista A o no.
Para ello separamos las 10437 observaciones en las 1000 primeras de entranamiento y las 437 restantes
para calcular el porcentaje de error (error rate).

1- Ajustar un modelo logístico tomando como predictores a las variables V4, V5, V8 y V9 y calcular la matriz de confusión.
2- Aplicar KNN con k= 5, k=10 y calcular la matriz de confusión.
3- Aplicar LDA y calcular la matriz de confusión.
4- Aplicar QDA y calcular la matriz de confusión.
5- Aplicar naive Bayes usando como predictores a las variables V4, V5, V8 y V9 y calcular la matriz de confusión.
6- Comentar los resultados obtenidos.