# Ejemplo de clasificación con árbol de decisión

Al comienzo se importan las bibliotecas y módulos a utilizar

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn import tree
from sklearn.metrics import confusion_matrix
%matplotlib inline

Luego aparecen la funciones auxiliares

In [None]:
def funcion_auxiliar_que_suma(a,b):
 """
 Esta funcion suma dos elementos y devuelve el resultado
 """
 
 suma = a+b
 
 return suma

In [None]:
def plot_confusion_matrix(cm, classes,
 normalize=False,
 title='Confusion matrix',
 cmap=plt.cm.Blues):
 """
 This function prints and plots the confusion matrix.
 Normalization can be applied by setting `normalize=True`.
 """
 import itertools 
 
 plt.imshow(cm, interpolation='nearest', cmap=cmap)
 plt.title(title)
 plt.colorbar()
 tick_marks = np.arange(len(classes))
 plt.xticks(tick_marks, classes, rotation=45)
 plt.yticks(tick_marks, classes)

 if normalize:
 cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
 print("Normalized confusion matrix")
 else:
 print('Confusion matrix, without normalization')

 print(cm)
 
 thresh = cm.max() / 2.
 for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
 plt.text(j, i, cm[i, j],
 horizontalalignment="center",
 color="white" if cm[i, j] > thresh else "black")

 plt.tight_layout()
 plt.ylabel('True label')
 plt.xlabel('Predicted label')

# 1- Se cargan los datos 

En este caso se utilizará la base de datos iris que viene incluída en el paquete datasets. Además de incluir algunas bases conocidas, el [paquete](http://scikit-learn.org/stable/datasets/index.html#datasets) permite generar datos sintéticos.

In [None]:
db = load_iris() # from sklearn.datasets import load_iris
print(db.DESCR)

Ejemplo: como levantar datos desde la web

In [None]:
# Load CSV from URL using NumPy
from urllib.request import urlopen
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv'
raw_data = urlopen(url)
diabetesDataset = np.loadtxt(raw_data, delimiter=",")
print(diabetesDataset.shape)

Volvemos al ejemplo con la base de datos iris

In [None]:
features = [1, 2] # En este ejemplo usaremos solo dos características
data = db.data[:,features]
feat_names=[db.feature_names[features[0]]] + [db.feature_names[features[1]]]
print(feat_names)

# 2- Separar en conjunto de entrenamiento y test

El modulo [model_selection](http://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection) permite separar el conjunto de datos en entrenamiento y test.

In [None]:
# from sklearn.model_selection import train_test_split.
X_train, X_test, y_train, y_test = train_test_split(
 data , db.target, test_size=0.4, random_state=213)

# 3- Definir el clasificador

Los árboles de decisión son uno de los disponibles en scikit-learn para realizar [aprendizaje supervizado](http://scikit-learn.org/stable/supervised_learning.html).

In [None]:
# from sklearn import tree
clf = tree.DecisionTreeClassifier()
#clf = tree.DecisionTreeClassifier(min_samples_leaf=3)
#clf = tree.DecisionTreeClassifier(max_depth=2)
print(clf)
#help(clf)
# min_samples_leaf=1
# max_depth=None

In [None]:
#help(clf)
#print(clf.feature_importances_) # los atributos que terminan con _ se llenan luego de entrenar

# 4- Entrenar

In [None]:
clf = clf.fit(X_train, y_train)

In [None]:
import graphviz 
dot_data = tree.export_graphviz(clf, out_file=None,
 feature_names=feat_names,
 class_names=db.target_names,
 filled=True, rounded=True,
 special_characters=True)
graph = graphviz.Source(dot_data) 
graph.render("tree")
graph

En este caso, como se utilizan sólo dos características, se puede visualizar la superficie de decisión

In [None]:
# Plot the decision boundaries

# Parameters
n_classes = 3
plot_colors = "bry"
plot_step = 0.01

plt.figure(figsize=(10,10))

# Se realiza una grilla que cubre todo el conjunto de entrenamiento
x_min, x_max = X_train[:, 0].min() - 1, X_train[:, 0].max() + 1
y_min, y_max = X_train[:, 1].min() - 1, X_train[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, plot_step),
 np.arange(y_min, y_max, plot_step))

# Se predice la clase de cada uno de los puntos de la grilla
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

#Se asigna un color a cada clase y se plotea la superficie
cs = plt.contourf(xx, yy, Z, cmap=plt.cm.Paired)
plt.axis("equal")

# Se plotean también los puntos del conjunto de entrenamiento y test
for i, color in zip(range(n_classes), plot_colors):
 idx_train = np.where(y_train == i)
 idx_test = np.where(y_test == i)
 plt.scatter(X_train[idx_train, 0], X_train[idx_train, 1], c=color, marker='o', label=db.target_names[i] +' train',
 cmap=plt.cm.Paired)
 plt.scatter(X_test[idx_test, 0], X_test[idx_test, 1], c=color, marker='v', label=db.target_names[i] +' test',
 cmap=plt.cm.Paired)

plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.legend(loc='upper right')
plt.xlabel(db.feature_names[features[0]])
plt.ylabel(db.feature_names[features[1]])
plt.title('Decision Boundary')
plt.savefig('decisionBoundary.png')

Se puede predecir a qué clase pertenece un punto y con qué probabilidad (según el modelo aprendido)

In [None]:
print(clf.predict([[2,3.5]]))
print(clf.predict_proba([[2,3.5]]))

# 5- Evaluar el modelo aprendido

Se predice utilizando el conjunto de test y el de entrenamiento

In [None]:
y_pred = clf.predict(X_test)
y_pred_train = clf.predict(X_train)

Se calculan las matrices de confusión (test y entrenamiento)

In [None]:
# from sklearn.metrics import confusion_matrix

cnf_matrix = confusion_matrix(y_test, y_pred)
cnf_matrix_train = confusion_matrix(y_train, y_pred_train)

Se muestran las matrices de confusión utilizando las función auxiliar definida más arriba

In [None]:
# Plot non-normalized confusion matrix
plt.figure(figsize = (15,5))
plt.subplot(1,2,1)
plot_confusion_matrix(cnf_matrix_train, classes=db.target_names,
 title='Confusion matrix, train')

plt.subplot(1,2,2)
plot_confusion_matrix(cnf_matrix, classes=db.target_names,
 title='Confusion matrix, test')


plt.show()

Se calcula el accuracy para el conjunto de entrenamiento y test

In [None]:
print('accuracy train = %f' % np.mean(y_train == y_pred_train))
print('accuracy test = %f' % np.mean(y_test == y_pred))

Otra forma de hacerlo, usando el módulo metrics

In [None]:
from sklearn.metrics import accuracy_score
print('accuracy train = %f ' % accuracy_score(y_train, y_pred_train))
print('accuracy test = %f ' % accuracy_score(y_test, y_pred))