# Manipulación básica de datasets

## Imports

In [None]:
# Scientific computing
import numpy as np
np.set_printoptions(formatter={'float': lambda x: "{0:0.3f}".format(x)})

# Statistics
import scipy.stats as stats

# Visualizations
import matplotlib.pyplot as plt
import seaborn as sns;
sns.set(style="ticks", color_codes=True)

# Machine learning
import sklearn

# Data analysis and manipulation
import pandas as pd
pd.set_option('display.precision', 2) # 2 decimal places
pd.set_option('display.max_rows', 20)
pd.set_option('display.max_columns', 30)
pd.set_option('display.width', 100) # wide windows

## Datasets de ejemplo de sklearn

scikit-learn tiene algunos conjuntos de datos pequeños que son útiles para ilustrar rápidamente el comportamiento de los diversos algoritmos. Uno de ellos es el famoso dataset Iris, utilizado por primera vez por Sir R.A. Fisher.

El conjunto de datos contiene 3 clases de 50 instancias cada una, donde cada clase se refiere a un tipo de planta de iris.

In [None]:
# Cargamos el Iris dataset
from sklearn.datasets import load_iris
iris = load_iris()

In [None]:
# Iris es un objeto tipo diccionario
iris.keys()

In [None]:
# Tipos de los items
keys = list(iris.keys())
for k in range(len(keys)):
    print("Type of iris." + str(keys[k]) + " :", type(iris[keys[k]]))

In [None]:
# Item de descripción
print(iris.DESCR)

In [None]:
# Clases o categorías en el target
print(iris.target_names)

In [None]:
# Nombres de las features o variables predictoras
print(iris.feature_names)

Este data set puede usarse como ejemplo para un problema de clasificación. En el mismo nos basamos en las features o variables predictoras, que forman una matriz de diseño $X$, para predecir la variable target que denotamos $y$.

En este ejemplo concreto tenemos:

+ La matriz de diseño $X$ tiene $D=4$ columnas (las variables sepal length, sepal width, petal length, y petal width) y $N=150$ filas (las observaciones). Por eso, para una observación dada el vector de features lo escribimos $\boldsymbol{x}\in \mathbb{R}^D$, y decimos que la matriz $X\in \mathbb{R}^{(N,D)}$.
+ El target es la especie, que denotamos $y$. En este caso puede tomar $C=3$ valores (que llamamos clases o categorías), a saber, setosa, versicolor y virginica.

En los ejemplos de clasificación, el target es siempre una variable discreta. En este ejemplo concreto, todas las features son variables continuas.

In [None]:
# Extraemos los numpy arrays
X = iris.data
y = iris.target

In [None]:
print("Atributos de X")
print(
'''\
type: {}
dtype: {}
ndim: {}
shape: {}
size: {}
itemsize: {}
nbytes: {}\
'''.format(type(X),X.dtype,X.ndim,X.shape,X.size,X.itemsize,X.nbytes)
)

In [None]:
# Primeras 10 filas
X[0:10,:]

In [None]:
print("Atributos de y")
print(
'''\
type: {}
dtype: {}
ndim: {}
shape: {}
size: {}
itemsize: {}
nbytes: {}\
'''.format(type(y),y.dtype,y.ndim,y.shape,y.size,y.itemsize,y.nbytes)
)

In [None]:
# Primeros 10 elementos
y[0:10]

## Manipulación usando Pandas

In [None]:
# Convertimos a pandas dataframe
df = pd.DataFrame(data=X, columns=iris.feature_names)
df['target'] = pd.Series(iris.target_names[y], dtype='category')

In [None]:
# Tipo de objeto creado
type(df)

pandas.core.frame.DataFrame

In [None]:
# Número de filas en el data frame
len(df)

150

In [None]:
# Número de filas y columnas en el data frame
df.shape

(150, 5)

In [None]:
# Visualización
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [None]:
# Primeras filas del data frame
df.head(2)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa


In [None]:
# Ultimas filas del data frame
df.tail(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


### Extracción de filas y columnas

Para seleccionar filas y columnas de un DataFrame de pandas, loc e iloc son dos funciones de uso común.

Hay una diferencia sutil entre las dos funciones:

+ **loc** selecciona filas y columnas con etiquetas específicas
+ **iloc** selecciona filas y columnas en posiciones enteras específicas

Los siguientes ejemplos muestran cómo usar cada función en la práctica.

In [None]:
# Creamos un dataframe
df_ejemplo = pd.DataFrame({'team': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                           'points': [5, 7, 7, 9, 12, 9, 9, 4],
                           'assists': [11, 8, 10, 6, 6, 5, 9, 12]},
                          index=['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'])

# Lo visualizamos
df_ejemplo

In [None]:
df_ejemplo.index

Podemos usar loc para seleccionar filas específicas del DataFrame según sus etiquetas de índice:

In [None]:
# Seleccionamos las filas con index labels 'E' y 'F'
df_ejemplo.loc[['E', 'F']]

Podemos usar loc para seleccionar filas y columnas específicas del DataFrame en función de sus etiquetas:

In [None]:
# Seleccionamos las filas 'E' y 'F' y las columnas 'team' y 'assists'
df_ejemplo.loc[['E', 'F'], ['team', 'assists']]

Podemos usar loc con el argumento : para seleccionar rangos de filas y columnas según sus etiquetas:

In [None]:
# Seleccionamos filas 'E' hasta 'H' y columnas 'team' y 'points'
df_ejemplo.loc['E': , :'points']

Podemos usar iloc para seleccionar filas específicas del DataFrame en función de su posición:

In [None]:
# Seleccionamos las filas desde la 4 a la 6
df_ejemplo.iloc[4:6]

Podemos usar iloc para seleccionar filas específicas y columnas específicas del DataFrame en función de sus posiciones:

In [None]:
# Seleccionamos las filas de la 4 a la 6 y las columnas de 0 a 2
df_ejemplo.iloc[4:6, 0:2]

Otros ejemplos

In [None]:
# Selección de filas con index 2, 3 y 4
df.iloc[2:4]

In [None]:
# Seleccion de filas con identificador 42,43,44, y 45
df.loc[42:45]

In [None]:
# Selección de filas con index par, lambda expression
df.loc[lambda x: x.index % 2 == 0]

In [None]:
# Selección de columnas por el nombre
df[[iris.feature_names[1],iris.feature_names[3]]]

In [None]:
df.loc[2][[iris.feature_names[1],iris.feature_names[3]]]

## Análisis exploratorio

### Resumen numérico de las distribuciones

Comenzamos el análisis con algunos resúmenes numéricos que permiten tener una idea rápida de cómo son las variables en nuestro dataset.

In [None]:
# Identificamos las variables del data frame y sus caracteristicas
df.info()

Vemos si hay datos faltantes:

In [None]:
# Porcentaje de valores nulos
df.isnull().mean()

Resumen numérico de la distribución marginal de las columnas de $X$:

In [None]:
# Distribución marginal de las features
# Estadísticas descriptivas
# Media, desviación estandar, quartiles
df.describe()

In [None]:
# Podemos customizar el resumen numérico si lo deseamos
df.agg({'sepal length (cm)':["min", "max", "median", "skew"]})

Resumen numérico de la distribución marginal del target $y$:

In [None]:
# Valores únicos de las variables categoricas
df["target"].unique()

In [None]:
# Distribución marginal del target como frecuencias
df["target"].value_counts()

In [None]:
# Distribución marginal del target como porcentajes
df["target"].value_counts(normalize=True)

El siguiente paso es ver cómo se relacionan las diferentes variables de $X$ con $y$. La relación global entre todas las variables viene dada por la densidad conjunto $p(\boldsymbol{x},y)$.

Para dicha densidad conjunta es difícil hacer un resumen numérico, pues no es ni continua ni discreta. Sin embargo podemos hacernos una idea mirando los resúmenes de las distribuciones condicionales.

Comenzemos por la más sencilla $p(\boldsymbol{x}|y)$:

In [None]:
df.groupby("target").aggregate(func=["min", "median", "max"])

A modo de ejemplo, vemos que hay una dependencia fuerte entre $\boldsymbol{x}$ e $y$, ya que las medianas varían bastante al condicionar por diferentes valores de $y$ (las diferentes especies).

La dependencia entre las componentes de $\boldsymbol{x}$ puede ser de interés también. Un resumen numérico simple y que nos da una buena idea de su relación se obtiene calculando la matriz de correlaciones.

#### Correlación

Es una medida de la relación entre dos variables. En estadística, se utiliza para evaluar la relación lineal entre dos variables continuas.

La correlación puede variar entre -1 y 1, donde 1 indica una correlación positiva perfecta, -1 indica una correlación negativa perfecta y 0 indica que no hay correlación entre las variables

La función .corr() se utiliza para encontrar la correlación de a pares de todas las columnas del DataFrame. Los nulos se excluyen. Las columnas no numéricas se excluyen.

In [None]:
df.iloc[:,0:4].corr()

Puede ser más sencillo visualizarla con colores:

In [None]:
# Mapa de correlación
cmap = sns.diverging_palette(220, 20, sep=20, as_cmap=True)
sns.heatmap(df.iloc[:,0:4].corr(), annot=True,cmap=cmap, center=0).set_title("Correlation Heatmap", fontsize=16)
plt.show()

De todos modos esta información es parcial. Por ejemplo, $x_1=$sepal lenght y $x_2=$ sepal width parecen tener poca relación entre ellas (correlación baja de -0.12). Sin embargo, al condicionar por las distintas especies esto puede cambiar drásticamente:

In [None]:
df.groupby("target").corr()

In [None]:
# Mapa de correlación
cmap = sns.diverging_palette(220, 20, sep=20, as_cmap=True)
sns.heatmap(df.groupby("target").corr(), annot=True,cmap=cmap, center=0).set_title("Correlation Heatmap", fontsize=16)
plt.show()

### Análisis univariado

Vamos a profundizar en la información estadística que podemos obtener de cada variable por separado (distribución marginal). Esta vez además utilizaremos también visualizaciones para facilitar la tarea.

#### Densidad

La función de densidad de probabilidad (PDF) es la función que describe la distribución de una variable aleatoria continua. En teoría de la probabilidad y estadística, la PDF de una variable aleatoria continua se utiliza para describir la probabilidad de que un valor ocurra dentro de un intervalo determinado.

Recordemos la definición: $p(x)dx$ es la probabilidad de que la variable pertenezca a un intervalo infinitesimal de longitud $dx$ centrado en $x$. En particular, la densidad $p(x)$ no mide probabilidades, sino que mide  probabilidades por unidad de medida de $x$. En este ejemplo concreto podríamos decir %/cm.

Cuando disponemos de un dataset, una forma de estimarla es a través de histogramas. Otra forma un poco más sofisticada es a través de una estimación por núcleos (kernel density estimation, kde). En general se suele graficar ambos, histograma y kde, en una misma figura:

In [None]:
# Ploteamos la función de densidad de probabilidad (PDF) de una variable continua
plt.figure(figsize=(3,3))
sns.displot(data=df, x=iris.feature_names[0], stat="density", kde=True)
plt.show()

En notación matemática, el gráfico anterior estima la densidad de probabilidad (marginal) de la variable $x_1=$sepal lenght, que denotamos $p(x_1)$.

Podemos hacer varios subplots con los histogramas que nos interesan:

In [None]:
fig, ax = plt.subplots(nrows=2, ncols=2, figsize=(8, 6))

sns.histplot(data=df,
             x=iris.feature_names[0],
             stat="density",
             kde=True,
             label=iris.feature_names[0],
             ax=ax[0][0])

sns.histplot(data=df,
             x=iris.feature_names[1],
             stat="density",
             kde=True,
             label=iris.feature_names[1],
             ax=ax[0][1])

sns.histplot(data=df,
             x=iris.feature_names[2],
             stat="density",
             kde=True,
             label=iris.feature_names[2],
             ax=ax[1][0])

sns.histplot(data=df,
             x=iris.feature_names[3],
             stat="density",
             kde=True,
             label=iris.feature_names[3],
             ax=ax[1][1])

plt.tight_layout()
plt.show()

O incluso graficarlos todos juntos:

In [None]:
sns.displot(df, element="step", stat="density")
plt.show()

Pero en ese caso es mejor graficar sólo la densidad:

In [None]:
sns.displot(df, kind="kde", fill=True)
plt.show()

A veces alcanza con un boxplot:

In [None]:
#Boxplot por edad
plt.figure(figsize=(5,2))
sns.boxplot(x = iris.feature_names[0], data = df)
plt.show()

O ambos:

In [None]:
fig, (ax_box, ax_hist) = plt.subplots(2, sharex=True, gridspec_kw={"height_ratios": (.15, .85)})

sns.boxplot(data=df, x=iris.feature_names[0], ax=ax_box)
sns.histplot(data=df, x=iris.feature_names[0], ax=ax_hist, stat="density", kde="True")

# Removemos el nombre del eje del boxplot
ax_box.set(xlabel='')
plt.show()

El boxplot es muy útil para hacer comparaciones rápidas entre distribuciones:

In [None]:
sns.boxplot(data=df)
plt.show()

Para las variables discretas, como es el caso del target $y$ en este ejmplo, es mejor un gráfico de barras. Dicho gráfico aproxima la función de probabilidad puntual (FPP) que está dada por $p(y)=P(Y=y)$.

In [None]:
# Plot de frecuencia
sns.countplot(data=df, x='target')
plt.show()

#### Promedio

In [None]:
# Calculamos la Esperanza de una variable
mean_sl = df[iris.feature_names[0]].mean()
print(f"La esperanza de sepal length es {mean_sl:.2f} cm")

#### Mediana

Es el valor que separa el conjunto de datos en dos partes iguales, donde la mitad de los datos están por encima y la otra mitad están por debajo de la mediana.

Por ejemplo, si tenemos un conjunto de datos de cinco números ordenados de menor a mayor (1, 3, 5, 7, 9), la mediana sería el número que se encuentra en la posición intermedia (número 5). La mitad de los números son menores que 5 y la otra mitad son mayores que 5.

In [None]:
# Mediana
median_sl = df[iris.feature_names[0]].median()
print(f"La mediana de sepal length es {median_sl:.2f} cm")

#### Varianza

Es una medida de cuánto se dispersan los valores de una variable aleatoria alrededor de su media. Es una medida de la variabilidad de una distribución de probabilidad.

In [None]:
var_sl = df[iris.feature_names[0]].var()
print(f"La varianza de sepal length es {var_sl:.2f} cm^2")

El desvío estandar es la raíz de la varianza:

In [None]:
# Desviación estandar
df[iris.feature_names[0]].std()

### Análisis multivariado

El objetivo del análisis multivariado es entender las relaciones entre las diferentes variables.

Por ejemplo, al igual que hicimos con los resúmenes numéricos, podemos empezar analizando la distribución condicional $p(\boldsymbol{x}|y)$:

In [None]:
sns.displot(df, x=iris.feature_names[0], col="target", stat="density", kde=True)
plt.show()

Si no nos gustan los histogramas podemos hacer un stripplot:

In [None]:
col = iris.feature_names[0]
sns.stripplot(y="target", x=col, data=df, jitter=True)
plt.show()

O mejor aún un boxplot:

In [None]:
# Boxplot
col = iris.feature_names[0]
sns.boxplot(x = col, y = 'target', data = df)
plt.show()

Para hacerlo con todas las variables juntas debemos modificar el formato del dataset (long format):

In [None]:
df_long = pd.melt(df, "target", var_name="a", value_name="c")
display(df_long.head())

In [None]:
df.head()

In [None]:
plt.figure(figsize=(8,4))
sns.boxplot(x="a", hue="target", y="c", data=df_long)
plt.show()

Con pandas directamente es un poco más sencillo:

In [None]:
# Boxplot
df.plot.box(by="target",rot=90,figsize=(12, 6))
plt.show()

La relación entre dos variables predictoras podemos visualizarla con un scatter plot decorado con las curvas de nivel de la densidad conjunta:

In [None]:
g = sns.jointplot(
    data=df,
    x=iris.feature_names[0],
    y=iris.feature_names[1],
    kind="kde",
    fill=True,
    alpha=0.4
)
g.plot_joint(plt.scatter, c="w", s=30, linewidth=1, marker="+")
plt.show()

Podemos generalizar esto graficando la distribución condicional de dos variables predictoras dado el target:

In [None]:
sns.jointplot(
    data=df,
    x=iris.feature_names[0],
    y=iris.feature_names[1],
    hue="target",
    kind="kde",
    fill=True,
    alpha=0.4
)
plt.show()

Podemos también usar un scatter plot con boxplots:

In [None]:
g = sns.JointGrid(data=df, x=iris.feature_names[0], y=iris.feature_names[1], hue="target")
g.plot_joint(sns.scatterplot)
g.plot_marginals(sns.boxplot)
plt.show()

En caso de que no sean demasiadas variables predictoras podemos hacer los scatters todos juntos:

In [None]:
sns.pairplot(df, hue="target")
plt.show()

In [None]:
sns.pairplot(df, hue="target", kind="kde")
plt.show()