## 1 - Regresion Lineal

Como vimos en el curso, la regresion lineal es una tecnica de **modelado predictivo** que encuentra relaciones entre variables independientes $x_i$, que pueden ser *categoricas* (e.g. "Bueno", "Intermedio", "Malo") o *continuas* (24, 3.14, etc), y predice una **respuesta $y$ continua**.

Las tecnicas de regresion son ampliamente usadas para prediccion y modelado de series temporales, y un ejemplo es la prediccion del progreso de una enfermedad.

### Diabetes dataset

Esta base de datos contiene registros individuales de n = 442 pacientes con diabetes, así como la respuesta de interés: una **medida cuantitativa de la progresión de la enfermedad** un año después del inicio. El registro consiste en **diez mediciones características**: edad, sexo, índice de masa corporal, presión arterial promedio y seis mediciones de suero sanguíneo. 

In [None]:
# Como siempre, comenzamos importando los paquetes necesarios

import numpy as np # paquete con funcionalidades matemáticas
import pandas as pandas # paquete que permite manipular datos con formato de tabla
from pandas import plotting as pandas_plot # funciones para graficar datos de tablas
import matplotlib.pyplot as plt # funciones generales para graficar
from sklearn.model_selection import train_test_split # separación de datos en entrenamiento y validación
from sklearn.linear_model import LinearRegression,Ridge,Lasso # modelos para calcular regresión lineal
from sklearn.metrics import mean_squared_error, r2_score # funciones para medir rendimiento de la regresión
import seaborn as sns

In [None]:
# Cargar set de datos
from sklearn.datasets import load_diabetes

dataset = load_diabetes() 
print(dataset.keys())
print('Features:', dataset.feature_names)


In [None]:
# Como con Iris, podemos imprimir informacion sobre el dataset,
# incluyendo cuales son las 10 caracteristicas
print('Descripción:\n',dataset['DESCR'])

In [None]:
X, y = dataset.data, dataset.target
n,m = X.shape
# Imprimimos informacion sobre el dataset
print(f"datos: {n} muestras de dimensión {m} cada una.")
print(dataset.keys())

In [None]:
from sklearn.preprocessing import StandardScaler

# Obtenemos los datos para entrenar
caracteristicas = dataset['feature_names']
muestras = dataset['data']
etiquetas = dataset['target']

# Separamos el dataset en un conjunto de entrenamiento y otro de testeo
Xtrain, Xtest, ytrain, ytest = train_test_split(muestras, etiquetas, random_state=42)

standarize = True # Estandarizar o no los datos

if standarize:
 scaler = StandardScaler()
 Xtrain = scaler.fit_transform(Xtrain) # Estandarizar con datos train
 Xtest = scaler.transform(Xtest) # Aplicar estandarización a datos test

Otra forma de visualizar un set de datos con muchas variables es usando una matriz de correlación, donde cada cuadrado muestra la correlación entre dos variables. Abajo tiene el código para imprimir una matriz de correlación, para el Diabetes dataset, incluyendo la variable que queremos predecir, el progreso de la enfermedad.

In [None]:
# llevamos el dataset a un dataframe de pandas
data_view = pandas.DataFrame(Xtrain, columns=dataset.feature_names)
# agregamos el valor del progreso de diabetes, que es nuestro target
data_view['disease_prog'] = ytrain

# calculamos la matriz de correlacion con .corr()
# .round(2) redondea a dos cifras significativas
matriz_correlacion = data_view.corr().round(2)
# annot = True imprime los valores adentro de las celdas
plt.figure(figsize=(10,10))
sns.heatmap(data=matriz_correlacion, annot=True, cmap="RdBu")

Analizando la matriz de correlación, ¿qué características piensa pueden ser útiles para predecir la progresión? ¿Porqué? ¿Da lo mismo una correlación muy positiva que una muy negativa?

*Puede insertar su respuesta aquí:*

Se propone una manera de visualizacion de los datos:

In [None]:
# Seleccione las variables que quiera usar para ajustar el modelo
# Recuerde que las variables posibles son:
# ['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']
#
variablesUsadas = ['age', 's5']


# Extraemos los índices de las columnas que corresponden a esos nombres, usando list comprehensions
indicesUsados = [i for i, val in enumerate(caracteristicas) if val in variablesUsadas]

# Con los índices, armamos Xtrain y Xtest incompletos, con sólo las columnas especificadas
Xtrain_inc = Xtrain[:,indicesUsados]
Xtest_inc = Xtest[:,indicesUsados]
#
# Y graficamos un scatter plot de las variables a utilizar
plt.figure(figsize=(20, 5))
for i, col in enumerate(indicesUsados):
 plt.subplot(1, len(indicesUsados) , i+1)
 x = Xtrain[:,col]
 y = ytrain
 plt.scatter(x, y, marker='o')
 plt.title(caracteristicas[col])
 plt.xlabel(caracteristicas[col])
 plt.ylabel('disease_prog')

Luego de haber observado un poco los datos con los que vamos a trabajar, procedemos a entrenar un modelo de la misma manera que en los otros notebooks.

Aquí se utilizará como métrica de desempeño el [coeficiente de determinación](https://es.wikipedia.org/wiki/Coeficiente_de_determinaci%C3%B3n) $R^2$ [implementado por sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html).

In [None]:
# Entrenamos el modelo con las variables seleccionadas y medimos el rendimiento
#
# Primero definimos nuestro modelo de regresión lineal
lr_inc = LinearRegression()
#
# Luego lo ajustamos a los las columnas seleccionadas (note que usamos Xtrain_inc en lugar de Xtrain)
lr_inc.fit(Xtrain_inc, ytrain)
#
# Y finalmente, obtenemos las métricas de evaluación para el set de entrenamiento y de testeo y las imprimimos:
#
# evaluacion modelo sobre los datos de entrenamiento
ytrain_predict = lr_inc.predict(Xtrain_inc)
r2_train = r2_score(ytrain, ytrain_predict)
# evaluacion del modelo sobre los datos de testeo
ytest_predict = lr_inc.predict(Xtest_inc)
r2_test = r2_score(ytest, ytest_predict)
#
print( f"R2 en training set es {r2_train:5.3f}, y en el test set es de {r2_test:6.3f}")

El seleccionar qué variables son relevantes según nuestras expectativas, en lugar de usar todos los datos disponibles, puede ser una forma de prevenir el overfitting. Veamos que pasa si ajustamos la regresión lineal usando todas las variables, en lugar de las seleccionadas:

In [None]:
# Ajustamos una regresión a todas las columnas

# Primero definimos nuestro modelo
lr = LinearRegression()

# Luego lo ajustamos a todos los datos
Xtrain_inc = Xtrain
Xtest_inc = Xtest

lr.fit(Xtrain, ytrain)

# Obtenemos las métricas de evaluación para el set de entrenamiento y de testeo y las imprimimos:
# evaluacion modelo sobre los datos de entrenamiento
ytrain_predict = lr.predict(Xtrain)
r2_train = r2_score(ytrain, ytrain_predict)
# evaluacion del modelo sobre los datos de testeo
ytest_predict = lr.predict(Xtest) 
r2_test = r2_score(ytest, ytest_predict) 
#
print( f"Usando todas las columnas, R2 en training set es {r2_train:5.3f}, y en el test set es de {r2_test:6.3f}" )

¿Cómo cambia el rendimiento entre usar sólo las columnas seleccionadas o usarlas todas? ¿Qué concluye? ¿Piensa que este resultado podría cambiar si tuvieramos muchos menos datos?

*Puede insertar su respuesta aquí:*

Una forma más "automática" de elegir qué variables son relevantes para la regresión es mediante el uso de regularización. Intente mejorar el rendimiento del modelo aplicando una regresión de Ridge, y otra regreson de Lasso.

In [None]:
# Primero defina el modelo de Ridge
# al final donde se muestra la regularización. Note que debe elegir el valor
# del parámetro de regularización.
#
modeloRidge = Ridge(alpha=100) 
#
# Luego ajuste el modelo definido a los datos de todas las columnas
modeloRidge.fit(Xtrain, ytrain) 


In [None]:
# Ahora haga lo mismo pero para un modelo tipo Lasso
modeloLasso = Lasso(alpha=1)
modeloLasso.fit(Xtrain, ytrain)

In [None]:
# Evaluamos el rendimiento de los modelos

# Evaluación Ridge:
ytrain_predict_ridge = modeloRidge.predict(Xtrain)
r2_train_ridge = r2_score(ytrain, ytrain_predict_ridge)

# evaluacion del modelo sobre los datos de testeo
ytest_predict_ridge = modeloRidge.predict(Xtest)
r2_test_ridge = r2_score(ytest, ytest_predict_ridge)

# Evaluación LASSO
ytrain_predict_lasso = modeloLasso.predict(Xtrain)
r2_train_lasso = r2_score(ytrain, ytrain_predict_lasso)
# evaluacion del modelo sobre los datos de testeo
ytest_predict_lasso = modeloLasso.predict(Xtest)
r2_test_lasso = r2_score(ytest, ytest_predict_lasso)

# Finalmente, imprimimos el rendimiento de los modelos
#
print( f"El R2 del modelo Ridge en training set es de {r2_train_ridge:5.3f}, y en el test set es de {r2_test_ridge:6.3f}" )
print( f"El R2 del modelo LASSO en training set es de {r2_train_lasso:5.3f}, y en el test set es de {r2_test_lasso:6.3f}")

¿Qué cambios observó en el rendimiento de las predicciones al usar regularización? Discuta brevemente (si puede, mencione la relación entre cantidad de datos y cantidad de variables en este problema)

### Interpretabilidad

A veces, uno de los principales objetivos de entrenar un modelo es ver qué variables son más importantes para el mismo. Esto ya lo hicimos "a ojo" mirando la matriz de correlación más arriba.

Extraiga los coeficientes de los 3 modelos que entrenamos con todas las variables más arriba, para graficar los valores que tienen en el modelo.

In [None]:
coefs_regresionLineal = lr.coef_### COEFICIENTES DE LA REGRESION SIN PENALIZACION
coefs_regresionRidge = modeloRidge.coef_ ### COEFICIENTES DE LA REGRESION CON PENALIZACION RIDGE
coefs_regresionLasso = modeloLasso.coef_### COEFICIENTES DE LA REGRESION CON PENALIZACION LASSO

# Extraemos los nombres de las variables para identificarlas
nombresVariables = dataset.feature_names
N = len(nombresVariables)

# Graficamos los coeficientes de la regresion sin penalizacion
plt.figure(figsize=(8,10))
plt.subplot(3,1,1)
plt.plot(coefs_regresionLineal.T,'o')
plt.title('Regresion lineal sin penalizacion')
plt.grid(True)
axis = plt.xticks(ticks=np.arange(N), labels=nombresVariables)

# Graficamos los coeficientes de la regresion con penalizacion RIDGE
plt.subplot(3,1,2)
grafico = plt.plot(coefs_regresionRidge.T,'o')
plt.title('Regresion lineal con penalizacion Ridge')
inactivos = np.flatnonzero(coefs_regresionRidge == 0)
plt.grid(True)
axis = plt.xticks(ticks=np.arange(N), labels=nombresVariables)

# Graficamos los coeficientes de la regresion con penalizacion
plt.subplot(3,1,3)
inactivos = np.flatnonzero(coefs_regresionLasso == 0)
grafico = plt.plot(coefs_regresionLasso.T,'o')
plt.plot(inactivos,np.zeros(len(inactivos)),'o',color='gray', label='Coeficientes inactivos')
plt.title('Regresion lineal con penalizacion Lasso')
plt.grid(True)
plt.legend()
axis = plt.xticks(ticks=np.arange(N), labels=nombresVariables)

Compare los coeficientes devueltos por los modelos entre ellos, y comparelos con los que usted eligió al principio. ¿Se ajustan los coeficientes devueltos por los modelos con lo que esperaría a partir de la matriz de correlación? Más arriba usted tuvo que elegir el parámetro de regularización de los modelos (alpha). ¿Cómo cree que cambiarían los resultados según se cambie el alpha? (si quiere pruebe cambiando los parámetros y volviendo a correr el código).

*Puede insertar sus respuestas aquí:*

**INTENTE COMPLETAR LA PREGUNTA DE ARRIBA ANTES DE PASAR A LA PRÓXIMA**

En el código que corrimos arriba, entrenando los modelos y analizando los coeficientes, se usó un paso importante: **normalización de los datos**

Este paso puede afectar mucho los coeficientes y la interpretabilidad del modelo. Hipotetice sobre el efecto que puede tener el **no** normalizar los datos sobre los coeficientes del modelo (piense en la escala de las diferentes variables que usamos para entrenar el modelo).

Compruebe su hipótesis cambiando la variable `standarize = False` en las primeras celdas.

*Puede insertar sus respuestas aquí:*

## 2 - Gradiente descendiente

Veremos cómo también se puede resolver un problema de regresión lineal de manera no exacta (sin las ecuaciones normales), aprovechando que se trata de un modelo lineal.

### Resolver un problema de regresión lineal usando la forma cerrada (ecuaciones normales)

In [None]:
from sklearn.preprocessing import add_dummy_feature


np.random.seed(42) # para volver a reproducir el mismo código
m = 100 # cantidad de datos
X = 2 * np.random.rand(m, 1) # datos
y = 4 + 3 * X + np.random.randn(m, 1) # valores

plt.figure(figsize=(6, 4))
plt.plot(X, y, "b.")
plt.xlabel("$x_1$")
plt.ylabel("$y$", rotation=0)
plt.axis([0, 2, 0, 15])
plt.grid()
plt.show()

X_b = add_dummy_feature(X) # agregado de coordenadas homogéneas x0 = 1
theta_best = np.linalg.inv(X_b.T @ X_b) @ X_b.T @ y

print('Mejor ajuste:\n', theta_best)

In [None]:
# Comprobar que es la misma solución que LinearRegression de sklearn
lin_reg = LinearRegression()
lin_reg.fit(X, y)
lin_reg.intercept_, lin_reg.coef_

### Gradiente descendiente por lote (BGD)

In [None]:
eta = 0.1 # learning rate
n_epochs = 1000
m = len(X_b)

np.random.seed(42)
theta = np.random.randn(2, 1) # inicializar los parámetros del modelo de manera aleatoria

# Historial de los parámetros para BGD
theta_path_bgd = []

for epoch in range(n_epochs):
 gradients = 2 / m * X_b.T @ (X_b @ theta - y)
 theta = theta - eta * gradients
 theta_path_bgd.append(theta)

print('Solución encontrada con GD:\n', theta, '\n')

print('Mejor ajuste:\n', theta_best)

### Gradiente descendente estocástico (SGD)

In [None]:
n_epochs = 50
t0, t1 = 5, 50 # hiperparámetros para reducción de learning rate

def learning_schedule(t):
 return t0 / (t + t1)

np.random.seed(42)
theta = np.random.randn(2, 1) # inicialización aleatoria

# Historial de los parámetros para SGD
theta_path_sgd = []

for epoch in range(n_epochs):
 for iteration in range(m):
 random_index = np.random.randint(m)
 xi = X_b[random_index : random_index + 1]
 yi = y[random_index : random_index + 1]
 gradients = 2 * xi.T @ (xi @ theta - yi)
 eta = learning_schedule(epoch * m + iteration)
 theta = theta - eta * gradients
 theta_path_sgd.append(theta) 

print('Solución encontrada con SGD:\n', theta, '\n')

print('Mejor ajuste:\n', theta_best)

Verificar que de parecido a `SGDRegressor`

In [None]:
from sklearn.linear_model import SGDRegressor

sgd_reg = SGDRegressor(max_iter=1000, tol=1e-5, penalty=None, eta0=0.01,
 n_iter_no_change=100, random_state=42)
sgd_reg.fit(X, y.ravel()) # se usa ravel() porque fit() espera arrays en 1D

sgd_reg.intercept_, sgd_reg.coef_

### Gradiente descendiente por mini-batch

In [None]:
n_epochs = 50
minibatch_size = 20
n_batches_per_epoch = int(np.ceil(m / minibatch_size))

np.random.seed(42)
theta = np.random.randn(2, 1) # inicialización aleatoria

t0, t1 = 200, 1000 

def learning_schedule(t):
 return t0 / (t + t1)

# Historial de los parámetros para mini-batch GD
theta_path_mgd = []

for epoch in range(n_epochs):
 shuffled_indices = np.random.permutation(m)
 X_b_shuffled = X_b[shuffled_indices]
 y_shuffled = y[shuffled_indices]
 for iteration in range(0, n_batches_per_epoch):
 idx = iteration * minibatch_size
 xi = X_b_shuffled[idx : idx + minibatch_size]
 yi = y_shuffled[idx : idx + minibatch_size]
 gradients = 2 / minibatch_size * xi.T @ (xi @ theta - yi)
 eta = learning_schedule(iteration)
 theta = theta - eta * gradients
 theta_path_mgd.append(theta)

print('Solución encontrada con mini-batch GD:\n', theta)

print('Mejor ajuste:\n', theta_best)

### Visualizar la evolución de cada método de resolución

In [None]:
theta_path_bgd = np.array(theta_path_bgd)
theta_path_sgd = np.array(theta_path_sgd)
theta_path_mgd = np.array(theta_path_mgd)

plt.figure(figsize=(7, 4))
plt.plot(theta_path_sgd[:, 0], theta_path_sgd[:, 1], "m-s", linewidth=1,
 label="Stochastic")
plt.plot(theta_path_mgd[:, 0], theta_path_mgd[:, 1], "g-+", linewidth=2,
 label="Mini-batch")
plt.plot(theta_path_bgd[:, 0], theta_path_bgd[:, 1], "b-o", linewidth=3,
 label="Batch")

plt.plot(theta_best[0], theta_best[1], 'Xr', markersize=15, label='Solución Cerrada')

plt.legend(loc="upper left")
plt.xlabel(r"$\theta_0$")
plt.ylabel(r"$\theta_1$ ", rotation=0)
plt.axis([2.6, 4.6, 2.3, 3.4])
plt.grid()
plt.show()

Notar que los tres métodos vistos convergen a una misma región, logrando terminar cerca de la solución que minimiza el error cuadrático medio.

**PREGUNTA:** 

¿Se debe a los datos, al error o al modelo elegido? ¿Por qué?

_Respuesta:_