## Libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sklearn
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)


## Create data sets
from sklearn.datasets import make_circles, make_friedman1
circles_X, circles_y = make_circles(n_samples=200, shuffle=True, noise=0.2, random_state=11, factor=0.3)
friedman_X, friedman_y = make_friedman1(n_samples=200, n_features=10, noise=0.2, random_state=11)

## Train-test splits
from sklearn.model_selection import train_test_split
circles_X_train, circles_X_test, circles_y_train, circles_y_test = train_test_split(circles_X, circles_y, test_size=0.2, random_state=0)
friedman_X_train, friedman_X_test, friedman_y_train, friedman_y_test = train_test_split(friedman_X, friedman_y, test_size=0.2, random_state=0)

## Display training data (Circles)
plt.scatter(circles_X_train[:,0], circles_X_train[:,1], c = circles_y_train)
plt.title("Circles")
plt.show()

## Display training data (Friedman)
plt.scatter(friedman_X_train[:,0], friedman_X_train[:,1], c = friedman_y_train)
plt.title("Friedman")
plt.colorbar(label='Y Value')
plt.show()


from sklearn.linear_model import LogisticRegression
fitted_model = LogisticRegression(penalty='none').fit(circles_X_train, circles_y_train)


## Create the grid
X_grid = np.array(np.meshgrid(np.linspace(-1.5,1.5,100), np.linspace(-1.5,1.5,100))).reshape(2, 100*100).T

## Get predicted probs
grid_preds = fitted_model.predict_proba(X_grid)

## Plot the prediction surface
plt.scatter(X_grid[:,0], X_grid[:,1], c = grid_preds[:,1])
plt.title("Logistic Regression on 'Circles' Data")
plt.colorbar(label='Predicted Prob')
plt.show()


from sklearn.pipeline import Pipeline 
from sklearn.preprocessing import KBinsDiscretizer
disc_pipe = Pipeline([('expander', KBinsDiscretizer(n_bins=4, encode='onehot-dense', strategy='uniform')),
                  ('model', LogisticRegression(penalty='none'))])
                  
fitted_disc_pipe = disc_pipe.fit(circles_X_train, circles_y_train)
X_grid = np.array(np.meshgrid(np.linspace(-1.5,1.5,100), np.linspace(-1.5,1.5,100))).reshape(2, 100*100).T
grid_preds = fitted_disc_pipe.predict_proba(X_grid)
plt.scatter(X_grid[:,0], X_grid[:,1], c = grid_preds[:,1])
plt.colorbar()
plt.show()


## Fit basic linear regression to the Friedman data
from sklearn.linear_model import LinearRegression
fitted_model = LinearRegression().fit(friedman_X_train, friedman_y_train)

## Plot residual vs. X3, which had a quadratic relationship w/ Y in the data generating model
training_resids = friedman_y_train - fitted_model.predict(friedman_X_train)
plt.scatter(friedman_X_train[:,2], training_resids)
plt.axhline(y=0, color='black', linestyle='--')

## Add a lowess smoother
from statsmodels.nonparametric.smoothers_lowess import lowess
smoothed_data = lowess(training_resids, friedman_X_train[:,2], frac=0.3, it=0)
x_smoothed, y_smoothed = smoothed_data[:, 0], smoothed_data[:, 1]
plt.plot(x_smoothed, y_smoothed, color='red', linewidth=2)
plt.show()


## Apply the spline transformer to just one column
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import SplineTransformer
friedman_XDF_train = pd.DataFrame(friedman_X_train, columns=['X1', 'X2', 'X3', 'X4', 'X5', 'X6', 'X7', 'X8', 'X9', 'X10'])
target_column = 'X3'
preprocessor = ColumnTransformer(
        transformers=[('spline', SplineTransformer(degree=2, n_knots=2), [target_column])],
        remainder='passthrough' )
expanded_X_train = preprocessor.fit_transform(friedman_XDF_train)
fitted_model = LinearRegression().fit(expanded_X_train, friedman_y_train)

## Plot residual vs. X3, which had a quadratic relationship w/ Y in the data generating model
training_resids = friedman_y_train - fitted_model.predict(expanded_X_train)
plt.scatter(friedman_X_train[:,2], training_resids)
plt.axhline(y=0, color='black', linestyle='--')

## Add a lowess smoother
from statsmodels.nonparametric.smoothers_lowess import lowess
smoothed_data = lowess(training_resids, friedman_X_train[:,2], frac=0.3, it=0)
x_smoothed, y_smoothed = smoothed_data[:, 0], smoothed_data[:, 1]
plt.plot(x_smoothed, y_smoothed, color='red', linewidth=2)
plt.show()


ic_homes = pd.read_csv("https://remiller1450.github.io/data/IowaCityHomeSales.csv")
ic_homes.head(3)

	sale.amount	sale.date	occupancy	style	built	bedrooms	bsmt	ac	attic	area.base	area.bsmt	area.garage1	area.garage2	area.living	area.lot	lon	lat	assessed
0	172500	1/3/2005	116 (Zero Lot Line)	1 Story Frame	1993	3	Full	Yes	None	1102	925	418	0	1102	5520	-91.509129	41.651160	173040
1	90000	1/5/2005	113 (Condominium)	1 Story Frame	2001	2	None	Yes	None	878	0	0	264	878	3718	-91.522964	41.673240	89470
2	168500	1/12/2005	101 (Single-Family / Owner Occupied)	Split Foyer Frame	1976	4	Full	Yes	None	1236	700	576	0	1236	8800	-91.482311	41.658488	164230

Lab 5 - Regression in Machine Learning¶

Part 1 - Basic Regression Models for each Dataset¶

Part 2 - Feature Expansion¶

Part 3 - Residual Analysis¶

Part 4 - Application¶