import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sklearn
import math

# Unfortunately, knn functions prompt "future warnings", the commands below turn them off
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)


ic = pd.read_csv("https://remiller1450.github.io/data/IowaCityHomeSales.csv")


from sklearn.model_selection import train_test_split
train, test = train_test_split(ic, test_size=0.2, random_state=7)


## Select numeric data
train_num = train.select_dtypes("number")

## Specify target vars
train_price = train_num['sale.amount']
train_over = (train_num['assessed'] > train_num['sale.amount']).astype(int)

## Create predictor matrix
train_X_price = train_num.drop('sale.amount',axis=1)
train_X_over = train_num.drop(['sale.amount', 'assessed'], axis=1)


from sklearn.neighbors import KNeighborsClassifier
knnc = KNeighborsClassifier()
knnc.fit(train_X_over, train_over)
knnc.score(train_X_over, train_over)

0.7616747181964574


from sklearn.metrics import accuracy_score
y_pred_over = knnc.predict(train_X_over)
accuracy_score(train_over, y_pred_over)

0.7616747181964574


from sklearn.pipeline import Pipeline 
from sklearn.preprocessing import StandardScaler

pipe = Pipeline([
('scaler', StandardScaler()),
('classifier', KNeighborsClassifier())
])


pipe.fit(train_X_over, train_over)

Pipeline(steps=[('scaler', StandardScaler()),
                ('classifier', KNeighborsClassifier())])


pipe.score(train_X_over, train_over)

0.7793880837359098


from sklearn.preprocessing import RobustScaler, MaxAbsScaler
parms = {'scaler': [StandardScaler(), RobustScaler(), MaxAbsScaler()],
         'classifier__n_neighbors': [10,20,30],
         'classifier__weights': ['uniform','distance'],
         'classifier__p': [1,2]
        }


from sklearn.model_selection import GridSearchCV
grid = GridSearchCV(pipe, parms, cv=5, scoring='accuracy').fit(train_X_over, train_over)
print(grid.best_estimator_)

Pipeline(steps=[('scaler', RobustScaler()),
                ('classifier', KNeighborsClassifier(n_neighbors=30))])


result = pd.DataFrame.from_dict(grid.cv_results_, orient='columns')
print(result.sort_values('rank_test_score').head(5))

    mean_fit_time  std_fit_time  mean_score_time  std_score_time  \
31       0.003014      0.000031         0.002402    4.917636e-04   
0        0.003801      0.001469         0.004399    2.332625e-03   
13       0.003001      0.000632         0.003000    8.996946e-07   
3        0.002599      0.000488         0.001800    4.001618e-04   
25       0.003392      0.000496         0.003200    3.992559e-04   

   param_classifier__n_neighbors param_classifier__p  \
31                            30                   2   
0                             10                   1   
13                            20                   1   
3                             10                   1   
25                            30                   1   

   param_classifier__weights      param_scaler  \
31                   uniform    RobustScaler()   
0                    uniform  StandardScaler()   
13                   uniform    RobustScaler()   
3                   distance  StandardScaler()   
25                   uniform    RobustScaler()   

                                               params  split0_test_score  \
31  {'classifier__n_neighbors': 30, 'classifier__p...              0.656   
0   {'classifier__n_neighbors': 10, 'classifier__p...              0.736   
13  {'classifier__n_neighbors': 20, 'classifier__p...              0.648   
3   {'classifier__n_neighbors': 10, 'classifier__p...              0.720   
25  {'classifier__n_neighbors': 30, 'classifier__p...              0.664   

    split1_test_score  split2_test_score  split3_test_score  \
31           0.701613           0.701613           0.709677   
0            0.693548           0.645161           0.677419   
13           0.701613           0.669355           0.709677   
3            0.685484           0.653226           0.685484   
25           0.693548           0.669355           0.685484   

    split4_test_score  mean_test_score  std_test_score  rank_test_score  
31           0.653226         0.684426        0.024535                1  
0            0.661290         0.682684        0.031158                2  
13           0.677419         0.681213        0.022291                3  
3            0.661290         0.681097        0.023328                4  
25           0.685484         0.679574        0.011065                5


from scipy.stats import poisson
parms = {'scaler': [StandardScaler(), RobustScaler(), MaxAbsScaler()],
         'classifier__n_neighbors': poisson(20),
         'classifier__weights': ['uniform','distance'],
         'classifier__p': [1,2]
        }

from sklearn.model_selection import RandomizedSearchCV
rs = RandomizedSearchCV(pipe, parms, cv =5, n_iter = 30, random_state=0).fit(train_X_over, train_over)


rs.best_estimator_

Pipeline(steps=[('scaler', StandardScaler()),
                ('classifier',
                 KNeighborsClassifier(n_neighbors=28, p=1,
                                      weights='distance'))])


## Functions for k-fold CV and LOOCV
from sklearn.model_selection import KFold, LeaveOneOut, cross_val_predict
k_folds = KFold(n_splits = 5)
loo = LeaveOneOut()

## Initialize a knn model
knn_class = KNeighborsClassifier(n_neighbors=25)

## Return cross-validated predictions
kfold_pred = cross_val_predict(knn_class, train_X_over, train_over, cv = k_folds)
loo_pred = cross_val_predict(knn_class, train_X_over, train_over, cv = loo)


## Import
from sklearn.model_selection import cross_validate

## Evaluate (note that knn_class was defined previously)
cross_validate(knn_class, train_X_over, train_over, cv = 5, scoring = 'accuracy')

{'fit_time': array([0.00400138, 0.00199819, 0.00500059, 0.00300217, 0.00398231]),
 'score_time': array([0.00600123, 0.00599766, 0.0055058 , 0.00601673, 0.00501132]),
 'test_score': array([0.664     , 0.67741935, 0.67741935, 0.66129032, 0.67741935])}


cv_results = cross_validate(knn_class, train_X_over, train_over, cv = 5, scoring = 'accuracy')

## Average (function is from numpy library)
np.average(cv_results['test_score'])

0.6715096774193547


## Same calculation using preds
np.average(kfold_pred == train_over)

0.6714975845410628


### Read flattened, processed data
mnist = pd.read_csv("https://remiller1450.github.io/data/mnist_small.csv")

### Separate the label column (outcome)
label = mnist['label']
mnist = mnist.drop(['label'], axis=1)

### Convert to numpy array and reshape to 28 by 28
mnist_unflattened = mnist.to_numpy()
mnist_unflattened = mnist_unflattened.reshape(6000,28,28)

### Import grayscale color map
import matplotlib.cm as cm

## Plot the first six samples
fig, axs = plt.subplots(ncols=6)
for i in range(6):
    axs[i].imshow(mnist_unflattened[i], cmap=cm.Greys)
    axs[i].title.set_text(f'label={label[i]}')
plt.show()

Lab #2 (part 2) - Pipelines, Cross-validation, and Tuning¶

Part 1 - Scoring Methods¶

Question #1 (scoring)¶

Part 2 - Pipelines¶

Question #2 (pipelines)¶

Part 3 - Cross-validation and Grid Search¶

Question #3 (grid search)¶

Part 4 - Cross-validation and randomized search¶

Part 5 - Other Cross-validation Functions¶

Part 6 - Application¶

Question #4 (Application)¶