import numpy as np
import pandas as pd
import pymc as pm
import arviz as az
import matplotlib.pyplot as plt
import scipy
import scipy.stats as st
import xarray as xr
import pickle

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error


hole_df = pd.read_csv("/content/drive/MyDrive/Golf/drive.csv")
hole_df


avg_df = pd.DataFrame(hole_df.groupby(["event_id", "year", "round_num", "hole"])[["strokes", "par", "distance"]].mean()).reset_index()
count_df = pd.DataFrame(hole_df.groupby(["event_id", "year", "round_num", "hole"])["strokes"].count()).reset_index()

count_df.columns = ["event_id", "year", "round_num", "hole", "count"]
avg_df = avg_df.merge(count_df, on=["event_id", "year", "round_num", "hole",])
avg_df[(avg_df["event_id"]=="R2021464") & (avg_df["round_num"]==1) & (avg_df["hole"]==1)]


x_train, x_test, y_train, y_test = train_test_split(avg_df[["par", "distance", "count"]], avg_df[["strokes"]], test_size=0.25, random_state=42)


par_3_model = LinearRegression()
par_3_model.fit(x_train[x_train["par"]==3][["distance"]],
                y_train[x_train["par"]==3]["strokes"], sample_weight=x_train[x_train["par"]==3]["count"])

# Model parameters and MAE
print(par_3_model.coef_)
print(par_3_model.intercept_)
print("Training Set MAE: " + str(round(mean_absolute_error(y_train[x_train["par"]==3]["strokes"],
                                                           par_3_model.predict(x_train[x_train["par"]==3][["distance"]])), 3)))
print("Test Set MAE: " + str(round(mean_absolute_error(y_test[x_test["par"]==3]["strokes"],
                                                       par_3_model.predict(x_test[x_test["par"]==3][["distance"]])), 3)))

[0.00254143]
2.5686469023363045
Training Set MAE: 0.105
Test Set MAE: 0.111


par_4_model = LinearRegression()
par_4_model.fit(x_train[x_train["par"]==4][["distance"]], y_train[x_train["par"]==4]["strokes"],
                sample_weight=x_train[x_train["par"]==4]["count"])

# Model parameters and MAE
print(par_4_model.coef_)
print(par_4_model.intercept_)
print("Training Set MAE: " + str(round(mean_absolute_error(y_train[x_train["par"]==4]["strokes"],
                                                           par_4_model.predict(x_train[x_train["par"]==4][["distance"]])), 3)))
print("Test Set MAE: " + str(round(mean_absolute_error(y_test[x_test["par"]==4]["strokes"],
                                                       par_4_model.predict(x_test[x_test["par"]==4][["distance"]])), 3)))

[0.00192602]
3.187367319289582
Training Set MAE: 0.134
Test Set MAE: 0.146


par_5_model = LinearRegression()
par_5_model.fit(x_train[x_train["par"]==5][["distance"]], y_train[x_train["par"]==5]["strokes"],
                sample_weight=x_train[x_train["par"]==5]["count"])

# Model parameters and MAE
print(par_5_model.coef_)
print(par_5_model.intercept_)
print("Training Set MAE: " + str(round(mean_absolute_error(y_train[x_train["par"]==5]["strokes"],
                                                           par_5_model.predict(x_train[x_train["par"]==5][["distance"]])), 3)))
print("Test Set MAE: " + str(round(mean_absolute_error(y_test[x_test["par"]==5]["strokes"],
                                                       par_5_model.predict(x_test[x_test["par"]==5][["distance"]])), 3)))

[0.00326362]
2.7921565590168576
Training Set MAE: 0.151
Test Set MAE: 0.121


# Visualize test set observations
fig, ax = plt.subplots()
ax.scatter(x_test[x_test["par"]==3]["distance"], y_test[x_test["par"]==3]["strokes"],
           c="green", label="Par 3", alpha=0.1)
ax.scatter(x_test[x_test["par"]==4]["distance"], y_test[x_test["par"]==4]["strokes"],
           c="blue", label="Par 4", alpha=0.1)
ax.scatter(x_test[x_test["par"]==5]["distance"], y_test[x_test["par"]==5]["strokes"],
           c="red", label="Par 5", alpha=0.1)

# Visualize model predictions
## Par-3
dist = np.linspace(150, 250, 100)
test_df = pd.DataFrame({"distance": dist})
par_3_preds = par_3_model.predict(test_df)
ax.plot(dist, par_3_preds, "g-")

# Par-4
dist = np.linspace(300, 500, 100)
test_df = pd.DataFrame({"distance": dist})
par_4_preds = par_4_model.predict(test_df)
ax.plot(dist, par_4_preds, "b-")

# Par-5
dist = np.linspace(500, 650, 100)
test_df = pd.DataFrame({"distance": dist})
par_5_preds = par_5_model.predict(test_df)
ax.plot(dist, par_5_preds, "r-")

# Add even-par indicators
plt.hlines(3, 100, 660, 'k', '--')
plt.hlines(4, 100, 660, 'k', '--')
plt.hlines(5, 100, 660, 'k', '--')
plt.ylim(2.5, 6)

plt.title("Average Strokes Needed by Hole Distance")
plt.ylabel("Average Strokes")
plt.xlabel("Hole Distance (feet)")

ax.legend()
plt.show()


models = {
    "par_3": par_3_model,
    "par_4": par_4_model,
    "par_5": par_5_model,
}
with open('/content/drive/MyDrive/Golf/drive_models.pkl', 'wb') as handle:
    pickle.dump(models, handle)

	event_id	year	player_id	round_num	hole	strokes	hole_number	par	distance
0	R2021464	2021	1810	1	1	3	1	4	436
1	R2021464	2021	10809	1	1	4	1	4	436
2	R2021464	2021	12510	1	1	5	1	4	436
3	R2021464	2021	12716	1	1	4	1	4	436
4	R2021464	2021	19803	1	1	5	1	4	436
...	...	...	...	...	...	...	...	...	...
192936	R2022541	2022	52375	4	18	4	18	4	512
192937	R2022541	2022	52666	4	18	4	18	4	512
192938	R2022541	2022	52686	4	18	5	18	4	512
192939	R2022541	2022	55182	4	18	5	18	4	512
192940	R2022541	2022	55955	4	18	5	18	4	512

PGA Tour Expected Strokes - Off-the-Tee¶

Modeling¶

Par-3 Holes¶

Par-4 Holes¶

Par-5 Holes¶

Model Visualization¶