Negatieve Binomiale Regressie: A Step by Step Guide

How to do Negative Binomial Regression in Python

We beginnen met het importeren van alle benodigde pakketten.

import pandas as pd
from patsy import dmatrices
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt

Volgende, maak een pandas DataFrame voor de tellingen dataset.

df = pd.read_csv('nyc_bb_bicyclist_counts.csv', header=0, infer_datetime_format=True, parse_dates=, index_col=)

We zullen een paar afgeleide regressie variabelen toevoegen aan de X matrix.

ds = df.index.to_series()
df = ds.dt.month
df = ds.dt.dayofweek
df = ds.dt.day

We zullen de variabele Date niet als regressor gebruiken omdat deze een absolute datumwaarde bevat, maar we hoeven niets speciaals te doen om Date te laten vallen omdat deze al wordt gebruikt als de index van het pandas DataFrame. Het zal dus niet beschikbaar zijn voor ons in de X matrix.

Laten we de training en testing data sets creëren.

mask = np.random.rand(len(df)) < 0.8
df_train = df
df_test = df
print('Training data set length='+str(len(df_train)))
print('Testing data set length='+str(len(df_test)))

STAP 1: We zullen nu het Poisson regressie model configureren en fitten op de training data set.

Opzetten van de regressie expressie in patsy notatie. We vertellen patsy dat BB_COUNT onze afhankelijke variabele is en dat deze afhangt van de regressievariabelen: DAY, DAY_OF_WEEK, MONTH, HIGH_T, LOW_T en PRECIP.

expr = """BB_COUNT ~ DAY + DAY_OF_WEEK + MONTH + HIGH_T + LOW_T + PRECIP"""

Opzetten van de X en y matrices voor de training en testing data sets. patsy maakt dit heel eenvoudig.

y_train, X_train = dmatrices(expr, df_train, return_type='dataframe')
y_test, X_test = dmatrices(expr, df_test, return_type='dataframe')

Gebruik de statsmodels GLM klasse, train het Poisson regressie model op de training data set.

poisson_training_results = sm.GLM(y_train, X_train, family=sm.families.Poisson()).fit()

Dit is het einde van de training van het Poisson regressie model. Om het resultaat van de training te zien, kunt u de trainingssamenvatting afdrukken.

print(poisson_training_results.summary())

Dit drukt het volgende af:

Trainingssamenvatting voor het Poisson-regressiemodel (Afbeelding door auteur)

Laten we ook de voorspelde tellingen tegenover de werkelijke tellingen voor de testgegevens uitzetten.

predicted_counts=predictions_summary_frameactual_counts = y_testfig = plt.figure()fig.suptitle('Predicted versus actual bicyclist counts on the Brooklyn bridge')predicted, = plt.plot(X_test.index, predicted_counts, 'go-', label='Predicted counts')actual, = plt.plot(X_test.index, actual_counts, 'ro-', label='Actual counts')plt.legend(handles=)plt.show()

Hier is de output:

Negatieve Binomiale Regressie: A Step by Step Guide

How to do Negative Binomial Regression in Python

Is α statistisch significant?

Geef een antwoord Antwoord annuleren