Negativ binomialregression: Trin for trin-guide

Sådan laver man negativ binomialregression i Python

Vi starter med at importere alle de nødvendige pakker.

import pandas as pd
from patsy import dmatrices
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt

Næst skal vi oprette et pandas DataFrame for datasættet counts.

df = pd.read_csv('nyc_bb_bicyclist_counts.csv', header=0, infer_datetime_format=True, parse_dates=, index_col=)

Vi tilføjer et par afledte regressionsvariabler til X-matrixen.

ds = df.index.to_series()
df = ds.dt.month
df = ds.dt.dayofweek
df = ds.dt.day

Vi vil ikke bruge variablen Date som en regressor, da den indeholder en absolut datoværdi, men vi behøver ikke at gøre noget særligt for at droppe Date, da den allerede forbruges som indeks i pandas DataFrame. Så den vil ikke være tilgængelig for os i X-matrixen.

Lad os oprette trænings- og testdatasættene.

mask = np.random.rand(len(df)) < 0.8
df_train = df
df_test = df
print('Training data set length='+str(len(df_train)))
print('Testing data set length='+str(len(df_test)))

STEG 1: Vi vil nu konfigurere og tilpasse Poisson-regressionsmodellen på træningsdatasættet.

Sæt regressionsudtrykket op i patsy notation. Vi fortæller patsy, at BB_COUNT er vores afhængige variabel, og at den afhænger af regressionsvariablerne: DAY, DAY_OF_WEEK, MONTH, HIGH_T, LOW_T og PRECIP.

expr = """BB_COUNT ~ DAY + DAY_OF_WEEK + MONTH + HIGH_T + LOW_T + PRECIP"""

Opret X- og y-matricer for trænings- og testdatasættene. patsy gør dette meget enkelt.

y_train, X_train = dmatrices(expr, df_train, return_type='dataframe')
y_test, X_test = dmatrices(expr, df_test, return_type='dataframe')

Træn Poisson-regressionsmodellen på træningsdatasættet ved hjælp af statsmodels GLM-klassen.

poisson_training_results = sm.GLM(y_train, X_train, family=sm.families.Poisson()).fit()

Dermed er træningen af Poisson-regressionsmodellen afsluttet. Hvis du vil se resultatet af træningen, kan du udskrive træningsoversigten.

print(poisson_training_results.summary())

Dette udskriver følgende:

Negativ binomialregression: Trin for trin-guide

Sådan laver man negativ binomialregression i Python

Er α statistisk signifikant?

Skriv et svar Annuller svar