Multivariate - Beyond the Basics

This notebook shows multivariate forecasting procedures with scalecast. It requires 0.18.2. It uses the Avocados dataset.

We will treat this like a demand forecasting problem. We want to know how many total Avocados will be in demand in the next quarter. But since we know demand and price are intricately related, we will use the historical Avocado prices as a predictor of demand.

[1]:

import pandas as pd
import numpy as np
from scalecast.Forecaster import Forecaster
from scalecast.MVForecaster import MVForecaster
from scalecast.Pipeline import MVPipeline
from scalecast.util import (
    find_optimal_transformation,
    find_optimal_lag_order,
    break_mv_forecaster,
    backtest_metrics,
    backtest_for_resid_matrix,
    get_backtest_resid_matrix,
    overwrite_forecast_intervals,
)
from scalecast import GridGenerator

Read in hyperparameter grids for optimizing models.

[2]:

GridGenerator.get_example_grids()
GridGenerator.get_mv_grids()

[3]:

pd.options.display.max_colwidth = 100
pd.options.display.float_format = '{:,.2f}'.format

[4]:

# arguments to pass to every Forecaster/MVForecaster object we create
Forecaster_kws = dict(
    test_length = 13,
    validation_length = 13,
    metrics = ['rmse','r2'],
)

[5]:

# model summary columns to export everytime we check a model's performance
export_cols = ['ModelNickname','HyperParams','TestSetR2','TestSetRMSE']

[6]:

# read data
data = pd.read_csv('avocado.csv',parse_dates=['Date']).sort_values(['Date'])
# sort appropriately (not doing this could cause issues)
data = data.sort_values(['region','type','Date'])

data.head()

[6]:

	Unnamed: 0	Date	AveragePrice	Total Volume	4046	4225	4770	Total Bags	Small Bags	Large Bags	type	year	region
51	51	2015-01-04	1.22	40,873.28	2,819.50	28,287.42	49.90	9,716.46	9,186.93	529.53	conventional	2015	Albany
50	50	2015-01-11	1.24	41,195.08	1,002.85	31,640.34	127.12	8,424.77	8,036.04	388.73	conventional	2015	Albany
49	49	2015-01-18	1.17	44,511.28	914.14	31,540.32	135.77	11,921.05	11,651.09	269.96	conventional	2015	Albany
48	48	2015-01-25	1.06	45,147.50	941.38	33,196.16	164.14	10,845.82	10,103.35	742.47	conventional	2015	Albany
47	47	2015-02-01	0.99	70,873.60	1,353.90	60,017.20	179.32	9,323.18	9,170.82	152.36	conventional	2015	Albany

[7]:

# demand
vol = data.groupby('Date')['Total Volume'].sum()

[8]:

# price
price = data.groupby('Date')['AveragePrice'].sum()

[9]:

# one Forecaster object needed for each series we want to predict multivariately
# volume
fvol = Forecaster(
    y = vol,
    current_dates = vol.index,
    future_dates = 13,
    **Forecaster_kws,
)

[10]:

# price
fprice = Forecaster(
    y = price,
    current_dates = price.index,
    future_dates = 13,
    **Forecaster_kws,
)

[11]:

# combine Forecaster objects into one MVForecaster object
# all dates will line up and all models will recursively predict values for all series
mvf = MVForecaster(
    fvol,
    fprice,
    names=['volume','price'],
    **Forecaster_kws,
)

[12]:

mvf

[12]:

MVForecaster(
    DateStartActuals=2015-01-04T00:00:00.000000000
    DateEndActuals=2018-03-25T00:00:00.000000000
    Freq=W-SUN
    N_actuals=169
    N_series=2
    SeriesNames=['volume', 'price']
    ForecastLength=13
    Xvars=[]
    TestLength=13
    ValidationLength=13
    ValidationMetric=rmse
    ForecastsEvaluated=[]
    CILevel=None
    CurrentEstimator=mlr
    OptimizeOn=mean
    GridsFile=MVGrids
)

1. Transformations

To make the forecasting task easier, we can transform the data in each Forecaster object before feeding them to the MVForecaster object. The below function will search through many transformations, using out-of-sample testing to score each one. We pass four possible seasonalities to the function (monthly, quarterly, bi-annually, annually) and the results are several seasonal adjustments get selected.

[13]:

transformers = []
reverters = []

for name, f in zip(('volume','price'),(fvol,fprice)):
    print(f'\nFinding best transformation for the {name} series.')
    transformer, reverter = find_optimal_transformation(
        f,
        m = [
            4,
            13,
            26,
            52,
        ],
        test_length = 13,
        num_test_sets = 2,
        space_between_sets = 13,
        return_train_only = True,
        verbose = True,
    )
    transformers.append(transformer)
    reverters.append(reverter)


Finding best transformation for the volume series.
Using mlr model to find the best transformation set on 2 test sets, each 13 in length.
All transformation tries will be evaluated with 4 lags.
Last transformer tried:
[]
Score (rmse): 19481972.64636622
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'loess': True})]
Score (rmse): 22085767.144446835
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'poly_order': 1})]
Score (rmse): 19630858.294620857
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'poly_order': 2})]
Score (rmse): 22320325.279892858
--------------------------------------------------
Last transformer tried:
[('DeseasonTransform', {'m': 4, 'model': 'add'})]
Score (rmse): 18763298.437913556
--------------------------------------------------
Last transformer tried:
[('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'})]
Score (rmse): 18061445.02080934
--------------------------------------------------
Last transformer tried:
[('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 26, 'model': 'add'})]
Score (rmse): 18351627.623842016
--------------------------------------------------
Last transformer tried:
[('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'})]
Score (rmse): 15388459.611609437
--------------------------------------------------
Last transformer tried:
[('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('Transform', <function find_optimal_transformation.<locals>.boxcox_tr at 0x0000022788613D30>, {'lmbda': -0.5})]
Score (rmse): 15776741.170206662
--------------------------------------------------
Last transformer tried:
[('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('Transform', <function find_optimal_transformation.<locals>.boxcox_tr at 0x0000022788613D30>, {'lmbda': 0})]
Score (rmse): 15640424.466095788
--------------------------------------------------
Last transformer tried:
[('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('Transform', <function find_optimal_transformation.<locals>.boxcox_tr at 0x0000022788613D30>, {'lmbda': 0.5})]
Score (rmse): 15512957.889126703
--------------------------------------------------
Last transformer tried:
[('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('DiffTransform', 1)]
Score (rmse): 15929820.9564328
--------------------------------------------------
Last transformer tried:
[('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('DiffTransform', 4)]
Score (rmse): 14324958.982509937
--------------------------------------------------
Last transformer tried:
[('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('DiffTransform', 4), ('DiffTransform', 13)]
Score (rmse): 18135344.27502767
--------------------------------------------------
Last transformer tried:
[('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('DiffTransform', 4), ('DiffTransform', 26)]
Score (rmse): 21861866.629635938
--------------------------------------------------
Last transformer tried:
[('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('DiffTransform', 4), ('DiffTransform', 52)]
Score (rmse): 20808840.990807127
--------------------------------------------------
Last transformer tried:
[('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('DiffTransform', 4), ('ScaleTransform',)]
Score (rmse): 14324958.982509933
--------------------------------------------------
Last transformer tried:
[('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('DiffTransform', 4), ('MinMaxTransform',)]
Score (rmse): 14324958.98250994
--------------------------------------------------
Final Selection:
[('DeseasonTransform', {'m': 4, 'model': 'add', 'train_only': True}), ('DeseasonTransform', {'m': 13, 'model': 'add', 'train_only': True}), ('DeseasonTransform', {'m': 52, 'model': 'add', 'train_only': True}), ('DiffTransform', 4), ('ScaleTransform', {'train_only': True})]

Finding best transformation for the price series.
Using mlr model to find the best transformation set on 2 test sets, each 13 in length.
All transformation tries will be evaluated with 4 lags.
Last transformer tried:
[]
Score (rmse): 22.25551611050048
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'loess': True})]
Score (rmse): 25.65997061765327
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'poly_order': 1})]
Score (rmse): 22.148856499520484
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'poly_order': 2})]
Score (rmse): 32.75467733406476
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'poly_order': 1}), ('DeseasonTransform', {'m': 4, 'model': 'add'})]
Score (rmse): 21.72760152488739
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'poly_order': 1}), ('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'})]
Score (rmse): 20.055641074156764
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'poly_order': 1}), ('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 26, 'model': 'add'})]
Score (rmse): 22.020127438895862
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'poly_order': 1}), ('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'})]
Score (rmse): 14.604251739058533
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'poly_order': 1}), ('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('DiffTransform', 1)]
Score (rmse): 18.183007629056675
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'poly_order': 1}), ('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('DiffTransform', 4)]
Score (rmse): 15.96916031713575
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'poly_order': 1}), ('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('DiffTransform', 13)]
Score (rmse): 18.4021660531495
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'poly_order': 1}), ('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('DiffTransform', 26)]
Score (rmse): 25.298723431620186
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'poly_order': 1}), ('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('DiffTransform', 52)]
Score (rmse): 19.452999810002588
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'poly_order': 1}), ('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('ScaleTransform',)]
Score (rmse): 14.604251739058554
--------------------------------------------------
Last transformer tried:
[('DetrendTransform', {'poly_order': 1}), ('DeseasonTransform', {'m': 4, 'model': 'add'}), ('DeseasonTransform', {'m': 13, 'model': 'add'}), ('DeseasonTransform', {'m': 52, 'model': 'add'}), ('MinMaxTransform',)]
Score (rmse): 14.604251739058554
--------------------------------------------------
Final Selection:
[('DetrendTransform', {'poly_order': 1, 'train_only': True}), ('DeseasonTransform', {'m': 4, 'model': 'add', 'train_only': True}), ('DeseasonTransform', {'m': 13, 'model': 'add', 'train_only': True}), ('DeseasonTransform', {'m': 52, 'model': 'add', 'train_only': True})]

Plot the series after a transformation has been taken.

[14]:

fvol1 = transformers[0].fit_transform(fvol)
fvol1.plot();

../_images/multivariate-beyond_mv_17_0.png

[15]:

fprice1 = transformers[1].fit_transform(fprice)
fprice1.plot();

../_images/multivariate-beyond_mv_18_0.png

Now, combine into an MVForecaster object.

[16]:

mvf1 = MVForecaster(
    fvol1,
    fprice1,
    names = ['volume','price'],
    **Forecaster_kws,
)

2. Optimal Lag Selection

Method 1: Univariate out-of-sample testing

The functions below choose the best lags based on what minimizes RMSE on an out-of-sample validation set.

[17]:

fvol1.auto_Xvar_select(try_trend=False,try_seasonalities=False)
fvol1.get_regressor_names()

[17]:

['AR1',
 'AR2',
 'AR3',
 'AR4',
 'AR5',
 'AR6',
 'AR7',
 'AR8',
 'AR9',
 'AR10',
 'AR11',
 'AR12',
 'AR13']

[18]:

fprice1.auto_Xvar_select(try_trend=False,try_seasonalities=False)
fprice1.get_regressor_names()

[18]:

['AR1', 'AR2', 'AR3', 'AR4', 'AR5', 'AR6', 'AR7', 'AR8', 'AR9', 'AR10', 'AR11']

Method 2: Information Criteria Search with VAR

[19]:

lag_order_res = find_optimal_lag_order(mvf1,train_only=True)
lag_orders = pd.DataFrame({
    'aic':[lag_order_res.aic],
    'bic':[lag_order_res.bic],
})

lag_orders

[19]:

	aic	bic
0	12	4

Method 3: Multivariate Cross Validation with MLR

[20]:

lags = [
    1,
    2,
    3,
    4,
    9,
    10,
    11,
    12,
    13,
    {'volume':13,'price':9},
    [4,9,12,13],
]

[21]:

grid = dict(
    lags = lags
)

[22]:

mvf1.set_optimize_on('volume')

[23]:

mvf1.ingest_grid(grid)
mvf1.cross_validate(k=3,test_length=13,verbose = True,dynamic_tuning=True)

Num hyperparams to try for the mlr model: 11.
Fold 0: Train size: 139 (2015-02-01 00:00:00 - 2017-09-24 00:00:00). Test Size: 13 (2017-10-01 00:00:00 - 2017-12-24 00:00:00).
Fold 1: Train size: 126 (2015-02-01 00:00:00 - 2017-06-25 00:00:00). Test Size: 13 (2017-07-02 00:00:00 - 2017-09-24 00:00:00).
Fold 2: Train size: 113 (2015-02-01 00:00:00 - 2017-03-26 00:00:00). Test Size: 13 (2017-04-02 00:00:00 - 2017-06-25 00:00:00).
Chosen paramaters: {'lags': 10}.

3. Model Optimization with Cross Validation

[24]:

def forecaster(mvf):
    mvf.tune_test_forecast(
        ['lasso','ridge','xgboost','lightgbm'],
        cross_validate = True,
        k = 3,
        test_length = 13,
        dynamic_tuning=True,
        limit_grid_size=.2,
        min_grid_size=4,
    )

forecaster(mvf1)

[25]:

mvf1.plot(series='volume');

../_images/multivariate-beyond_mv_34_0.png

[26]:

mvf1.export('model_summaries',series='volume')[['Series'] + export_cols + ['Lags']].style.set_properties(height = 5)

[26]:

	Series	ModelNickname	HyperParams	TestSetR2	TestSetRMSE	Lags
0	volume	lasso	{'alpha': 0.02}	-0.089158	1.399202	10
1	volume	ridge	{'alpha': 0.04}	-0.050000	1.373819	10
2	volume	xgboost	{'n_estimators': 250, 'scale_pos_weight': 5, 'learning_rate': 0.2, 'gamma': 3, 'subsample': 0.8}	-0.017800	1.352589	10
3	volume	lightgbm	{'n_estimators': 250, 'boosting_type': 'goss', 'max_depth': 2, 'learning_rate': 0.01}	-0.183962	1.458827	[4, 9, 12, 13]

[27]:

mvf1

[27]:

MVForecaster(
    DateStartActuals=2015-02-01T00:00:00.000000000
    DateEndActuals=2018-03-25T00:00:00.000000000
    Freq=W-SUN
    N_actuals=165
    N_series=2
    SeriesNames=['volume', 'price']
    ForecastLength=13
    Xvars=[]
    TestLength=13
    ValidationLength=13
    ValidationMetric=rmse
    ForecastsEvaluated=['lasso', 'ridge', 'xgboost', 'lightgbm']
    CILevel=None
    CurrentEstimator=lightgbm
    OptimizeOn=volume
    GridsFile=MVGrids
)

[28]:

fvol1, fprice1 = break_mv_forecaster(mvf1)

[29]:

reverter = reverters[0]
fvol1 = reverter.fit_transform(fvol1)

[30]:

fvol1.plot();

../_images/multivariate-beyond_mv_39_0.png

[31]:

fvol1.export('model_summaries')[export_cols].style.set_properties(height = 5)

[31]:

	ModelNickname	HyperParams	TestSetR2	TestSetRMSE
0	lasso	{'alpha': 0.02}	0.388886	13185802.986461
1	ridge	{'alpha': 0.04}	0.249991	14607592.004013
2	xgboost	{'n_estimators': 250, 'scale_pos_weight': 5, 'learning_rate': 0.2, 'gamma': 3, 'subsample': 0.8}	0.455020	12451896.764192
3	lightgbm	{'n_estimators': 250, 'boosting_type': 'goss', 'max_depth': 2, 'learning_rate': 0.01}	0.281993	14292550.306560

4. Model Stacking

[32]:

def model_stack(mvf,train_only=False):
    mvf.add_signals(['lasso','ridge','lightgbm','xgboost'],train_only=train_only)
    mvf.set_estimator('catboost')
    mvf.manual_forecast(
        lags = 13,
        verbose = False,
    )

model_stack(mvf1,train_only=True)

[33]:

mvf1.plot(series='volume');

../_images/multivariate-beyond_mv_43_0.png

[34]:

mvf1.export('model_summaries',series='volume')[['Series'] + export_cols + ['Lags']].style.set_properties(height = 5)

[34]:

	Series	ModelNickname	HyperParams	TestSetR2	TestSetRMSE	Lags
0	volume	lasso	{'alpha': 0.02}	-0.089158	1.399202	10
1	volume	ridge	{'alpha': 0.04}	-0.050000	1.373819	10
2	volume	xgboost	{'n_estimators': 250, 'scale_pos_weight': 5, 'learning_rate': 0.2, 'gamma': 3, 'subsample': 0.8}	-0.017800	1.352589	10
3	volume	lightgbm	{'n_estimators': 250, 'boosting_type': 'goss', 'max_depth': 2, 'learning_rate': 0.01}	-0.183962	1.458827	[4, 9, 12, 13]
4	volume	catboost	{'verbose': False}	0.069340	1.293392	13

[35]:

fvol1, fprice1 = break_mv_forecaster(mvf1)

[36]:

fvol1 = reverter.fit_transform(fvol1)

[37]:

fvol1.export('model_summaries',determine_best_by='TestSetRMSE')[export_cols].style.set_properties(height = 5)

[37]:

	ModelNickname	HyperParams	TestSetR2	TestSetRMSE
0	xgboost	{'n_estimators': 250, 'scale_pos_weight': 5, 'learning_rate': 0.2, 'gamma': 3, 'subsample': 0.8}	0.455020	12451896.764192
1	catboost	{'verbose': False}	0.447398	12538678.460293
2	lasso	{'alpha': 0.02}	0.388886	13185802.986461
3	lightgbm	{'n_estimators': 250, 'boosting_type': 'goss', 'max_depth': 2, 'learning_rate': 0.01}	0.281993	14292550.306560
4	ridge	{'alpha': 0.04}	0.249991	14607592.004013

[38]:

fvol1.plot_test_set(order_by='TestSetRMSE');

../_images/multivariate-beyond_mv_48_0.png

[39]:

fvol1.plot(order_by='TestSetRMSE');

../_images/multivariate-beyond_mv_49_0.png

5. Multivariate Pipelines

[40]:

def mvforecaster(mvf,train_only=False):
    forecaster(mvf)
    model_stack(mvf,train_only=train_only)

[41]:

pipeline = MVPipeline(
    steps = [
        ('Transform',transformers),
        ('Forecast',mvforecaster),
        ('Revert',reverters),
    ],
    **Forecaster_kws,
)

[42]:

fvol1, fprice1 = pipeline.fit_predict(fvol,fprice,train_only=True)

[43]:

fvol1.plot_test_set(order_by='TestSetRMSE');

../_images/multivariate-beyond_mv_54_0.png

[44]:

fvol1.plot(order_by='TestSetRMSE');

../_images/multivariate-beyond_mv_55_0.png

[45]:

fvol1.export('model_summaries',determine_best_by='TestSetRMSE')[export_cols].style.set_properties(height = 5)

[45]:

	ModelNickname	HyperParams	TestSetR2	TestSetRMSE
0	lightgbm	{'n_estimators': 150, 'boosting_type': 'dart', 'max_depth': 1, 'learning_rate': 0.1}	0.511729	11786259.617968
1	lasso	{'alpha': 0.53}	0.440399	12617822.749627
2	ridge	{'alpha': 1.0}	0.433704	12693080.386907
3	catboost	{'verbose': False}	0.384513	13232893.075803
4	xgboost	{'n_estimators': 250, 'scale_pos_weight': 10, 'learning_rate': 0.2, 'gamma': 0, 'subsample': 0.8}	0.381760	13262451.219228

6. Backtesting

[46]:

backtest_results = pipeline.backtest(
    fvol,
    fprice,
    n_iter = 4,
    fcst_length = 13,
    test_length = 0,
    jump_back = 13,
)

[47]:

backtest_metrics(
    backtest_results[:1], # volume only
    mets=['rmse','mae','r2','bias'],
    #names=['volume','price'],
)

[47]:

		Iter0	Iter1	Iter2	Iter3	Average
Model	Metric
lasso	rmse	12,676,035.50	19,334,820.60	12,408,199.56	6,865,555.60	12,821,152.81
	mae	10,622,259.32	16,818,913.78	10,196,006.95	4,890,701.26	10,631,970.33
	r2	0.44	-2.98	-0.17	0.34	-0.59
	bias	-103,321,272.45	-216,135,991.11	106,453,214.29	7,242,071.64	-51,440,494.41
ridge	rmse	13,245,785.08	19,757,231.61	12,581,587.51	8,092,421.06	13,419,256.32
	mae	10,864,770.69	17,175,778.82	10,362,478.27	6,239,668.77	11,160,674.14
	r2	0.38	-3.16	-0.20	0.09	-0.72
	bias	-119,334,285.17	-221,927,247.43	109,823,042.50	55,636,823.14	-43,950,416.74
xgboost	rmse	19,261,511.73	15,233,136.06	15,781,395.08	6,583,385.75	14,214,857.16
	mae	15,981,374.97	13,767,893.53	13,479,663.34	5,216,355.57	12,111,321.85
	r2	-0.30	-1.47	-0.89	0.40	-0.57
	bias	-103,418,980.41	-151,259,604.70	155,235,475.90	-16,515,829.46	-28,989,734.67
lightgbm	rmse	11,239,291.40	17,262,898.64	14,840,433.88	7,289,722.74	12,658,086.67
	mae	9,087,987.10	15,146,134.37	12,373,711.83	5,735,222.10	10,585,763.85
	r2	0.56	-2.17	-0.67	0.26	-0.51
	bias	-86,731,196.07	-189,464,392.96	140,926,488.55	43,025,640.10	-23,060,865.10
catboost	rmse	17,455,804.71	14,955,271.67	16,116,336.26	6,315,491.61	13,710,726.06
	mae	14,805,029.65	13,567,739.76	13,603,593.10	5,036,532.77	11,753,223.82
	r2	-0.07	-1.38	-0.97	0.45	-0.50
	bias	-108,026,362.31	-146,926,722.77	162,948,970.47	24,860,226.70	-16,785,971.98

7. Dynamic Intervals

[48]:

backtest_results = backtest_for_resid_matrix(
    fvol,
    fprice,
    pipeline = pipeline,
    alpha = 0.1, # 90% intervals
)

[49]:

backtest_resid_matrix = get_backtest_resid_matrix(backtest_results)

[50]:

overwrite_forecast_intervals(
    fvol1,
    fprice1,
    backtest_resid_matrix=backtest_resid_matrix,
    alpha=0.1,
)

[51]:

fvol1.plot(models='top_1',order_by='TestSetRMSE',ci=True);

../_images/multivariate-beyond_mv_64_0.png

8. LSTM Modeling

[52]:

fvol1 = transformers[0].fit_transform(fvol1)
fprice1 = transformers[1].fit_transform(fprice1)

[53]:

fvol1.add_ar_terms(13)

[54]:

fvol1.set_estimator('rnn')
fvol1.tune()
fvol1.auto_forecast(call_me='lstm_uv')

[55]:

fvol1.add_series(fprice1.y,called='price')
fvol1.add_lagged_terms('price',lags=13,drop=True)
fvol1

[55]:

Forecaster(
    DateStartActuals=2015-02-01T00:00:00.000000000
    DateEndActuals=2018-03-25T00:00:00.000000000
    Freq=W-SUN
    N_actuals=165
    ForecastLength=13
    Xvars=['AR1', 'AR2', 'AR3', 'AR4', 'AR5', 'AR6', 'AR7', 'AR8', 'AR9', 'AR10', 'AR11', 'AR12', 'AR13', 'pricelag_1', 'pricelag_2', 'pricelag_3', 'pricelag_4', 'pricelag_5', 'pricelag_6', 'pricelag_7', 'pricelag_8', 'pricelag_9', 'pricelag_10', 'pricelag_11', 'pricelag_12', 'pricelag_13']
    TestLength=13
    ValidationMetric=rmse
    ForecastsEvaluated=['lasso', 'ridge', 'xgboost', 'lightgbm', 'catboost', 'lstm_uv']
    CILevel=None
    CurrentEstimator=rnn
    GridsFile=Grids
)

[56]:

fvol1.tune()
fvol1.auto_forecast(call_me='lstm_mv')

[57]:

fvol1.plot_test_set(models=['lstm_uv','lstm_mv']);

../_images/multivariate-beyond_mv_71_0.png

[58]:

fvol1.plot(models=['lstm_uv','lstm_mv']);

../_images/multivariate-beyond_mv_72_0.png

[59]:

fvol1 = reverters[0].fit_transform(fvol1,exclude_models=['lightgbm','lasso','ridge','xgboost','catboost'])
fprice1 = reverters[1].fit_transform(fprice1,exclude_models=['lightgbm','lasso','ridge','xgboost','catboost'])

[60]:

ms = fvol1.export('model_summaries')
ms = ms[export_cols]
ms.style.set_properties(height = 5)

[60]:

	ModelNickname	HyperParams	TestSetR2	TestSetRMSE
0	lasso	{'alpha': 0.53}	0.440399	12617822.749627
1	ridge	{'alpha': 1.0}	0.433704	12693080.386907
2	xgboost	{'n_estimators': 250, 'scale_pos_weight': 10, 'learning_rate': 0.2, 'gamma': 0, 'subsample': 0.8}	0.381760	13262451.219228
3	lightgbm	{'n_estimators': 150, 'boosting_type': 'dart', 'max_depth': 1, 'learning_rate': 0.1}	0.511729	11786259.617968
4	catboost	{'verbose': False}	0.384513	13232893.075803
5	lstm_uv	{'layers_struct': [('LSTM', {'units': 50, 'activation': 'tanh', 'dropout': 0.2, 'return_sequences': True}), ('LSTM', {'units': 50, 'activation': 'tanh', 'dropout': 0.2, 'return_sequences': True}), ('LSTM', {'units': 50, 'activation': 'tanh', 'dropout': 0.2, 'return_sequences': False})], 'epochs': 50, 'verbose': 0}	0.449703	12512491.086281
6	lstm_mv	{'layers_struct': [('LSTM', {'units': 50, 'activation': 'tanh', 'return_sequences': True}), ('LSTM', {'units': 50, 'activation': 'tanh', 'return_sequences': True}), ('LSTM', {'units': 50, 'activation': 'tanh', 'return_sequences': False})], 'epochs': 50, 'verbose': 0}	0.514143	11757086.227344

[61]:

fvol1.plot_test_set(order_by = 'TestSetRMSE');

../_images/multivariate-beyond_mv_75_0.png

[62]:

fvol1.plot(order_by = 'TestSetRMSE');

../_images/multivariate-beyond_mv_76_0.png

9. Benchmarking against Naive Model

[63]:

fvol1 = transformers[0].fit_transform(fvol1)
fvol1.set_estimator('naive')
fvol1.manual_forecast()
fvol1 = reverters[0].fit_transform(fvol1,exclude_models=['lightgbm','lasso','ridge','xgboost','catboost','lstm_uv','lstm_mv'])

[67]:

ms = fvol1.export('model_summaries',determine_best_by='TestSetRMSE')
ms = ms[export_cols]
ms.style.set_properties(height = 5)

[67]:

	ModelNickname	HyperParams	TestSetR2	TestSetRMSE
0	lstm_mv	{'layers_struct': [('LSTM', {'units': 50, 'activation': 'tanh', 'return_sequences': True}), ('LSTM', {'units': 50, 'activation': 'tanh', 'return_sequences': True}), ('LSTM', {'units': 50, 'activation': 'tanh', 'return_sequences': False})], 'epochs': 50, 'verbose': 0}	0.514143	11757086.227344
1	lightgbm	{'n_estimators': 150, 'boosting_type': 'dart', 'max_depth': 1, 'learning_rate': 0.1}	0.511729	11786259.617968
2	lstm_uv	{'layers_struct': [('LSTM', {'units': 50, 'activation': 'tanh', 'dropout': 0.2, 'return_sequences': True}), ('LSTM', {'units': 50, 'activation': 'tanh', 'dropout': 0.2, 'return_sequences': True}), ('LSTM', {'units': 50, 'activation': 'tanh', 'dropout': 0.2, 'return_sequences': False})], 'epochs': 50, 'verbose': 0}	0.449703	12512491.086281
3	lasso	{'alpha': 0.53}	0.440399	12617822.749627
4	ridge	{'alpha': 1.0}	0.433704	12693080.386907
5	catboost	{'verbose': False}	0.384513	13232893.075803
6	xgboost	{'n_estimators': 250, 'scale_pos_weight': 10, 'learning_rate': 0.2, 'gamma': 0, 'subsample': 0.8}	0.381760	13262451.219228
7	naive	{}	-0.188041	18384892.054096

[65]:

fvol1.plot_test_set(order_by = 'TestSetRMSE');

../_images/multivariate-beyond_mv_80_0.png

[66]:

fvol1.plot(order_by = 'TestSetRMSE');

../_images/multivariate-beyond_mv_81_0.png