Che cosa sono i Tree-based Machine Learning models?

Deep Learning Italia
3 min readDec 1, 2021

--

Autore: Giorgio Visani at Deep Learning Italia

Nella vasta gamma di modelli di Machine Learning, tra i più noti e più utilizzati ricordiamo le Reti Neurali, modelli basati sui Kernel (SVM, Kernel Regression, etc) e modelli basati su Alberi Decisionali.

Queste tre classi di modelli possiedono un teorema di approssimazione universale che garantisce, sotto opportune circostanze, una perfetta approssimazione di una qualsiasi superficie geometrica.
Questi modelli hanno potenzialità previsive simili alle Reti, ma sono più veloci e meno complessi da allenare nella pratica.

In questo articolo parleremo di Decision Tree (modello base) e modelli più complessi come Bagging, Random Forest e Gradient Boosting.

Decision Tree Model

La classica struttura ad albero di questi algoritmi genera modelli di previsione basati su regole: possiamo infatti vedere una corrispondenza uno a uno tra uno split creato su un Albero Decisionale e una regola espressa in forma di disuguaglianza.

Example Decision Tree with concepts of overfitting in this case

Bagging

Per potenziare i semplici alberi decisionali, la procedura di Bagging consiste nel generare tanti diversi campioni Bootstrap a partire dal nostro dataset di training originale. Su ognuno di questi viene allenato un Albero differente e i risultanti modelli vengono poi combinati insieme.

Random Forest

Questo modello è un particolare tipo di Bagging: sfrutta la stessa idea di combinare modelli allenati su campioni Bootstrap. La differenza principale con in classico Bagging consiste nella costruzione degli alberi: per creare Alberi maggiormente diversi tra loro, ad ogni split si scelgono casualmente solo poche variabili del dataset, lo split può essere fatto utilizzando solamente una di queste variabili. Ripetendo la procedura per ogni split di ogni albero, induciamo gli alberi ad avere split basati su variabili diverse.

Gradient Boosting

L’ultimo e più potente modello basato sugli Alberi invece, sfrutta l’idea del Boosting: partire da un modello relativamente mediocre, cercando di migliorarlo pian piano aggiungendo altri modelli.

In maniera semplificata, possiamo pensare che il primo modello ad Albero cerca di dare una previsione approssimativa, mentre i successivi Alberi si specializzando sugli errori commessi da quelli precedenti, cercando di migliorare le previsioni più critiche.

Modellazione matematica dell’algoritmo

Se sei interessato a saperne di più visita l’articolo completo al link:

Se sei interessato a saperne di più visita il nostro e-learning:

--

--

Deep Learning Italia

The biggest e-learning platform in Italian language for Deep Learning and Machine Learning.