Gradientforsterkning

Gradientforsterkning (engelsk: gradient boosting) er en maskinlæringsteknikk basert på forsterkning i et funksjonelt rom, hvor målet er pseudo-residualene i stedet for de typiske residualene som brukes i tradisjonell forsterkning. Det gir en prediksjonsmodell i form av et ensemble av svake prediksjonsmodeller, altså modeller som gjør svært få antagelser om dataene, og som typisk er enkle beslutningstrær.^[1]^[2] Når et beslutningstre er den svake lærende kalles den resulterende algoritmen gradientforsterkede trær, og utkonkurrerer vanligvis en tilfeldig skog.^[1]

En gradient-forsterket tremodell er bygget på en trinnvis måte i likhet med andre forsterknings-metoder, men den generaliserer de andre metodene ved å tillate optimering av en vilkårlig deriverbar tapsfunksjon.

Regularisering[rediger | rediger kilde]

Å tilpasse treningssettet for tett kan føre til forringelse av modellens generaliseringsevne. Flere såkalte regulariseringsteknikker reduserer denne overtilpasningseffekten ved å begrense tilpasningsprosedyren.

En naturlig regulariseringsparameter er antall gradientforsterkende iterasjoner M (altså antall trær i modellen når basislæreren er et beslutningstre). Å øke M reduserer feilen på treningssettet, men å sette det for høyt kan føre til overtilpasning. En optimal verdi av M velges ofte ved å se på prediksjonsfeilen til et separat valideringsdatasett. I tillegg til å kontrollere M brukes flere andre regulariseringsteknikker.

En annen regulariseringsparameter er trærnes dybde. Jo høyere denne verdien er, desto mer sannsynlig vil modellen overtilpasse treningsdataene.

Bruk[rediger | rediger kilde]

Gradientforsterkning kan brukes i feltet for lære å rangere. Søkemotorene Yahoo^[3] og Yandex^[4] bruker varianter av gradientforsterkning i maskinlærte rangeringsmotorer. Gradientforsterkning brukes også til dataanalyse i høyenergifysikk. Ved Large Hadron Collider (LHC) har varianter av gradientforsterkende dype nevrale nett (DNN) lykkes med å reprodusere resultatene av ikke-maskinlæringsmetoder for analyser på datasettet som ble brukt til å oppdage higgs-bosonet.^[5] Gradientforsterkede beslutningstre har også blitt brukt i geologiske studier, for eksempel for kvalitetsevaluering av sandsteinsreservoar.^[6]

Ulemper[rediger | rediger kilde]

Selv om forsterkning kan øke nøyaktigheten til en basislærende, for eksempel et beslutningstre eller lineær regresjon, ofrer det forståelighet og tolkbarhet.^[7]^[8] For eksempel er det trivielt og selvforklart å følge stien som et beslutningstre tar for sin beslutning, men det er mye vanskeligere å følge stiene til hundre eller tusenvis av trær. For å oppnå både ytelse og tolkbarhet fins det noen modellkomprimerings-teknikker som kan transformere en XGBoost til et enkelt "født-på-nytt"-beslutningstre som tilnærmer samme beslutningsfunksjon.^[9] Videre kan implementeringen være vanskeligere på grunn av at det krever mer beregning.

Se også[rediger | rediger kilde]

Referanser[rediger | rediger kilde]

↑ ^1,0 ^1,1 Hastie, T.; Tibshirani, R.; Friedman, J. H. «10. Boosting and Additive Trees». The Elements of Statistical Learning (2nd utg.). New York: Springer. ISBN 978-0-387-84857-0. Arkivert fra originalen 10. november 2009.
↑ Friedman, J. H. «Stochastic Gradient Boosting» (PDF). Arkivert fra originalen (PDF) 1. august 2014. Besøkt 17. mai 2024.
↑ Cossock, David and Zhang, Tong (2008). Statistical Analysis of Bayes Optimal Subset Ranking Arkiveret 2010-08-07 hos Wayback Machine, page 14.
↑ Yandex corporate blog entry about new ranking model "Snezhinsk" Arkivert 1. mars 2012 hos Wayback Machine. Arkiveret 2012-03-01 hos Wayback Machine (in Russian)
↑ Lalchand, Vidhi (2020). «Extracting more from boosted decision trees: A high energy physics case study». arXiv:2001.06033 [stat.ML].
↑ . 1. januar 2022. Manglende eller tom |tittel= (hjelp)
↑ Piryonesi, S. Madeh (1. mars 2020). «Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index».
↑ Wu, Xindong (1. januar 2008). «Top 10 algorithms in data mining».
↑ Sagi, Omer (2021). «Approximating XGBoost with an interpretable decision tree.».

[hastie-1] 1,0 ^1,1 Hastie, T.; Tibshirani, R.; Friedman, J. H. «10. Boosting and Additive Trees». The Elements of Statistical Learning (2nd utg.). New York: Springer. ISBN 978-0-387-84857-0. Arkivert fra originalen 10. november 2009.

[Friedman1999b-2] Friedman, J. H. «Stochastic Gradient Boosting» (PDF). Arkivert fra originalen (PDF) 1. august 2014. Besøkt 17. mai 2024.

[3] Cossock, David and Zhang, Tong (2008). Statistical Analysis of Bayes Optimal Subset Ranking Arkiveret 2010-08-07 hos Wayback Machine, page 14.

[snezhinsk-4] Yandex corporate blog entry about new ranking model "Snezhinsk" Arkivert 1. mars 2012 hos Wayback Machine. Arkiveret 2012-03-01 hos Wayback Machine (in Russian)

[5] Lalchand, Vidhi (2020). «Extracting more from boosted decision trees: A high energy physics case study». arXiv:2001.06033 [stat.ML].

[6] . 1. januar 2022. Manglende eller tom |tittel= (hjelp)

[:1-7] Piryonesi, S. Madeh (1. mars 2020). «Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index».

[8] Wu, Xindong (1. januar 2008). «Top 10 algorithms in data mining».

[9] Sagi, Omer (2021). «Approximating XGBoost with an interpretable decision tree.».

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]