Gradientforsterkning

Fra Wikisida.no
Hopp til navigering Hopp til søk

Gradientforsterkning (engelsk: gradient boosting) er en maskinlæringsteknikk basert på forsterkning i et funksjonelt rom, hvor målet er pseudo-residualene i stedet for de typiske residualene som brukes i tradisjonell forsterkning. Det gir en prediksjonsmodell i form av et ensemble av svake prediksjonsmodeller, altså modeller som gjør svært få antagelser om dataene, og som typisk er enkle beslutningstrær.[1][2] Når et beslutningstre er den svake lærende kalles den resulterende algoritmen gradientforsterkede trær, og utkonkurrerer vanligvis en tilfeldig skog.[1]

En gradient-forsterket tremodell er bygget på en trinnvis måte i likhet med andre forsterknings-metoder, men den generaliserer de andre metodene ved å tillate optimering av en vilkårlig deriverbar tapsfunksjon.

Regularisering[rediger | rediger kilde]

Å tilpasse treningssettet for tett kan føre til forringelse av modellens generaliseringsevne. Flere såkalte regulariseringsteknikker reduserer denne overtilpasningseffekten ved å begrense tilpasningsprosedyren.

En naturlig regulariseringsparameter er antall gradientforsterkende iterasjoner M (altså antall trær i modellen når basislæreren er et beslutningstre). Å øke M reduserer feilen på treningssettet, men å sette det for høyt kan føre til overtilpasning. En optimal verdi av M velges ofte ved å se på prediksjonsfeilen til et separat valideringsdatasett. I tillegg til å kontrollere M brukes flere andre regulariseringsteknikker.

En annen regulariseringsparameter er trærnes dybde. Jo høyere denne verdien er, desto mer sannsynlig vil modellen overtilpasse treningsdataene.

Bruk[rediger | rediger kilde]

Gradientforsterkning kan brukes i feltet for lære å rangere. Søkemotorene Yahoo[3] og Yandex[4] bruker varianter av gradientforsterkning i maskinlærte rangeringsmotorer. Gradientforsterkning brukes også til dataanalyse i høyenergifysikk. Ved Large Hadron Collider (LHC) har varianter av gradientforsterkende dype nevrale nett (DNN) lykkes med å reprodusere resultatene av ikke-maskinlæringsmetoder for analyser på datasettet som ble brukt til å oppdage higgs-bosonet.[5] Gradientforsterkede beslutningstre har også blitt brukt i geologiske studier, for eksempel for kvalitetsevaluering av sandsteinsreservoar.[6]

Ulemper[rediger | rediger kilde]

Selv om forsterkning kan øke nøyaktigheten til en basislærende, for eksempel et beslutningstre eller lineær regresjon, ofrer det forståelighet og tolkbarhet.[7][8] For eksempel er det trivielt og selvforklart å følge stien som et beslutningstre tar for sin beslutning, men det er mye vanskeligere å følge stiene til hundre eller tusenvis av trær. For å oppnå både ytelse og tolkbarhet fins det noen modellkomprimerings-teknikker som kan transformere en XGBoost til et enkelt "født-på-nytt"-beslutningstre som tilnærmer samme beslutningsfunksjon.[9] Videre kan implementeringen være vanskeligere på grunn av at det krever mer beregning.

Se også[rediger | rediger kilde]

Referanser[rediger | rediger kilde]

  1. 1,0 1,1 Hastie, T.; Tibshirani, R.; Friedman, J. H. «10. Boosting and Additive Trees». The Elements of Statistical Learning (2nd utg.). New York: Springer. ISBN 978-0-387-84857-0. Arkivert fra originalen 10. november 2009. 
  2. Friedman, J. H. «Stochastic Gradient Boosting» (PDF). Arkivert fra originalen (PDF) 1. august 2014. Besøkt 17. mai 2024. 
  3. Cossock, David and Zhang, Tong (2008). Statistical Analysis of Bayes Optimal Subset Ranking Arkiveret 2010-08-07 hos Wayback Machine, page 14.
  4. Yandex corporate blog entry about new ranking model "Snezhinsk" Arkivert 1. mars 2012 hos Wayback Machine. Arkiveret 2012-03-01 hos Wayback Machine (in Russian)
  5. Lalchand, Vidhi (2020). «Extracting more from boosted decision trees: A high energy physics case study». arXiv:2001.06033 [stat.ML]. 
  6. . 1. januar 2022. 
  7. Piryonesi, S. Madeh (1. mars 2020). «Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index». 
  8. Wu, Xindong (1. januar 2008). «Top 10 algorithms in data mining». 
  9. Sagi, Omer (2021). «Approximating XGBoost with an interpretable decision tree.».