Vad är ensemblemetoder?

Ensemblemetoder är tekniker som syftar till att förbättra noggrannheten i resultat i modeller genom att kombinera flera modeller istället för att använda en enda modell. De kombinerade modellerna ökar noggrannheten i resultaten avsevärt. Detta har ökat populariteten för ensemblemetoder inom maskininlärning.

Ensemblemetoder

Snabb sammanfattning

  • Ensemblemetoder syftar till att förbättra förutsägbarheten i modeller genom att kombinera flera modeller för att göra en mycket pålitlig modell.
  • De mest populära ensemblemetoderna är boosting, bagging och stacking.
  • Ensemblemetoder är idealiska för regression och klassificering, där de minskar bias och varians för att öka noggrannheten hos modeller.

Kategorier av ensemblemetoder

Ensemblemetoder delas in i två breda kategorier, dvs sekventiell ensembleteknik och parallellensembleteknik. Sekventiella ensembletekniker genererar baselever i en sekvens, t.ex. Adaptive Boosting (AdaBoost). Den sekventiella generationen av baselever främjar beroendet mellan baseleverna. Prestandan hos modellen förbättras sedan genom att tilldela högre vikter till tidigare felaktiga elever.

I parallella ensembletekniker genereras baselever i ett parallellt format, t.ex. slumpmässig skog Slumpmässig skog Slumpmässig skog är en teknik som används vid modellering av förutsägelser och beteendeanalys och bygger på beslutsträd. En slumpmässig skog innehåller många beslutsträd. Parallella metoder använder den parallella generationen av baselever för att uppmuntra oberoende mellan baseleverna. Baseleverandernas oberoende minskar avsevärt felet på grund av tillämpningen av medelvärden.

Majoriteten av ensembletekniker tillämpar en enda algoritm för basinlärning, vilket resulterar i homogenitet hos alla basinlärare. Med homogena baselever avses baselever av samma typ, med liknande kvaliteter. Andra metoder gäller heterogena baselever, vilket ger upphov till heterogena ensembler. Heterogena baselever är elever av olika typer.

Huvudtyper av ensemblemetoder

1. Bagging

Bagging, den korta formen för aggregering av bootstrap, används huvudsakligen vid klassificering och regression Regressionsanalys Regressionsanalys är en uppsättning statistiska metoder som används för att uppskatta samband mellan en beroende variabel och en eller flera oberoende variabler. Den kan användas för att bedöma styrkan i sambandet mellan variabler och för att modellera det framtida förhållandet mellan dem. . Det ökar noggrannheten hos modeller genom användning av beslutsträd, vilket i stor utsträckning minskar variansen. Minskningen av varians ökar noggrannheten, vilket eliminerar överanpassning, vilket är en utmaning för många prediktiva modeller.

Bagging klassificeras i två typer, dvs. bootstrapping och aggregering. Bootstrapping är en provtagningsteknik där prover härleds från hela populationen (uppsättningen) med hjälp av ersättningsförfarandet. Provtagningen med utbytesmetoden gör att urvalsförfarandet slumpmässigt görs. Basinlärningsalgoritmen körs på proverna för att slutföra proceduren.

Aggregering i påsar görs för att införliva alla möjliga resultat av förutsägelsen och randomisera resultatet. Utan aggregering kommer förutsägelser inte att vara korrekta, eftersom alla resultat inte beaktas. Aggregeringen är därför baserad på sannolikheten för bootstrapping-procedurer eller på grundval av alla resultat av de prediktiva modellerna.

Bagging är fördelaktigt eftersom elever med svag bas kombineras för att bilda en enda stark elev som är mer stabil än ensamstående. Det eliminerar också varians och minskar därmed övermodellen av modeller. En begränsning av påsen är att det är beräkningsbart dyrt. Således kan det leda till mer förspänning i modeller när rätt procedur för påsning ignoreras.

2. Boosting

Boosting är en ensembleteknik som lär sig av tidigare prediktorfel för att göra bättre förutsägelser i framtiden. Tekniken kombinerar flera elever med svag bas för att bilda en stark inlärare, vilket förbättrar modellernas förutsägbarhet avsevärt. Boosting fungerar genom att ordna svaga elever i en sekvens, så att svaga elever lär sig av nästa elev i sekvensen för att skapa bättre förutsägbara modeller.

Boosting har många former, som inkluderar gradient boosting, Adaptive Boosting (AdaBoost) och XGBoost (Extreme Gradient Boosting). AdaBoost använder sig av svaga elever som är i form av beslutsträd, som mestadels innehåller en split som populärt kallas beslutsstubbar. AdaBoosts huvudsakliga beslutsstubbe består av observationer med liknande vikter.

Gradient boosting Gradient Boosting Gradient boosting är en teknik som används för att skapa modeller för förutsägelse. Tekniken används mest i regressions- och klassificeringsprocedurer. lägger till prediktorer sekventiellt till ensemblen, där föregående prediktorer korrigerar deras efterträdare, vilket ökar noggrannheten hos modellen. Nya prediktorer är lämpliga för att motverka effekterna av fel i tidigare prediktorer. Nedstigningsgradienten hjälper lutningsförstärkaren att identifiera problem i elevernas förutsägelser och motverka dem därefter.

XGBoost använder beslutsträd med ökad lutning, vilket ger förbättrad hastighet och prestanda. Det är starkt beroende av beräkningshastigheten och målmodellens prestanda. Modellträning bör följa en sekvens, vilket gör implementeringen av lutningsförstärkta maskiner långsam.

3. Stapling

Stacking, en annan ensemblemetod, kallas ofta staplad generalisering. Denna teknik fungerar genom att låta en träningsalgoritm samla flera andra liknande förutsägelser för inlärningsalgoritmer. Stapling har framgångsrikt implementerats i regression, densitetsberäkningar, distansutbildning och klassificeringar. Den kan också användas för att mäta felfrekvensen vid påsen.

Variansreduktion

Ensemblemetoder är idealiska för att minska variansen i modeller och därigenom öka noggrannheten i förutsägelser. Variansen elimineras när flera modeller kombineras för att bilda en enda förutsägelse som väljs bland alla andra möjliga förutsägelser från de kombinerade modellerna. En modellmodell är handlingen att kombinera olika modeller för att säkerställa att den resulterande förutsägelsen är bästa möjliga, baserat på hänsyn till alla förutsägelser.

Ytterligare resurser

Finance är den officiella leverantören av den globala Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ Certification Certified Banking & Credit Analyst (CBCA) ™ ackreditering är en global standard för kreditanalytiker som täcker finans, redovisning, kreditanalys, kassaflödesanalys , förbundsmodellering, återbetalning av lån och mer. certifieringsprogram, utformat för att hjälpa vem som helst att bli en ekonomisk analytiker i världsklass. För att fortsätta din karriär kommer de ytterligare finansresurserna nedan att vara användbara:

  • Elastiskt nät Elastiskt nät Elastiskt nät använder linjärt påföljder från både lasso- och åstekniker för att reglera regressionsmodeller. Tekniken kombinerar både lasso och
  • Overfitting Overfitting Overfitting är en term som används i statistik som refererar till ett modelleringsfel som uppstår när en funktion motsvarar för nära en viss uppsättning data
  • Skalbarhet Skalbarhet Skalbarhet kan falla i både finansiella och affärsstrategiska sammanhang. I båda fallen står det för enhetens förmåga att motstå tryck från
  • Spoofing Spoofing Spoofing är en störande algoritmisk handelspraxis som handlar om att lägga bud att köpa eller erbjuda att sälja terminkontrakt och annullera buden eller erbjudandenen innan affären genomförs. Övningen avser att skapa en falsk bild av efterfrågan eller falsk pessimism på marknaden.

Rekommenderas

Stängdes Crackstreams ner?
2022
Är MC ledningscentral säker?
2022
Lämnar Taliesin en kritisk roll?
2022