Vad är Bagging (Bootstrap Aggregation)?

Ensemble maskininlärning kan huvudsakligen kategoriseras i påsar och boosting. Baggingstekniken är användbar för både regression och statistisk klassificering. Bagging används med beslutsträd, där det avsevärt höjer modellernas stabilitet när det gäller att minska variansen och förbättra noggrannheten, vilket eliminerar utmaningen med överanpassning.

Säckväv

Figur 1. Flöde med bagging (Bootstrap Aggregation). Källa

Bagging i maskininlärning av ensembler kräver flera svaga modeller, som sammanställer förutsägelserna för att välja den bästa förutsägelsen. De svaga modellerna specialiserar sig på distinkta delar av funktionsutrymmet, vilket gör det möjligt att förutsäga hävstångseffekter från varje modell för att nå det största syftet.

Snabb Su mmary

  • Bagging och boosting är de två huvudsakliga metoderna för ensemble maskininlärning.
  • Bagging är en ensemblemetod som kan användas vid regression och klassificering.
  • Det är också känt som bootstrap-aggregering, vilket utgör de två klassificeringarna av bagging.

Vad är Bootstrapping?

Bagging består av två delar: aggregering och bootstrapping. Bootstrapping är en samplingsmetod där ett urval väljs ur en uppsättning med hjälp av ersättningsmetoden. Inlärningsalgoritmen körs sedan på de valda proverna.

Bootstrapping-tekniken använder sampling med ersättare för att göra urvalsförfarandet helt slumpmässigt. När ett urval väljs utan utbyte är de efterföljande valen av variabler alltid beroende av de tidigare valen, vilket gör att kriterierna inte är slumpmässiga.

Vad är aggregering?

Modellförutsägelser genomgår aggregering för att kombinera dem för den slutliga förutsägelsen för att överväga alla möjliga resultat. Aggregeringen kan göras baserat på det totala antalet resultat eller på sannolikheten för förutsägelser som härrör från bootstrapping av varje modell i proceduren.

Vad är en ensemblemetod?

Både bagging och boosting utgör de mest framträdande ensembleteknikerna. En ensemblemetod är en maskininlärningsplattform som hjälper flera modeller i träning genom användning av samma inlärningsalgoritm. Ensemblemetoden är en deltagare i en större grupp av flera klassificerare.

Multi-classifiers är en grupp av flera elever, som går in i tusentals, med ett gemensamt mål som kan smälta och lösa ett vanligt problem. En annan kategori av multiklassificeringsmedel är hybridmetoder. Hybridmetoderna använder en uppsättning elever, men till skillnad från flerklassificerare kan de använda olika inlärningsmetoder.

Lärande står inför flera utmaningar, till exempel fel som främst beror på förspänning, buller och varians. Noggrannheten och stabiliteten i maskininlärning garanteras av ensemblemetoder som påsar och boosting. Flera klassificeringskombinationer minskar variansen, särskilt där klassificerare är instabila, och de är viktiga för att presentera mer tillförlitliga resultat än en enda klassificerare.

Tillämpningen av antingen bagging eller boosting kräver att du väljer en basalternativalgoritm först. Till exempel, om man väljer ett klassificeringsträd, skulle boosting och bagging vara en pool av träd med en storlek som är lika med användarens preferens.

Fördelar och nackdelar med påsar

Slumpmässig skog Slumpmässig skog Slumpmässig skog är en teknik som används vid modellering av förutsägelser och beteendeanalys och bygger på beslutsträd. En slumpmässig skog innehåller många beslutsträd är en av de mest populära baggealgoritmerna. Bagging erbjuder fördelen att många svaga elever kan kombinera ansträngningar för att överträffa en enda stark elev. Det hjälper också till att minska variansen, vilket eliminerar överfitting Overfitting Overfitting är en term som används i statistik som hänvisar till ett modelleringsfel som uppstår när en funktion motsvarar för nära en viss uppsättning data från modeller i proceduren.

En nackdel med påsen är att den inför en förlust av tolkbarhet hos en modell. Den resulterande modellen kan uppleva mycket partiskhet när rätt procedur ignoreras. Trots att påsar är mycket exakta kan det vara beräkningsbart dyrt och detta kan avskräcka dess användning i vissa fall.

Bagging vs Boosting

Den bästa tekniken att använda mellan bagging och boosting beror på tillgängliga data, simulering och eventuella befintliga omständigheter vid den tiden. En uppskattnings varians minskas signifikant genom att säcka och öka tekniker under kombinationsproceduren, vilket ökar noggrannheten. Därför visar de erhållna resultaten högre stabilitet än de enskilda resultaten.

När en händelse utgör utmaningen med låg prestanda kommer inte baggingstekniken att leda till en bättre förspänning. Förstärkningstekniken genererar dock en enhetlig modell med lägre fel eftersom den koncentrerar sig på optimeringen av fördelarna och minskningen av brister i en enda modell.

När utmaningen i en enda modell är överanpassad, fungerar påsemetoden bättre än förstärkningstekniken. Boosting står inför utmaningen att hantera överpassning eftersom det kommer med överpassning i sig.

Relaterade avläsningar

Finance erbjuder Financial Modelling & Valuation Analyst (FMVA) ™ FMVA®-certifiering. Gå med i 350 600 studenter som arbetar för företag som Amazon, JP Morgan och Ferrari-certifieringsprogram för dem som vill ta sin karriär till nästa nivå. För att fortsätta lära dig och utveckla din kunskapsbas, vänligen utforska de ytterligare relevanta finansresurserna nedan:

  • Cluster Sampling Cluster Sampling I statistik är klusterprovtagning en provtagningsmetod där hela populationen i studien är indelad i externt homogen men internt
  • Övertro Bias Övertro Bias Övertro bias är en falsk och vilseledande bedömning av våra färdigheter, intellekt eller talang. Kort sagt, det är en egoistisk övertygelse att vi är bättre än vi faktiskt är. Det kan vara en farlig partiskhet och är mycket produktiv inom beteendefinansiering och kapitalmarknader.
  • Regressionsanalys Regressionsanalys Regressionsanalys är en uppsättning statistiska metoder som används för att uppskatta sambandet mellan en beroende variabel och en eller flera oberoende variabler. Den kan användas för att bedöma styrkan i sambandet mellan variabler och för att modellera det framtida förhållandet mellan dem.
  • Tidsserie-dataanalys Tidsserie-dataanalys Tidsserie-dataanalys är analysen av datamängder som förändras över en tidsperiod. Tidsseriedataset registrerar observationer av samma variabel över olika tidpunkter. Finansanalytiker använder tidsseriedata som aktiekursrörelser eller ett företags försäljning över tiden

Rekommenderas

Vad är den totala sannolikhetsregeln?
Vad är avskrivning på immateriella tillgångar?
Vad är begränsade kontanter?