Finansguider

Vad är Random Forest?

Slumpmässig skog är en teknik som används vid modellering av förutsägelser och beteendeanalys och bygger på beslutsträd. Den innehåller många beslutsträd som representerar en distinkt förekomst av klassificeringen av datainmatning i den slumpmässiga skogen. Den slumpmässiga skogstekniken tar hänsyn till instanserna individuellt och tar den som har majoriteten av rösterna som den valda förutsägelsen.

Figur 1. Slumpmässig skogstruktur (källa)

Varje träd i klassificeringarna tar inmatning från exempel i den ursprungliga datasetet. Funktioner väljs sedan slumpmässigt, som används för att odla trädet vid varje nod. Varje träd i skogen bör inte beskäras förrän slutet av övningen när förutsägelsen uppnås avgörande. På ett sådant sätt möjliggör den slumpmässiga skogen alla klassificerare med svaga korrelationer att skapa en stark klassificering.

Snabb sammanfattning

Slumpmässig skog är en kombination av beslutsträd som kan modelleras för förutsägelse och beteendeanalys.
Beslutsträdet i en skog kan inte beskäras för provtagning och därmed val av förutsägelse.
Den slumpmässiga skogstekniken kan hantera stora datamängder på grund av dess förmåga att arbeta med många variabler som går till tusentals.

Modellera förutsägelser

Den slumpmässiga skogsmetoden kan bygga förutsägelsemodeller med slumpmässiga skogens regressionsträd, som vanligtvis är oskyddade för att ge starka förutsägelser. Bootstrap-samplingsmetoden används på regressionsträd, som inte ska beskäras. Optimala noder samplas från de totala noderna i trädet för att bilda den optimala delningsfunktionen.

Den slumpmässiga provtagningstekniken som används vid valet av den optimala delningsfunktionen sänker korrelationen och därmed variansen hos regressionsträden. Det förbättrar den förutsägbara förmågan hos distinkta träd i skogen. Provtagningen med bootstrap ökar också oberoende bland enskilda träd.

Variabel betydelse

Variabler (funktioner) är viktiga för den slumpmässiga skogen eftersom det är en utmaning att tolka modellerna, särskilt ur biologisk synvinkel. Det naiva tillvägagångssättet visar betydelsen av variabler genom att tilldela en variabel betydelse baserat på frekvensen för dess inkludering i urvalet av alla träd. Det kan uppnås enkelt men utgör en utmaning eftersom effekterna på kostnadsminskning och ökad noggrannhet är överflödiga.

Permutationsviktigheten är ett mått som spårar förutsägelsens noggrannhet där variablerna slumpmässigt permuteras från prover utanför påsen. Metoden för permutationsvikt fungerar bättre än den naiva metoden men tenderar att bli dyrare.

På grund av utmaningarna från den slumpmässiga skogen som inte kan tolka förutsägelser tillräckligt ur det biologiska perspektivet, förlitar sig tekniken på det naiva, medelvärdet minskar orenhet och tillvägagångssättet för permutationsvikt för att ge dem direkt tolkbarhet till utmaningarna. De tre metoderna stöder prediktorvariablerna med flera kategorier.

När det gäller kontinuerliga prediktorvariabler med ett liknande antal kategorier, men både permutationsvikt och den genomsnittliga minskningen av orenhetsmetoder uppvisar inte bias Data-Mining Bias Data-mining bias hänvisar till ett antagande om betydelse som en näringsidkare tilldelar en händelse på marknaden som faktiskt var ett resultat av slump eller oförutsedd. Variabelt urval kommer ofta med förspänning. För att undvika det bör man genomföra delprovtagning utan utbyte, och där villkorlig slutsats används bör slumpmässig skogsteknik tillämpas.

Sneda slumpmässiga skogar

Obliska slumpmässiga skogar är unika genom att de använder sneda splittringar för beslut i stället för de konventionella beslutsdelningarna vid noderna. Snedskogar visar mycket överlägsenhet genom att uppvisa följande kvaliteter.

Först kan de separera fördelningar vid koordinataxlarna med hjälp av en enda multivariat split som skulle inkludera de konventionellt nödvändiga djupa axelinriktade delningarna. För det andra möjliggör de minskad bias från beslutsträd för de plottade begränsningarna. De konventionella axelinriktade delningarna skulle kräva ytterligare två häckningsnivåer när man separerar liknande klasser med de sneda delningarna vilket gör det lättare och effektivare att använda.

Slumpmässig skogsklassificering

Den slumpmässiga skogsklassificatorn är en samling prediktionsträd, där varje träd är beroende av slumpmässiga vektorer som samplats oberoende, med samma fördelning med alla andra träd i slumpmässiga skogen. Ursprungligen designad för maskininlärning har klassificeraren vunnit popularitet i fjärranalysgemenskapen, där den tillämpas i fjärranalys av bildklassificering på grund av dess höga noggrannhet. Det uppnår också rätt hastighet som krävs och effektiv parametrering i processen. Slumpmässig skogsklassificering startar slumpmässiga prover där förutsägelsen med högst röst från alla träd väljs.

Trädens individualitet är viktig i hela processen. Varje träds individualitet garanteras på grund av följande egenskaper. För det första använder varje träningsträning i provet slumpmässiga delmängder från de första träningsproverna. För det andra väljs den optimala uppdelningen bland de oklippta trädnodernas slumpmässigt valda funktioner. För det tredje växer varje träd utan gränser och bör inte beskäras alls.

Fördelar med slumpmässiga skogar

Slumpmässiga skogar presenterar uppskattningar för variabel betydelse, dvs. neurala nät. De erbjuder också en överlägsen metod för att arbeta med saknade data. Saknade värden ersätts av att variabeln visas mest i en viss nod. Bland alla tillgängliga klassificeringsmetoder ger slumpmässiga skogar högsta noggrannhet.

Den slumpmässiga skogstekniken kan också hantera stora data med många variabler som går in i tusentals. Det kan automatiskt balansera datauppsättningar när en klass är mer sällsynt än andra klasser i datan. Metoden hanterar också variabler snabbt, vilket gör den lämplig för komplicerade uppgifter.

Fler resurser

Finance erbjuder Financial Modelling & Valuation Analyst (FMVA) ™ FMVA®-certifiering. Gå med i 350 600 studenter som arbetar för företag som Amazon, JP Morgan och Ferrari-certifieringsprogram för dem som vill ta sin karriär till nästa nivå. För att fortsätta lära dig och utveckla din kunskapsbas, vänligen utforska de ytterligare relevanta finansresurserna nedan:

Tvärsnittsdataanalys Tvärsnittsdataanalys Tvärsnittsdataanalys är analysen av tvärsnittsdatamängder. Undersökningar och offentliga register är några vanliga källor till tvärsnittsdata
Cluster Sampling Cluster Sampling I statistik är klusterprovtagning en provtagningsmetod där hela populationen i studien är indelad i externt homogen men internt
Normalfördelning Normalfördelning Normalfördelningen kallas också Gauss- eller Gaussfördelning. Denna typ av distribution används ofta inom naturvetenskap och samhällsvetenskap. De
Roys säkerhetskriterium Roys säkerhetskriterium Roys säkerhetskriterium är en riskhanteringsteknik som används av investerare för att jämföra och välja en portfölj utifrån kriteriet att sannolikheten

Vad är Random Forest?

Snabb sammanfattning

Modellera förutsägelser

Variabel betydelse

Sneda slumpmässiga skogar

Slumpmässig skogsklassificering

Fördelar med slumpmässiga skogar

Fler resurser

Rekommenderas

Stängdes Crackstreams ner?

Är MC ledningscentral säker?

Lämnar Taliesin en kritisk roll?