Vad är övermontering?

Overfitting är en term som används i statistik som hänvisar till ett modelleringsfel som uppstår när en funktion motsvarar för nära en viss uppsättning data. Som ett resultat kan överanpassning misslyckas med att passa ytterligare data, och detta kan påverka noggrannheten för att förutsäga framtida observationer.

Överanpassning

Överanpassning kan identifieras genom att kontrollera valideringsmätvärden som exakthet och förlust. Valideringsvärdena ökar vanligtvis till en punkt där de stagnerar eller börjar minska när modellen påverkas av överanpassning. Under en uppåtgående trend söker modellen en bra passform, som när den uppnås gör att trenden börjar sjunka eller stagnera.

Snabb sammanfattning

  • Övermontering är ett modelleringsfel som introducerar förspänning i modellen eftersom den är för nära relaterad till datamängden.
  • Övermontering gör modellen endast relevant för sin datamängd och irrelevant för andra datamängder.
  • Några av metoderna som används för att förhindra överanpassning inkluderar sammansättning, dataförstoring, dataförenkling och korsvalidering.

Hur upptäcker jag överanpassning?

Det är nästan omöjligt att upptäcka överanpassning innan du testar data. Det kan hjälpa till att hantera den inneboende egenskapen hos överanpassning, vilket är oförmågan att generalisera datamängder. Uppgifterna kan därför delas in i olika delmängder för att göra det enkelt för träning och testning. Uppgifterna är uppdelade i två huvuddelar, dvs en testuppsättning och en utbildningsuppsättning.

Utbildningsuppsättningen representerar en majoritet av tillgänglig data (cirka 80%) och den tränar modellen. Testuppsättningen representerar en liten del av datamängden (cirka 20%), och den används för att testa noggrannheten hos de data som den aldrig interagerat med tidigare. Genom att segmentera datamängden kan vi undersöka modellens prestanda på varje uppsättning data för att upptäcka överanpassning när den inträffar, samt se hur träningsprocessen fungerar.

Prestandan kan mätas med den procentuella noggrannhet som observerats i båda datamängderna för att dra slutsatsen att det finns övermontering. Om modellen presterar bättre på träningsuppsättningen än på testuppsättningen betyder det att modellen sannolikt är överanpassad.

Hur kan man förhindra övermontering?

Nedan följer några av sätten att förhindra övermontering:

1. Träning med mer data

Ett av sätten att förhindra överanpassning är att träna med mer data. Ett sådant alternativ gör det enkelt för algoritmer Algoritmer (Algos) Algoritmer (Algos) är en uppsättning instruktioner som introduceras för att utföra en uppgift. Algoritmer introduceras för att automatisera handel för att generera vinster med en frekvens omöjlig för en mänsklig näringsidkare att upptäcka signalen bättre för att minimera fel. Eftersom användaren matar in mer träningsdata i modellen kommer den inte att kunna passa över alla proverna och tvingas generalisera för att få resultat.

Användare bör kontinuerligt samla in mer data för att öka noggrannheten i modellen. Denna metod anses dock vara dyr, och därför bör användarna se till att den data som används är relevant och ren.

2. Dataförstoring

Ett alternativ till träning med mer data är dataförstoring, vilket är billigare än det förra. Om du inte ständigt kan samla in mer data kan du göra tillgängliga datauppsättningar olika. Dataförstoring gör att en exempeldata ser lite annorlunda ut varje gång den bearbetas av modellen. Processen gör att varje datauppsättning verkar unik för modellen och hindrar modellen från att lära sig datamängdenas egenskaper.

Ett annat alternativ som fungerar på samma sätt som dataförstoring är att lägga till brus i in- och utdata. Om du lägger till brus i ingången blir modellen stabil, utan att det påverkar datakvaliteten och integriteten, samtidigt som du lägger till brus i utdata gör data mer varierande. Dock bör bullertillägg göras med måtta så att ljudets omfattning inte är så mycket att data blir felaktiga eller för olika.

3. Dataförenkling

Överanpassning kan uppstå på grund av komplexiteten hos en modell, så att modellen, trots stora datamängder, fortfarande lyckas överträffa träningsdatasetet. Dataförenklingsmetoden används för att minska överutrustning genom att minska komplexiteten i modellen för att göra den tillräckligt enkel för att den inte överträffar.

Några av de åtgärder som kan genomföras inkluderar beskärning av ett beslutsträd, minskning av antalet parametrar Parameter A-parameter är en användbar komponent i statistisk analys. Det hänvisar till de egenskaper som används för att definiera en viss population. Det är vant vid ett neuralt nätverk och använder bortfall i ett neutralt nätverk. Att förenkla modellen kan också göra modellen lättare och springa snabbare.

4. Montering

Ensembling är en maskininlärningsteknik som fungerar genom att kombinera förutsägelser från två eller flera separata modeller. De mest populära ensembleringsmetoderna inkluderar boosting och bagging. Boosting fungerar genom att använda enkla basmodeller för att öka deras aggregerade komplexitet. Det tränar ett stort antal svaga elever arrangerade i en sekvens, så att varje elev i sekvensen lär sig av elevernas misstag innan den.

Boosting kombinerar alla svaga elever i sekvensen för att få fram en stark elev. Den andra ensembleringsmetoden är bagging, vilket är motsatsen till boosting. Bagging fungerar genom att träna ett stort antal starka elever arrangerade i ett parallellt mönster och sedan kombinera dem för att optimera sina förutsägelser.

Fler resurser

Finance är den officiella leverantören av den globala Financial Modeling & Valuation Analyst (FMVA) ™ FMVA®-certifiering. Gå med i 350 600 studenter som arbetar för företag som Amazon, JP Morgan och Ferrari-certifieringsprogram, utformade för att hjälpa alla att bli en ekonomisk analytiker i världsklass . För att fortsätta din karriär kommer de ytterligare finansresurserna nedan att vara användbara:

  • Grundläggande statistikbegrepp inom ekonomi Grundläggande statistikbegrepp för ekonomi En solid förståelse för statistik är avgörande för att hjälpa oss att bättre förstå ekonomi. Dessutom kan statistikbegrepp hjälpa investerare att övervaka
  • Data-Mining Bias Data-Mining Bias Data-mining bias hänvisar till ett antagande om betydelse som en näringsidkare tilldelar en händelse på marknaden som faktiskt var ett resultat av slump eller oförutsedd
  • Slumpmässig skog Slumpmässig skog Slumpmässig skog är en teknik som används vid modellering av förutsägelser och beteendeanalys och bygger på beslutsträd. En slumpmässig skog innehåller många beslutsträd
  • Ovillkorlig sannolikhet Ovillkorlig sannolikhet Ovillkorlig sannolikhet, även känd som marginal sannolikhet, avser en sannolikhet som inte påverkas av tidigare eller framtida händelser. Med andra ord,

Rekommenderas

Stängdes Crackstreams ner?
2022
Är MC ledningscentral säker?
2022
Lämnar Taliesin en kritisk roll?
2022