Случајна шума - Преглед, Моделирање предвиђања, Предности

Случајна шума је техника која се користи за моделирање предвиђања и анализе понашања и изграђена је на стаблима одлука. Садржи мноштво стабала одлука која представљају засебан пример класификације података који се уносе у случајну шуму. Техника случајних шума узима случајеве у обзир појединачно, узимајући ону са већином гласова као изабрано предвиђање.

Рандом Форест Слика 1. Случајна структура шума (Извор)

Свако стабло у класификацијама узима податке из узорака у почетном скупу података. Тада се насумично бирају карактеристике које се користе у узгоју стабла на сваком чвору. Свако дрво у шуми не треба орезивати до краја вежбе када се предвиђање донесе одлучно. На такав начин случајна шума омогућава било којим класификаторима са слабим корелацијама да створе јак класификатор.

Кратак сажетак

  • Случајна шума је комбинација стабала одлучивања која се могу моделирати за предвиђање и анализу понашања.
  • Стабло одлуке у шуми не може се орезати ради узорковања, а тиме и за предвиђање.
  • Техника случајних шума може да обрађује велике скупове података због своје способности да ради са многим променљивим које се покрећу на хиљаде.

Моделирање предвиђања

Метода случајних шума може изградити моделе предвиђања користећи насумична стабла регресије шума, која су обично неорезана да би дала снажна предвиђања. Метода узорковања боотстрапа користи се на стаблима регресије, која не би требало да се орезују. Оптимални чворови се узоркују из укупних чворова у стаблу да би се створила оптимална карактеристика цепања.

Техника случајног узорковања коришћена у избору оптималне карактеристике цепања смањује корелацију, а тиме и варијансу регресионих стабала. Побољшава способност предвиђања различитих стабала у шуми. Узорковање помоћу боотстрапа такође повећава независност међу појединачним стаблима.

Променљива важност

Варијабле (карактеристике) су важне за случајну шуму, јер је изазов тумачити моделе, посебно са биолошке тачке гледишта. Наивни приступ показује важност променљивих додељујући значај променљивој на основу учесталости њеног укључивања у узорак од стране свих стабала. То се може лако постићи, али представља изазов, јер су ефекти на смањење трошкова и повећање тачности сувишни.

Важност пермутације је мера која прати тачност предвиђања где су променљиве насумично пермутиране из узорака ван вреће. Приступ важности пермутације функционише боље од наивног, али обично је скупљи.

Због изазова случајне шуме које нису у стању да довољно добро протумаче предвиђања из биолошке перспективе, техника се ослања на наивност, средње смањење нечистоће и приступе важности пермутације како би им се омогућила директна интерпретација изазова. Три приступа подржавају предикторске варијабле са више категорија.

У случају континуираних предикторских променљивих са сличним бројем категорија, међутим, и значај пермутације и приступи средњег смањења нечистоће не показују пристрасности Приступ рударству података Предрасуде рударства података односе се на претпоставку важности коју трговац додељује догађају на тржишту које је заправо било случајно или непредвиђено. Променљиви избор често долази са пристрасношћу. Да би се то избегло, треба извршити подузорковање без замене, а тамо где се користи условно закључивање, треба применити технику случајних шума.

Косе случајне шуме

Косе случајне шуме су јединствене по томе што користе косе поделе за доношење одлука уместо конвенционалних поделе на чворовима. Косе шуме показују пуно супериорности показујући следеће особине.

Прво, они могу раздвојити расподеле на координатним осама коришћењем појединачног мултиваријантног поделе који би обухватио уобичајено потребне дубоке поравнате осе. Друго, омогућавају смањену пристраност са стабала одлучивања за уцртана ограничења. Конвенционална подела поравната са осом захтевала би још два нивоа гнежђења приликом раздвајања сличних класа са косим цепањима што би олакшало и ефикасније коришћење.

Случајни класификатор шума

Класификатор случајних шума је колекција стабала предвиђања, где је свако дрво зависно од случајних вектора узоркованих независно, са сличном расподелом са свим осталим дрвећем у случајној шуми. Првобитно дизајниран за машинско учење, класификатор је стекао популарност у заједници даљинског истраживања, где се примењује у класификацији слика на даљину, због своје високе тачности. Такође се постиже одговарајућа брзина потребна и ефикасна параметризација у процесу. Случајни класификатор шума покреће случајне узорке где је изабрано предвиђање са највише гласова са свих стабала.

У читавом процесу важна је индивидуалност дрвећа. Индивидуалност сваког дрвета је загарантована због следећих квалитета. Прво, сваки тренинг дрвета у узорку користи насумичне подскупове из почетних узорака тренинга. Друго, оптимално раздвајање се бира између насумично изабраних карактеристика необрезаних стабала. Треће, свако дрво расте без ограничења и не би га требало орезивати.

Предности случајних шума

Случајне шуме представљају процене за променљиву важност, тј. Неуронске мреже. Такође нуде супериорну методу за рад са подацима који недостају. Вредности које недостају замењују се променљивом која се највише појављује у одређеном чвору. Међу свим доступним методама класификације, случајне шуме пружају највећу тачност.

Техника случајних шума такође може да обрађује велике податке са бројним променљивим које се трче на хиљаде. Може аутоматски уравнотежити скупове података када је класа ретка од осталих класа у подацима. Метода такође брзо обрађује променљиве, што га чини погодним за компликоване задатке.

Више ресурса

Финанце нуди Финансијско моделирање и вредновање аналитичара (ФМВА) ™ ФМВА® сертификат Придружите се 350.600+ ученика који раде у компанијама попут Амазона, ЈП Моргана и Феррари сертификационог програма за оне који желе да своју каријеру подигну на виши ниво. Да бисте наставили да учите и развијате своју базу знања, истражите додатне релевантне финансијске ресурсе у наставку:

  • Анализа података у пресеку Анализа података у пресеку Анализа података у пресеку је анализа скупова података у пресеку. Анкете и владини записи су неки уобичајени извори података пресека
  • Узорковање кластера Узорковање кластера У статистикама, кластер узорковање је метода узорковања у којој је целокупна популација студије подељена на споља хомогене, али интерно
  • Нормална дистрибуција Нормална дистрибуција Такође се назива и Гауссова или Гауссова дистрибуција. Ова врста дистрибуције се широко користи у природним и друштвеним наукама. Тхе
  • Рои-ов критеријум за безбедност Рои-ов критеријум за безбедност-први Рои-ов критеријум за безбедност је техника управљања ризиком коју инвеститори користе за упоређивање и одабир портфеља на основу критеријума да вероватноћа

Рецент Постс

$config[zx-auto] not found$config[zx-overlay] not found