BI-ML1
Created by Honza Šuráň

Binarni klasifikace
Pokracovani LR
- odolna vuci vysoke dimenzionalite
- pro
priznaku muze stacit
trenovacich bodu pro natrenovani - pokud jsou ale priznaky kolinearni, pak
bud neni linearni, nebo je vysoce numericky nestabilni, a inverze se pocita blbe
Gini index (Gini impurity)

- neco jako rozptyl pro Bernoulliho rozdeleni
- chci co nejmensi "rozptyl" v podmnozinach - jak moc dobre klasifikovan bude novy prvek/jak moc jsou podmnoziny homogenni
Linearni regrese
Vyber priznaku
- slouzi k redukci priznaku a dimenze
- supervizovane i nesupervizovane
Vestavene metody
- vyuzivaji model, ktery se trenuje pouze jednou na celych datech a pri tom implicitne provede vyber priznaku
- funguje tak, ze se implicitne nauci nektere priznaky vubec nevyuzivat
- napr. u linearni regrese jsou prislusne koeficienty odhadnuty jako nulove
Nestrannost metody nejmensich ctvercu
- Veta: odhad
ziskany metodou nejmensich ctvercu je za predpokladu
nestranny, tj. 
- Dukaz:
![\begin{align}
\text{E} \mathbf{Y} = \text{E}\left(\mathbf{X} \mathbf{w} + \mathbf{\epsilon} \right) &= \mathbf{X} \mathbf{w} + \text{E} \mathbf{\epsilon} = \mathbf{X} \mathbf{w} \\[7pt]
\text{E} \hat{\mathbf{w}}_{OLS}
&= \text{E}\left(\mathbf{X}^T X \right)^{-1} \mathbf{X}^T \mathbf{Y} \\
&= \left(\mathbf{X}^T\mathbf{X}\right)^{-1} \mathbf{X}^T \text{E } \mathbf{Y} \\
&= \left(\mathbf{X}^T \mathbf{X}\right)^{-1} \mathbf{X}^T\mathbf{X}\mathbf{w} \\
&= \mathbf{w}
\end{align}]()
- Veta: Predikce je take nestranna:

- dusledek: vychyleni je nulove:

Mira neusporadanosti, entropie, informacni zisk
hyperparametry modelu
- parametry, ktere urcuji tvar nebo komplexitu modelu: kriterium (gini/entropy), min_samples_split, max_depth, min_ig, ...
Predikce LR
Hledani vektoru koeficientu
Filtracni metody
- vyhodit priznaky, ktere maji prilis nizky rozptyl a jsou tedy temer konstantni
- vyhodit priznaky, ktere maji prilis chybejicich hodnot
- vyhodit priznaky, ktere spolu hodne koreluji a jsou tedy redundantni
- vyhodit priznaky, ktere maji nizkou korelaci s vysvetlovanou promennou (v pripade linearniho modelu!)
- u binarnich priznaku muzeme rozdelit vysvetlovanou promennou na 2 skupiny a udelat test hypotezy o rovnosti strednich hodnot - pokud vyjde stejna hodnota, muzeme tento priznak vyhodit
Obalove metody
- cilem je vybrat podmnozinu priznaku, pro kterou je vykonnost modelu co nejvetsi - to muze byt benefit, ale hrozi preuceni!
- velka vypocetni narocnost - i jen naivni vyber
modelu, kde v kazdem chybi
priznak, znamena
-krat vetsi vypocetni narocnost
Obecne veci ke strojovemu uceni
- snaha predikovat vysvetlovanou promennou na zaklade vstupnich dat
- pri trenovani se data typicky deli na trenovaci, validacni a testovaci
- trenovaci - slouzi k trenovani modelu, kterych je typicky spousta podle ruznych kombinaci hyperparametru
- validacni - slouzi k vybrani nejlepsiho z modelu, na nichz se trenovala data
- testovaci - slouzi k predikci presnosti na novych datech
- trenovaci, validacni a testovaci data by mela byt zcela nezavisla - nejprve data oddelit na 3 separatni mnoziny (typicky treba 60:20:20) a pak az provest trenovani a vyber modelu a odhad presnosti na novych datech
- smi se napr. doplnovat chybejici hodnoty medianem/prumerem z trenovacich dat, ale v zadnem pripade se to nesmi prumerovat s validacnimi nebo testovacimi!
- preuceni - vlastnost modelu, ktery se prilis soustredi na statisticky nevyznamne vychylky/anomalie v datech, kde by jinak pravdepodobne jina podobna data nemela stejnou hodnotu vysvetlovane promenne s tak optimistickou pravdepodobnosti
Regresni strom
Lasso
Minimalizace RSS: Derivovani RSS

Merged prednasky
prednasky-merged.pdf
Rozhodovaci stromy obecne
Vyhody:
- nenarocnost na pripravu dat: poradi si s kategorickymi daty i chybejicimi hodnotami
- jsou jednoduche, srozumitelne, uceni je relativne rychle a predikce taky
- jsou jednoduse interpretovatelne (proc udelaly nejaka rozhodnuti
Nevyhody:
- i drobna zmena v trenovacich datech muze znamenat velkou zmenu ve strukture stromu
- vetsina implementaci podporuje pouze binarni stromy
- najit optimalni strom je NP-uplny problem
- je snadne rozhodovaci strom preucit
Parcialni derivace, gradient, Hessova matice
Postacujici podminka pro existenci lokalniho extremu
Prepis datasetu do maticoveho zapisu
Vyhody, nevyhody, tipy a rady
- je vhodne volit rozumne
, aby se dal delat rozumny odhad a zabranilo se sumu a preuceni - prilis vysoke
muze na druhou stranu zpusobit, ze se koukame na prilis mnoho bodu v datasetu, ktere uz tim padem vlastne nejsou az tak blizko bodu, ktery predikujeme - prokleti dimenzionality - pro vyssi dimenzi muze mit (zejmena) euklidovska metrika velice male odchylky pri zmene jednoho treba i dost vyznamneho priznaku - ztrati se v odmocnine mezi ostatnimi cleny, ktere v souctu muzou byt mnohem vyznamnejsi
- take s vyssi dimenzi podstatne roste (mame-li interval
) delka intervalu, pokud bychom udelali dokonalou krychli, aby zabirala rekneme
celkoveho objemu:
- pro
je to
, pro
je to
, pro
je to
, pro
je to
atd.
Forward & backward selection
Forward selection:
- Zaciname s
, vezmeme po jednom z priznaku
, natrenujeme pro ruzne mnoziny priznaku
a vratime
, jehoz pridani zpusobilo nejlepsi validacni presnost - dokud jsme si polepsili (pripadne o nejaky threshold) nebo jsme neporusili threshold pro max. pocet priznaku, polozime
a opakujeme predchozi bod s mnozinou jeste nevybranych priznaku - slozitost:
krat rychlost natrenovani jednoho modelu
Backward selection:
- funguje uplne stejne, jen zacne se vsemi priznaky a po jednom odebira, dokud nebudeme mit pozadovany pocet a stale doslo ke zlepseni (pripadne pro nejaky threshold)
Rekurzivni odebirani priznaku
- model se natrenuje jen jednou a ohodnoti jednotlive priznaky (musi toho byt schopen)
- napr. regrese - maji koeficienty - blizko nule znamena nevyznamny, atd.
- nasledne se za linear ku poctu priznaku vyhazou priznaky
tvrzeni o geometrickem stredu
Tvrzeni:
- Pro konecnou mnozinu
plati 
- kde
je geometricky stred (centroid) mnoziny
- tedy ze
je optimalni 
- tedy soucet vzdalenosti od bodu je nejmensi, pokud je dany bod prumerem dat
- presne takhle funguje optimum pro MSE
Dukaz:
Norma
Metrika
Metoda nejblizsich sousedu (kNN)
- spoleha na to, ze datove body, ktere maji stejjne nebo (ciselne) podobne parametry, maji vetsi sanci na stejnou binarni predikci pripadne podobnou hodnotu spojite vysvetlovane promenne
- hyperparametr
- pocet sousedu, metrika 
- pomerne dobre vysledky je obcas mozne dosahnout i s nejakou slabsi metrikou, ktera nesplnuje vsechny 3 axiomy (hlavne trojuhelnikovou nerovnost), ale ne vzdy - navic je pak predikce pomalejsi, protoze bez teto vlastnosti data nejde moc chunkovat
- je nutne data normalizovat
- standard scaler - naskaluje data, aby byla stredni hodnota 0 a rozptyl
- min-max scaler - nejmensi hodnotu zmeni na nulu, nejvetsi na 1 a mezi nimi udela nejakou interpolaci (typicky linearni)
- proces trenovani neni - predikuje se primo na trenovacich datech
- pro kazdy datovy bod se vybere
nejblizsich sousedu podle metriky
a predikuje se v pripade binarni klasifikace majoritou, v pripade regrese prumerem
Modely bazovych funkci
- linearni model:

- je ale mozne vytvorit ruzne funkce
, ktere berou aktualni priznaky a vytvorit z nich nove priznaky - s temito priznaky pak natrenujeme model
- vetsinou se pouziva hrebenova regrese, protoze priznaky spis jenom pridavame, nez abychom nahrazovali jiz existujici
Predikce
- predikce v bode
:

Geometricka interpretace
Pokracovani: Gradient, normalni rovnice, Hessova matice
Nesupervizovane uceni
- data nemame nijak oznacena, nemame, co predikovat, chceme porozumet strukture
- tzn. analyza nejake stabilni struktury datasetu - kde se data vyskytuji, tzn. shlukovani
- uvazme situaci, kdy nase -data obsahuji
priznaku a oznacme
prostor, ve kterem se nachazeji mozne vysledky
- pro binarni priznaky volime

- pro
spojitych priznaku typicky volime 
- z pohledu teorie pravdepodobnosti a statistiky chapeme pozorovana data jako realizace nahodneho vektoru

- porozumeni vnitrni strukture znamena porozumeni rozdeleni
0 chceme ziskat odhad pravdepodobnosti
pro kazdou (rozumnou) podmnozinu 
Evaluace modelu
Krizova validace
1. bokem si oddelime testovaci data
2. zbytek trenovacich dat
si rozdelime na
podobne velkych 
3. pro kazdou kombinaci hyperparametru
:
4. for J in 1..k:
5. natrenuj model na datech
s hyperparametry 
6. na mnozine
odhadni chybu jako 
7. spocitej cross-validacni chybu pro
: 
8. vrat kombinaci hyperparametru
s nejlepsim 
- typicke volby jsou

- muze byt extremne vypocetne narocna
- vhodna, pokud je malo dat
- pri extremne malem mnozstvi dat lze odhadnout chybu pomoci oddelovani testovaci mnoziny v dalsim vnejsim for cyklu
Shlukovani jako optimalizacni uloha
Shlukovani
- vstupy:
- metricky prostor
s metrikou 
- mnozina dat

- obvykle i pozadovany pocet shluku

- vystupy:
Konvergence algoritmus k-means
Tvrzeni:
- algoritmus k-means v zadne jeho iteraci nezvetsi hodnotu ucelove funkce
Dukaz:
problem kolinearity
- existuji linearni kombinace sloupcu, ktere daji temer nulkove vektory, zatimco jine linearni kombinace vraci mnohem vetsi vektory:
pro nejake 
- existuji smery, kde ma predikce obrovsky rozptyl a predikce budou dost skakat
Co s tim?
- prigenerovat data (muze a nemusi pomoct)
- zkusit se zbavit problematickych priznaku
- zmenit, co chceme minimalizovat: pridat regularizacni clen → hrebenova regrese
ROC, AUC
Pokracovani
- Implementace ve Scikitu vraci vektor
, ktery resi normalni rovnici a zaroven ma co nejmensi normu. Proc to je dobre? - predpokladejme
, tedy rovnice je ve tvaru
, oznacme
, zaroven tedy 
- kdybychom meli predikovat hodnotu pro datovy bod, kde
(napr.
a
ma velkou normu (treba
-krat), predikce by se zvetsila o dost vic, nez jak by se zmenila pro mensi 
Jednoznacnost reseni
Algoritmus k-means
- problem nalezeni globalniho minima uvedene ucelove funkce je NP-tezky
- algoritmus k-means: iterativni algoritmus, ktery konverguje k nejakemu jejimu lokalnimu minimu:
Algoritmus:
- Zvolme si
stredovych bodu 
- Kazdy bod
prirad do shluku se stredovym bodem
takovym, ze
je minimalni
: prepocitej stredovy bod
jako geometricky stred prislusneho shluku- Pokud se shluky nejak zmenily a nebylo dosazeno pripadneho zastavovaciho kriteria, vrat se na bod (2.)
Jak vybrat pocatecni stredove body?
- typicky nahodnym vyberem z dat, ktere jsou idealne nejak rozumne od sebe
- typicky se algoritmus spusti vickrat a vezme se to shlukovani, kde ma ucelova funkce nejmensi hodnotu
Jak zvolit
?
- lze ocekavat, ze pokud "podstrelime" idealni pocet shluku, ucelova funkce se o dost snizi, tedy muzeme pro
iterovat, dokud tento graf od
bude rozumne klesat - tato metoda muze fungovat, ale casto je pomerne nepouzitelna
Evaluace klasifikacniho modelu
Evaluacni miry podle presnosti a ocekavaneho vysledku
- true positive rate/sensitiva/recall/hit rate - spravne 1 (spravne detekuji nemoc)
- false positive rate/false alarm rate/type 1 error rate - v realite 0, ale predikce byla 1 (nekdo zdravy dostane pozitivni vysledek na test)
- false negative rate/miss rate/type 2 error rate - v realite 1, ale predikce byla 0 (nepozname, ze je nekdo nemocny)
- true negative rate/specificita/selektivita - spravne 0 (spravne necham zdraveho cloveka byt)
Evaluacni miry:
Hierarchicke shlukovani
- na zacatku uvazujeme kazdy bod jako jednotlivy shluk
- pokud existuji alespon 2 shluky, najdeme 2 shluky, ktere jsou k sobe nejbliz
- tyto 2 shluky spoj do noveho shluku a pokracuj na krok (2.)
Poznamky:
- zastavovaci kriterium: pocet shluku
- nebo threshold, ktere shluky jeste spojit
- zavisi na definici vzdalenosti shluku
Hrebenova regrese
- pridani penalizacniho clenu umerneho kvadratu normy koeficientu
s vynechanim interceptu:

- pro
mame linearni regresi - pro
cilime na nizsi normu vektoru Zavedme matici

- potom

- gradient:

- normalni rovnice:

- Hessova matice

Jednotlive metody
- metoda nejblizsiho souseda (single linkage): minimum vzdalenosti bodu z jednotlivych shluku - ma tendenci delat dlouhe retezy
- metoda nejvzdalenejsiho souseda (complete linkage): maximum vzdalenosti bodu z jednotlivych shluku - ma tendenci delat kompaktni shluky
- parova vzdalenost (average linkage): prumer vzdalenosti mezi kazdou dvojici bodu z ruznych shluku
- Wardova metoda: pro kazdou dvojici shluku spocita rozptyl obou shluku vuci prumeru a kdyby doslo ke sjednoceni, cili na maly rozdil rozptylu po sjednoceni, vyuziva euklidovskou vzdalenost
Zkoumame regularitu
Evaluace pomoci Silhouette skore
- uvazujme shlukovani
na metrickem prostoru
s metrikou
a pro libovolny bod
oznacme
index shluku, do ktereho
patri, tj. 
- pro bod
ted muzeme:
Pokracovani
Predikce
Kdy reseni neni jednoznacne
Ensemble metody
DBSCAN - definice
- mejme metricky prostor
s metrikou
, ze ktereho pochazi dataset
a parametry
a 
- definujme
-okoli bodu
v
jako mnozinu

- bod
je klicovy bod, jestlize v jeho
-okoli v
je alespon
bodu, tzn.

- bod
je primo dosazitelny z bodu
, jestlize
je klicovy bod a
, tj.
ma alespon
bodu v okoli a
je jeden z nich - pro dvojici klicovych bodu je relace prime dosazitelnosti symetricka, ale pro tzv. okrajovy bod symetricka neni (takovy bod, ktery neni klicovy, ale je dosazitelny z klicoveho bodu)
- bod
je dosazitelny z bodu
, pokud v grafu relace prime dosazitelnosti existuje orientovana
-
-cesta - bod
je spojeny s bodem
, jestlize existuje klicovy bod
takovy, ze
i
jsou dosazitelne z bodu
(tzn. existuje orientovana
-
-cesta a orientovana
-
-cesta a orientovana
-
-cesta), jde o symetrickou relaci a pro klicove body i tranzitivni - pro
takove, ze
jsou spojene a
je klicovy, pak
je dosazitelny z 
- shluk je maximalni mnozina spojenych bodu, formalne shluk
je neprazdna podmnozina
takova, ze
- pro kazde
plati, ze pokud
a
je dosazitelny z
, pak 
- pro kazde
je
spojeny s
(souvislost)
Pokracovani
Vazeni datovych bodu
Vazene trenovani:
- dalsi stromy se uci na tom, jak dobre/spatne predikovaly ty predchozi
- pri uceni stromu se vahy projevi v kroku, kde se pocita informacni zisk (entropie)
- pro uzel
se napr. pro vypocet entropie
pouzije odhad pravdepodobnosti tridy 1 urceny souctem vah bodu ve tride 1, ktere spadaji do
, podeleny souctem vah vsech bodu v
, lze delat podobne i pro regresni ulohu - pokud mame napr. datove body s vahami
, pak soucet vah pro
je
, soucet vsech vah je
, tedy pravdepodobnost tridy
je v tomto pripade 
- tedy u vypoctu entropie se
(
obdobne) spocita jako

- strom se (logicky) snazi lepe predikovat body s vetsi vahou, tedy cim dela vetsi chyby, tim je vetsi penalizace, aby se je priste snazil zmensit
Vazena predikce:
- predikuje se
, pokud soucet vah pro
nadpolovicni, nez soucet vsech vah
Poznamka:
- je vhodne mit "weak learners" - modely, ktere casto delaji chyby, ale spise se nepreuci
- nemusi jit nutne o rozhodovaci strom, dulezite je, aby model podporoval vazeni dat
- redukce vychyleni (bias) - mene systematickych chyb
Vztah vychyleni a rozptylu
Pokracovani

- celkova chyba je tedy
(viz nize) - tedy soucet neodstranitelne chyby, kvadratu vychyleni odhadu a rozptylu odhadu
- rozptyl: jak moc se podle trenovacich dat meni predikce
- vychyleni: systematicke vychyleni
- typicky je jedno zvetsuje, druhe zmensuje, chceme minimalizovat soucet
Trenovani - metoda maximalni verohodnosti
- Oznacme
jako pravdepodobnost, ze datovy bod nabyval hodnoty
:

- Pak oznacme
jako pravdepodobnost, ze datovy bod nabyval hodnoty
:

- Pravdepodobnost, ze
-ty datovy bod tedy skutecne nabyval hodnoty
(skutecne hodnoty, ktera nastala), se tedy da vypocitat jako

- Predpokladame, ze jednotlive namerene hodnoty jsou na sobe nezavisle, pak (z PST) vime, ze pravdepodnost, ze vsechny jevy nastaly zaroven, se da spocitat jako soucet jednotlivych pravdepodobnosti. Mame fixni trenovaci data
a muzeme tedy v zavislosti na parametrech
tuto pravdepodobnost odhadnout jako

- Tuto pravdepodobnost chceme maximalizovat.
- Teto metode pouzivane pri trenovani modelu logisticke regrese se rika metoda maximalni verohodnosti: Hledame takovy vektor parametru
, pro ktery je nejvetsi sance, ze trenovaci data nabyvala takovych hodnot, nez pro kterekoliv jine
. - Hledame tedy globalni maximum teto verohodnostni funkce

Logisticka regrese
- metoda pro klasifikaci, my se omezime na binarni klasifikaci
- budeme urcovat pravdepodobnost prislusnosti k dane tride
- podobne jako u linearni regrese uvazujme linearni zavislost na jednotlivych priznacich, tentokrat na tom ale zavisi tato pravdepodobnost
- oznacme
- stejne jako u linearni regrese nejaky intercept + koeficienty priznaku (tedy vektor
) - pocitame s tim, ze existuje nejake rozumne rozdeleni roviny na 2 casti (z pohledu vizualizace teto linearni kombinace) s tim, ze cim dal jsme od hranice na jednu stranu, tim vetsi hodnota
a naopak cim dal jsme od hranice na druhou stranu, tim mensi hodnota 
- tuto hodnotu
chceme nejak rozumne vmestnat do moznych hodnot
, coz je interval
, a to tak, aby nepresnost u hodne kladne nebo hodne zaporna hodnota nezmenila fakt, ze ta si je model hodne jisty
bias-variance tradeoff u hrebenove regrese
Dendrogram
- binarni strom, ktery reprezentuje jednotlive kroky shlukovani, pokud algoritmus nema zadany max. pocet shluku
- listy jsou mnoziny s pocatecnimi body
- koren je cely dataset
- jednotlive vrcholy jsou disjunktnim sjednocenim prave dvou vrcholu, a to prave tech, ktere algoritmus sjednotil na tento novy vrchol
- kazdy vrchol, ktery neni list, ma v sobe zaroven ciselnou hodnotu, ktera urcuje vzdalenost tech dvou mnozin vrcholu, ktere byly sjednoceny v tento vrchol

- pokud chceme
shluku, pak dendrogram usekneme pod
-tym nejvyssim vrcholem (pro 1 shluk nic nesekame, pro 2 shluky pod 1., pro 3 shluky pod 2., …) a hrany, ktere toto "useknuti" protne, vedou smerem dolu do prave tech
shluku - zaroven lze nastavit threshold, coz je proste
-souradnice, na niz se seka - zaroven se da porovnat vysky dvou sousednich vrcholu v ramci osy
, coz znaci, o kolik by se musel zvetsit threshold pro spojeni, aby se spojil ten vyssi z tech vrcholu
Nahodne lesy
- ze vstupniho trenovaciho datasetu
vytvorime
datasetu
(obvykle stejne velkych jako
) pomoci metody bootstrap - vyberu s opakovanim - na kazdem datasetu
naucime rozhodovaci strom, typicky vybereme jen nejaky zlomek priznaku: 
- pri predikci predikuji pomoci vsech stromu a predikce zprumeruji
- muzu zaroven delat vazeny prumer, jak moc si je dany strom jisty
- hyperparametry: pocet lesu, pomer
, parametry pro stromy, pomer/pocet (predem nahodne vybranych) featur - prumeruji se nezavisla data, cimz se redukuje rozptyl
- odolnejsi vuci preucenim
- horsi interpretovatelnost
- pomalejsi na natrenovani
Pokracovani silhoutte skore
- plati, ze

- pro
:

- nikdy nebude
vetsi nez
ve jmenovateli
: prumerna vzdalenost k jinemu nejblizsimu clusteru je vetsi nez k aktualnimu → GOOD
- pro

- nikdy nebude
v abs. hodnote vetsi nez 
: prumerna vzdalenost k jinemu nejblizsimu clusteru je mensi nez k aktualnimu (existuje blizsi cluster) → BAD
- pro
:
- bod je typicky blizko hranici, napr. okrajovy bod pri DBSCAN
- dobre u k-means a average linkage, u DBSCANu muze byt horsi, pokud jsou tvary hodne rozplacnute
DBSCAN - algoritmus
- Pro zadane
spocitej
- okoli kazdeho bodu a identifikuj klicove body - Vytvor zarodky shluku: Spoj sousedni (primo dosazitelne) body do shluku
- Pro kazdy bod, ktery neni klicovy: Pridej ho do shluku podle klicoveho bodu v okoli, pokud nejaky existuje, jinak ho pridej mezi sum
Poznamky:
- Pokud ma nejaky okrajovy bod vice klicovych bodu ve svem
-okoli vice ruznych zarodku shluku, spadne do prvniho shluku, ke kteremu se algoritmus dostane - lze ukazatm ze slozitost je v nejhorsim pripade
, v mnoha realnych situacich se ale realne dostane na 
- hyperparametry:
, kde
je typicky dulezitejsi
je dobre volit 4-6, nekdy
, kde
je pocet priznaku
je dobre volit male, lze napr. volit prumernou vzdalenost bodu k jejich
-temu sousedovi- sum by mel byt mezi 1 % a 30 %
- neni dobre mit velke shluky (napr. pres 50 % velikosti datasetu)
Zaver silhouette skore
- pomoci
pro kazde
lze ted napriklad zpocitat prumerne silhouette skore pro shluk
, znacime 
- nebo prumerne skore pro cele shlukovani, znacime

- porovnani
pro ruzne pocty shluku muzeme pouzit k nalezeni vhodneho poctu shluku
jako hodnoty, pri ktere je
minimalni
Analyza asociacnich pravidel
- cilem je nalezt spolecne hodnoty priznaku
- nalezeni oblasti prostoru, kde se data vyskytuji s velkou pravdepodobnost - mozne vyuziti je v doporucovacich systemech
- nejcasteji se zabyvame pouze oblastmi, ktere jsou ve tvaru kartezskeho soucinu pro jednotlive priznaky, tj. chceme, aby byla pravdepodobnost
relativne velka, tj. casto zkoumame kartezsky soucin spojitych podintervalu rozsahu jednotlivych priznaku (napr.
pro priznak
a zaroven
pro priznak
) - prunik takovych podmnozin priznaku:
se nazyva konjunktivni pravidlo
AdaBoost
1. Nastavme vahy rovnomerne, tedy
a polozme 
2. Pokud
:
Nauc strom
na datech
s vahami 
3. Do promenne
ulozme soucet vah tech bodu z
,
ktere jsou spatne klasifikovane stromem 
4. Pokud
:
Algoritmus skonci (vsechna data jsou natrenovana spravne)
a vrati rozhodovaci stromy 
5. Polozme 
kde
je hyperparametr modelu zabranujici preuceni
(pokud je mensi nez 1)
pokud je malo chyb (
), pak 
pokud je hodne chyb (
), pak 
6. Pro stromem
spatne klasifikovane body
:

7. znormalizujeme vahy, aby jejich soucet byl 1
8. zvetsime
o jedna, vratime se do bodu 2
Maximalizace verohodnostni funkce
Binarni AAP
- casto se AAP aplikuje v pripade binarnich priznaku, tj.
- "analyza nakupniho kosiku" (ANK) - pouziva se dalsi omezeni:
je bud jednoprvkova mnozina
, nebo vsechny moznosti daneho priznaku
(priznak vypadne) - vybirame pouze priznaky s hodnotou 1, nikoli s hodnotou 0 - ekvivalentne tedy hledame mnozinu indexu
tak, ze tato pravdedobnost je relativne velka: 
- mnozina
se pak nazyva mnozina polozek - relativni velikost polozek v datasetu, ktere danou mnozinu polozek obsahuji, se znaci
a nazyva podpora mnoziny polozek a odpovida odhadu vyse uvedene pravdepodobnosti: 
- tedy relativni velikost datasetu, ktere odpovidaji teto mnozine polozek
Hledani nad urcitou mez
Hledani gradientu
- tuto sumu (soucet) lze derivovat jako soucet derivaci (vnitrku sumy) pro kazde
, protoze se jedna o rozdil, muzeme oba cleny te vnejsi zavorky derivovat zvlast a odecist je od sebe - pri pocitani parcialni derivace
:
Hranice

- resenim takove rovnice je nadrovina v prostoru
(bod v
, primka pro
, rovina pro
) - tato data musi byt hezky linearne separabilni, tj. existuje nadrovina, ktera je spolehlive oddeli na nuly a jednicky (ve 2D primka, ve 3D rovina atd.)
- napr. pokud mame dataset, kde data jsou rovnomerne rozdelena do nejake vzdalenosti od bodu
napr. s hodnotou
v prvnim a tretim kvadrantu, s hodnotou
ve druhem a ctvrtem kvadrantu, nelze je nijak oddelit primkou!!!
Pokracovani
Trenovani + predikce
Parametry modelu:
n: pocet lesu
k: pocet vybranych prvku
q: pocet nahodne vybranych priznaku
H: hyperparametry stromu
Trenovani(D: dataset) -> void:
1. for i = 1..n:
2. Di = []
3. Qi = vyber nahodnych q priznaku z priznaku D
4. repeat k times:
5. x = vyber nahodny prvek z D
6. Di.append(x.vyber_priznaky(Qi))
7. Ti = natrenuj strom s daty Di a hyperparametry H
Predikce(x: datovy bod) -> float
1. pro i = 1..n:
2. Yi = Ti.predict(x.vyber_priznaky(Qi))
3. return mean(Yi)
Predikce
1. Kazdemu stromu
prirad vahu
z kroku 5 trenovaciho algoritmu
2. Secti vahy
vsech stromu, ktere pro
predikuji 
a to same udelej pro stromy predikujici
(vazena predikce)
3. Rozhodni se pro tu z moznosti, pro kterou je soucet vah vyssi
Priklad
- asociacni pravidlo

- podpora
znamena, ze v celem datasetu si koupilo
kombinaci vsech tri produktu - pokud se parky vyskytuji v
pripadu, pak spolehlivost se vypocita jako

- tedy pokud si zakaznik koupi parky, pak v
pripadu si koupi i horcici a chleb - pokud se horcice a chleb vyskytuji v
pripadu, zdvih bude 
- tedy pokud si zakaznik koupi parek, pak je
vetsi sance, ze si koupi horcici a chleb, nez kdyby si parky nekoupil - pokryti je
, tedy ze
lze horcici a chleb brat jako dusledek koupe parku - nevyhoda na podporu je, ze pravidla s velkou hodnotou spolehlivosti i zdvihu, ale s nizkou podporou, nebudou nalezena, napr.

Hledani gradientu - pokracovani