BI-ML1
Created by Honza Šuráň

Binarni klasifikace
Pokracovani LR
- odolna vuci vysoke dimenzionalite
- pro
priznaku muze stacit
trenovacich bodu pro natrenovani - pokud jsou ale priznaky kolinearni, pak
bud neni linearni, nebo je vysoce numericky nestabilni, a inverze se pocita blbe
Gini index (Gini impurity)

- neco jako rozptyl pro Bernoulliho rozdeleni
- chci co nejmensi "rozptyl" v podmnozinach - jak moc dobre klasifikovan bude novy prvek/jak moc jsou podmnoziny homogenni
Linearni regrese
Vyber priznaku
- slouzi k redukci priznaku a dimenze
- supervizovane i nesupervizovane
Vestavene metody
- vyuzivaji model, ktery se trenuje pouze jednou na celych datech a pri tom implicitne provede vyber priznaku
- funguje tak, ze se implicitne nauci nektere priznaky vubec nevyuzivat
- napr. u linearni regrese jsou prislusne koeficienty odhadnuty jako nulove
Nestrannost metody nejmensich ctvercu
- Veta: odhad
ziskany metodou nejmensich ctvercu je za predpokladu
nestranny, tj. 
- Dukaz:
![\begin{align}
\text{E} \mathbf{Y} = \text{E}\left(\mathbf{X} \mathbf{w} + \mathbf{\epsilon} \right) &= \mathbf{X} \mathbf{w} + \text{E} \mathbf{\epsilon} = \mathbf{X} \mathbf{w} \\[7pt]
\text{E} \hat{\mathbf{w}}_{OLS}
&= \text{E}\left(\mathbf{X}^T X \right)^{-1} \mathbf{X}^T \mathbf{Y} \\
&= \left(\mathbf{X}^T\mathbf{X}\right)^{-1} \mathbf{X}^T \text{E } \mathbf{Y} \\
&= \left(\mathbf{X}^T \mathbf{X}\right)^{-1} \mathbf{X}^T\mathbf{X}\mathbf{w} \\
&= \mathbf{w}
\end{align}](data:image/svg+xml;base64,<svg xmlns:xlink="http://www.w3.org/1999/xlink" width="35.688ex" height="19.509ex" style="vertical-align: -9.171ex;" viewBox="0 -4451.1 15365.6 8399.8" role="img" focusable="false" xmlns="http://www.w3.org/2000/svg">
<defs>
<path stroke-width="1" id="E1-STIXWEBMAIN-45" d="M597 169l-46 -169h-539v19c77 5 87 18 87 95v436c0 74 -12 89 -87 93v19h530l4 -143h-25c-15 90 -38 105 -154 105h-131c-28 0 -35 -4 -35 -36v-220h151c86 0 101 17 113 96h23v-234h-23c-12 84 -27 97 -113 97h-151v-243c0 -42 27 -47 101 -47h36c143 0 186 26 231 132 h28Z"></path>
<path stroke-width="1" id="E1-STIXWEBNORMALB-1D418" d="M699 676v-25c-34 -5 -54 -16 -68 -39l-191 -311v-178c0 -78 13 -91 92 -98v-25h-347v25c83 7 93 28 93 103v136l-180 328c-19 34 -49 57 -83 59v25h335v-25l-27 -2c-40 -3 -54 -6 -54 -29c0 -9 12 -36 24 -59l120 -232l109 178c26 43 41 82 41 102c0 29 -16 37 -84 42v25 h220Z"></path>
<path stroke-width="1" id="E1-STIXWEBMAIN-3D" d="M637 320h-589v66h589v-66zM637 120h-589v66h589v-66Z"></path>
<path stroke-width="1" id="E1-STIXWEBMAIN-28" d="M304 -161l-12 -16c-158 90 -244 259 -244 429c0 185 87 329 247 424l9 -16c-139 -119 -170 -212 -170 -405c0 -186 30 -299 170 -416Z"></path>
<path stroke-width="1" id="E1-STIXWEBNORMALB-1D417" d="M699 0h-340v25l28 2c35 2 52 11 52 28c0 12 -9 35 -21 54l-101 162l-38 -51c-75 -101 -94 -132 -94 -153c0 -26 20 -36 81 -42v-25h-250v25c50 6 74 19 104 56l175 221l-198 291c-31 45 -44 55 -80 58v25h346v-25l-31 -2c-36 -2 -48 -10 -48 -31c0 -12 2 -17 15 -37 l97 -150l56 77c47 65 58 84 58 106c0 24 -13 31 -51 35l-21 2v25h250v-25c-75 -7 -101 -25 -188 -146l-80 -111l182 -283c47 -73 63 -85 97 -86v-25Z"></path>
<path stroke-width="1" id="E1-STIXWEBNORMALB-1D430" d="M707 461v-24c-26 -5 -37 -16 -50 -50l-155 -401h-23l-102 310l-125 -310h-24l-148 374c-25 62 -31 72 -57 77v24h222v-24c-28 -4 -38 -11 -38 -28c0 -13 12 -44 39 -115l45 -118l68 171c-2 6 -4 12 -6 19c-19 66 -20 67 -59 71v24h234v-24c-38 -3 -48 -8 -48 -24 c0 -10 7 -38 27 -106c20 -70 24 -85 34 -127l35 94c29 78 44 115 44 128c0 23 -11 31 -48 35v24h135Z"></path>
<path stroke-width="1" id="E1-STIXWEBMAIN-2B" d="M636 220h-261v-261h-66v261h-261v66h261v261h66v-261h261v-66Z"></path>
<path stroke-width="1" id="E1-STIXWEBNORMALI-1D716" d="M430 441l-19 -132h-15c-7 46 -24 105 -93 105c-82 0 -139 -97 -161 -167h181l-5 -36h-185c-7 -20 -7 -41 -7 -66c0 -64 37 -101 92 -101c58 0 109 34 144 68l12 -14c-53 -60 -111 -109 -194 -109c-94 0 -140 69 -140 152c0 142 114 300 269 300c49 0 55 -20 83 -20 c12 0 19 11 23 20h15Z"></path>
<path stroke-width="1" id="E1-STIXWEBMAIN-29" d="M29 660l12 16c153 -92 244 -259 244 -429c0 -185 -88 -327 -247 -424l-9 16c142 117 170 211 170 405c0 187 -25 302 -170 416Z"></path>
<path stroke-width="1" id="E1-STIXWEBMAIN-302" d="M-75 507h-34l-122 103l-121 -103h-34l124 167h62Z"></path>
<path stroke-width="1" id="E1-STIXWEBNORMALI-1D442" d="M712 420c0 -198 -156 -431 -409 -431c-149 0 -253 96 -253 233c0 203 158 447 413 447c167 0 249 -123 249 -249zM596 443c0 107 -40 189 -141 189c-232 0 -284 -313 -284 -455c0 -97 62 -150 140 -150c212 0 285 275 285 416Z"></path>
<path stroke-width="1" id="E1-STIXWEBNORMALI-1D43F" d="M668 190l-61 -190h-569l4 16h17c75 0 99 28 107 62l118 477c4 16 7 36 7 45c0 19 -14 37 -76 37h-18l4 16h327l-4 -16h-18c-75 0 -96 -26 -105 -63l-122 -481c-4 -15 -5 -29 -5 -31c0 -22 28 -24 40 -24h122c102 0 153 22 199 115c7 11 12 23 17 37h16Z"></path>
<path stroke-width="1" id="E1-STIXWEBNORMALI-1D446" d="M680 668l-53 -221h-16c1 8 1 16 1 24c0 84 -48 160 -160 160c-43 0 -121 -26 -121 -97c0 -69 61 -111 117 -159c59 -49 118 -107 118 -194c0 -99 -87 -191 -244 -191c-94 0 -125 38 -201 38c-25 0 -39 -11 -55 -38h-16l60 236h16c0 -10 1 -21 1 -31 c3 -79 40 -167 171 -167c127 0 156 71 156 136c0 35 -18 68 -46 96c-30 31 -78 67 -114 102c-28 28 -73 82 -73 131c0 81 65 175 223 175c83 0 140 -37 183 -37c20 0 34 22 37 37h16Z"></path>
<path stroke-width="1" id="E1-STIXWEBNORMALI-1D447" d="M670 653l-46 -179h-16c2 17 5 44 5 71c0 66 -58 71 -99 71h-98l-133 -538c-2 -9 -5 -16 -5 -25c0 -21 16 -37 76 -37h21l-4 -16h-329l4 16h18c78 0 98 28 106 62l133 538h-91c-83 0 -153 -61 -171 -142h-16l46 179h599Z"></path>
<path stroke-width="1" id="E1-STIXWEBNORMALI-1D44B" d="M810 653l-4 -16h-4c-69 0 -98 -32 -135 -74l-187 -213l96 -266c12 -34 29 -68 79 -68h14l-4 -16h-281l4 16h11c38 0 67 4 67 41c0 8 -1 16 -4 26l-69 194l-181 -201c-9 -10 -12 -19 -12 -28c0 -19 18 -32 56 -32h22l-4 -16h-249l4 16c54 7 103 37 140 77l208 230l-85 231 c-11 31 -28 83 -102 83h-9l4 16h283l-4 -16h-19c-30 0 -52 -4 -52 -35c0 -8 2 -17 6 -28l60 -179l164 184c9 11 15 23 15 34c-1 16 -13 24 -45 24h-9l4 16h222Z"></path>
<path stroke-width="1" id="E1-STIXWEBSIZE1-28" d="M382 -134v-30c-142 134 -243 343 -243 615c0 267 101 481 243 615v-30c-90 -110 -162 -282 -162 -585c0 -306 72 -475 162 -585Z"></path>
<path stroke-width="1" id="E1-STIXWEBSIZE1-29" d="M86 1036v30c142 -134 243 -343 243 -615c0 -267 -101 -481 -243 -615v30c90 110 162 282 162 585c0 306 -72 475 -162 585Z"></path>
<path stroke-width="1" id="E1-STIXWEBMAIN-2212" d="M621 220h-557v66h557v-66Z"></path>
<path stroke-width="1" id="E1-STIXWEBMAIN-31" d="M394 0h-276v15c74 4 95 25 95 80v449c0 34 -9 49 -30 49c-10 0 -27 -5 -45 -12l-27 -10v14l179 91l9 -3v-597c0 -43 20 -61 95 -61v-15Z"></path>
</defs>
<g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)">
<g transform="translate(167,0)">
<g transform="translate(-11,0)">
<g transform="translate(0,3570)">
 <use xlink:href="#E1-STIXWEBMAIN-45" x="0" y="0"></use>
 <use xlink:href="#E1-STIXWEBNORMALB-1D418" x="611" y="0"></use>
 <use xlink:href="#E1-STIXWEBMAIN-3D" x="1611" y="0"></use>
 <use xlink:href="#E1-STIXWEBMAIN-45" x="2575" y="0"></use>
<g transform="translate(3353,0)">
 <use xlink:href="#E1-STIXWEBMAIN-28" x="0" y="0"></use>
 <use xlink:href="#E1-STIXWEBNORMALB-1D417" x="333" y="0"></use>
 <use xlink:href="#E1-STIXWEBNORMALB-1D430" x="1056" y="0"></use>
 <use xlink:href="#E1-STIXWEBMAIN-2B" x="2000" y="0"></use>
 <use xlink:href="#E1-STIXWEBNORMALI-1D716" x="2908" y="0"></use>
 <use xlink:href="#E1-STIXWEBMAIN-29" x="3338" y="0"></use>
</g>
</g>
<g transform="translate(4091,1289)">
 <use xlink:href="#E1-STIXWEBMAIN-45" x="0" y="0"></use>
<g transform="translate(611,0)">
 <use xlink:href="#E1-STIXWEBNORMALB-1D430" x="0" y="0"></use>
 <use xlink:href="#E1-STIXWEBMAIN-302" x="553" y="63"></use>
<g transform="translate(722,-150)">
 <use transform="scale(0.707)" xlink:href="#E1-STIXWEBNORMALI-1D442" x="0" y="0"></use>
 <use transform="scale(0.707)" xlink:href="#E1-STIXWEBNORMALI-1D43F" x="732" y="0"></use>
 <use transform="scale(0.707)" xlink:href="#E1-STIXWEBNORMALI-1D446" x="1441" y="0"></use>
</g>
</g>
</g>
</g>
<g transform="translate(7015,0)">
<g transform="translate(0,3570)">
 <use xlink:href="#E1-STIXWEBMAIN-3D" x="277" y="0"></use>
 <use xlink:href="#E1-STIXWEBNORMALB-1D417" x="1241" y="0"></use>
 <use xlink:href="#E1-STIXWEBNORMALB-1D430" x="1963" y="0"></use>
 <use xlink:href="#E1-STIXWEBMAIN-2B" x="2908" y="0"></use>
 <use xlink:href="#E1-STIXWEBMAIN-45" x="3816" y="0"></use>
 <use xlink:href="#E1-STIXWEBNORMALI-1D716" x="4427" y="0"></use>
 <use xlink:href="#E1-STIXWEBMAIN-3D" x="5135" y="0"></use>
 <use xlink:href="#E1-STIXWEBNORMALB-1D417" x="6099" y="0"></use>
 <use xlink:href="#E1-STIXWEBNORMALB-1D430" x="6821" y="0"></use>
</g>
<g transform="translate(0,1289)">
 <use xlink:href="#E1-STIXWEBMAIN-3D" x="277" y="0"></use>
 <use xlink:href="#E1-STIXWEBMAIN-45" x="1241" y="0"></use>
<g transform="translate(1852,0)">
 <use xlink:href="#E1-STIXWEBSIZE1-28" x="0" y="-201"></use>
<g transform="translate(468,0)">
 <use xlink:href="#E1-STIXWEBNORMALB-1D417" x="0" y="0"></use>
 <use transform="scale(0.707)" xlink:href="#E1-STIXWEBNORMALI-1D447" x="1021" y="583"></use>
</g>
 <use xlink:href="#E1-STIXWEBNORMALI-1D44B" x="1765" y="0"></use>
 <use xlink:href="#E1-STIXWEBSIZE1-29" x="2575" y="-201"></use>
<g transform="translate(3044,602)">
 <use transform="scale(0.707)" xlink:href="#E1-STIXWEBMAIN-2212" x="0" y="0"></use>
 <use transform="scale(0.707)" xlink:href="#E1-STIXWEBMAIN-31" x="685" y="0"></use>
</g>
</g>
<g transform="translate(5835,0)">
 <use xlink:href="#E1-STIXWEBNORMALB-1D417" x="0" y="0"></use>
 <use transform="scale(0.707)" xlink:href="#E1-STIXWEBNORMALI-1D447" x="1021" y="583"></use>
</g>
 <use xlink:href="#E1-STIXWEBNORMALB-1D418" x="7131" y="0"></use>
</g>
<g transform="translate(0,-458)">
 <use xlink:href="#E1-STIXWEBMAIN-3D" x="277" y="0"></use>
<g transform="translate(1241,0)">
 <use xlink:href="#E1-STIXWEBSIZE1-28" x="0" y="-201"></use>
<g transform="translate(468,0)">
 <use xlink:href="#E1-STIXWEBNORMALB-1D417" x="0" y="0"></use>
 <use transform="scale(0.707)" xlink:href="#E1-STIXWEBNORMALI-1D447" x="1021" y="583"></use>
</g>
 <use xlink:href="#E1-STIXWEBNORMALB-1D417" x="1765" y="0"></use>
 <use xlink:href="#E1-STIXWEBSIZE1-29" x="2487" y="-201"></use>
<g transform="translate(2956,602)">
 <use transform="scale(0.707)" xlink:href="#E1-STIXWEBMAIN-2212" x="0" y="0"></use>
 <use transform="scale(0.707)" xlink:href="#E1-STIXWEBMAIN-31" x="685" y="0"></use>
</g>
</g>
<g transform="translate(5135,0)">
 <use xlink:href="#E1-STIXWEBNORMALB-1D417" x="0" y="0"></use>
 <use transform="scale(0.707)" xlink:href="#E1-STIXWEBNORMALI-1D447" x="1021" y="583"></use>
</g>
 <use xlink:href="#E1-STIXWEBMAIN-45" x="6432" y="0"></use>
 <use xlink:href="#E1-STIXWEBNORMALB-1D418" x="7293" y="0"></use>
</g>
<g transform="translate(0,-2205)">
 <use xlink:href="#E1-STIXWEBMAIN-3D" x="277" y="0"></use>
<g transform="translate(1241,0)">
 <use xlink:href="#E1-STIXWEBSIZE1-28" x="0" y="-201"></use>
<g transform="translate(468,0)">
 <use xlink:href="#E1-STIXWEBNORMALB-1D417" x="0" y="0"></use>
 <use transform="scale(0.707)" xlink:href="#E1-STIXWEBNORMALI-1D447" x="1021" y="583"></use>
</g>
 <use xlink:href="#E1-STIXWEBNORMALB-1D417" x="1765" y="0"></use>
 <use xlink:href="#E1-STIXWEBSIZE1-29" x="2487" y="-201"></use>
<g transform="translate(2956,602)">
 <use transform="scale(0.707)" xlink:href="#E1-STIXWEBMAIN-2212" x="0" y="0"></use>
 <use transform="scale(0.707)" xlink:href="#E1-STIXWEBMAIN-31" x="685" y="0"></use>
</g>
</g>
<g transform="translate(5135,0)">
 <use xlink:href="#E1-STIXWEBNORMALB-1D417" x="0" y="0"></use>
 <use transform="scale(0.707)" xlink:href="#E1-STIXWEBNORMALI-1D447" x="1021" y="583"></use>
</g>
 <use xlink:href="#E1-STIXWEBNORMALB-1D417" x="6432" y="0"></use>
 <use xlink:href="#E1-STIXWEBNORMALB-1D430" x="7154" y="0"></use>
</g>
<g transform="translate(0,-3671)">
 <use xlink:href="#E1-STIXWEBMAIN-3D" x="277" y="0"></use>
 <use xlink:href="#E1-STIXWEBNORMALB-1D430" x="1241" y="0"></use>
</g>
</g>
</g>
</g>
</svg>)
- Veta: Predikce je take nestranna:

- dusledek: vychyleni je nulove:

Mira neusporadanosti, entropie, informacni zisk
hyperparametry modelu
- parametry, ktere urcuji tvar nebo komplexitu modelu: kriterium (gini/entropy), min_samples_split, max_depth, min_ig, ...
Predikce LR
Hledani vektoru koeficientu
Filtracni metody
- vyhodit priznaky, ktere maji prilis nizky rozptyl a jsou tedy temer konstantni
- vyhodit priznaky, ktere maji prilis chybejicich hodnot
- vyhodit priznaky, ktere spolu hodne koreluji a jsou tedy redundantni
- vyhodit priznaky, ktere maji nizkou korelaci s vysvetlovanou promennou (v pripade linearniho modelu!)
- u binarnich priznaku muzeme rozdelit vysvetlovanou promennou na 2 skupiny a udelat test hypotezy o rovnosti strednich hodnot - pokud vyjde stejna hodnota, muzeme tento priznak vyhodit
Obalove metody
- cilem je vybrat podmnozinu priznaku, pro kterou je vykonnost modelu co nejvetsi - to muze byt benefit, ale hrozi preuceni!
- velka vypocetni narocnost - i jen naivni vyber
modelu, kde v kazdem chybi
priznak, znamena
-krat vetsi vypocetni narocnost
Obecne veci ke strojovemu uceni
- snaha predikovat vysvetlovanou promennou na zaklade vstupnich dat
- pri trenovani se data typicky deli na trenovaci, validacni a testovaci
- trenovaci - slouzi k trenovani modelu, kterych je typicky spousta podle ruznych kombinaci hyperparametru
- validacni - slouzi k vybrani nejlepsiho z modelu, na nichz se trenovala data
- testovaci - slouzi k predikci presnosti na novych datech
- trenovaci, validacni a testovaci data by mela byt zcela nezavisla - nejprve data oddelit na 3 separatni mnoziny (typicky treba 60:20:20) a pak az provest trenovani a vyber modelu a odhad presnosti na novych datech
- smi se napr. doplnovat chybejici hodnoty medianem/prumerem z trenovacich dat, ale v zadnem pripade se to nesmi prumerovat s validacnimi nebo testovacimi!
- preuceni - vlastnost modelu, ktery se prilis soustredi na statisticky nevyznamne vychylky/anomalie v datech, kde by jinak pravdepodobne jina podobna data nemela stejnou hodnotu vysvetlovane promenne s tak optimistickou pravdepodobnosti
Regresni strom
Lasso
Minimalizace RSS: Derivovani RSS

Merged prednasky
prednasky-merged.pdf
Rozhodovaci stromy obecne
Vyhody:
- nenarocnost na pripravu dat: poradi si s kategorickymi daty i chybejicimi hodnotami
- jsou jednoduche, srozumitelne, uceni je relativne rychle a predikce taky
- jsou jednoduse interpretovatelne (proc udelaly nejaka rozhodnuti
Nevyhody:
- i drobna zmena v trenovacich datech muze znamenat velkou zmenu ve strukture stromu
- vetsina implementaci podporuje pouze binarni stromy
- najit optimalni strom je NP-uplny problem
- je snadne rozhodovaci strom preucit
Parcialni derivace, gradient, Hessova matice
Postacujici podminka pro existenci lokalniho extremu
Prepis datasetu do maticoveho zapisu
Vyhody, nevyhody, tipy a rady
- je vhodne volit rozumne
, aby se dal delat rozumny odhad a zabranilo se sumu a preuceni - prilis vysoke
muze na druhou stranu zpusobit, ze se koukame na prilis mnoho bodu v datasetu, ktere uz tim padem vlastne nejsou az tak blizko bodu, ktery predikujeme - prokleti dimenzionality - pro vyssi dimenzi muze mit (zejmena) euklidovska metrika velice male odchylky pri zmene jednoho treba i dost vyznamneho priznaku - ztrati se v odmocnine mezi ostatnimi cleny, ktere v souctu muzou byt mnohem vyznamnejsi
- take s vyssi dimenzi podstatne roste (mame-li interval
) delka intervalu, pokud bychom udelali dokonalou krychli, aby zabirala rekneme
celkoveho objemu:
- pro
je to
, pro
je to
, pro
je to
, pro
je to
atd.
Forward & backward selection
Forward selection:
- Zaciname s
, vezmeme po jednom z priznaku
, natrenujeme pro ruzne mnoziny priznaku
a vratime
, jehoz pridani zpusobilo nejlepsi validacni presnost - dokud jsme si polepsili (pripadne o nejaky threshold) nebo jsme neporusili threshold pro max. pocet priznaku, polozime
a opakujeme predchozi bod s mnozinou jeste nevybranych priznaku - slozitost:
krat rychlost natrenovani jednoho modelu
Backward selection:
- funguje uplne stejne, jen zacne se vsemi priznaky a po jednom odebira, dokud nebudeme mit pozadovany pocet a stale doslo ke zlepseni (pripadne pro nejaky threshold)
Rekurzivni odebirani priznaku
- model se natrenuje jen jednou a ohodnoti jednotlive priznaky (musi toho byt schopen)
- napr. regrese - maji koeficienty - blizko nule znamena nevyznamny, atd.
- nasledne se za linear ku poctu priznaku vyhazou priznaky
tvrzeni o geometrickem stredu
Tvrzeni:
- Pro konecnou mnozinu
plati 
- kde
je geometricky stred (centroid) mnoziny
- tedy ze
je optimalni 
- tedy soucet vzdalenosti od bodu je nejmensi, pokud je dany bod prumerem dat
- presne takhle funguje optimum pro MSE
Dukaz:
Norma
Metrika
Metoda nejblizsich sousedu (kNN)
- spoleha na to, ze datove body, ktere maji stejjne nebo (ciselne) podobne parametry, maji vetsi sanci na stejnou binarni predikci pripadne podobnou hodnotu spojite vysvetlovane promenne
- hyperparametr
- pocet sousedu, metrika 
- pomerne dobre vysledky je obcas mozne dosahnout i s nejakou slabsi metrikou, ktera nesplnuje vsechny 3 axiomy (hlavne trojuhelnikovou nerovnost), ale ne vzdy - navic je pak predikce pomalejsi, protoze bez teto vlastnosti data nejde moc chunkovat
- je nutne data normalizovat
- standard scaler - naskaluje data, aby byla stredni hodnota 0 a rozptyl
- min-max scaler - nejmensi hodnotu zmeni na nulu, nejvetsi na 1 a mezi nimi udela nejakou interpolaci (typicky linearni)
- proces trenovani neni - predikuje se primo na trenovacich datech
- pro kazdy datovy bod se vybere
nejblizsich sousedu podle metriky
a predikuje se v pripade binarni klasifikace majoritou, v pripade regrese prumerem
Modely bazovych funkci
- linearni model:

- je ale mozne vytvorit ruzne funkce
, ktere berou aktualni priznaky a vytvorit z nich nove priznaky - s temito priznaky pak natrenujeme model
- vetsinou se pouziva hrebenova regrese, protoze priznaky spis jenom pridavame, nez abychom nahrazovali jiz existujici
Predikce
- predikce v bode
:

Geometricka interpretace
Pokracovani: Gradient, normalni rovnice, Hessova matice
Nesupervizovane uceni
- data nemame nijak oznacena, nemame, co predikovat, chceme porozumet strukture
- tzn. analyza nejake stabilni struktury datasetu - kde se data vyskytuji, tzn. shlukovani
- uvazme situaci, kdy nase -data obsahuji
priznaku a oznacme
prostor, ve kterem se nachazeji mozne vysledky
- pro binarni priznaky volime

- pro
spojitych priznaku typicky volime 
- z pohledu teorie pravdepodobnosti a statistiky chapeme pozorovana data jako realizace nahodneho vektoru

- porozumeni vnitrni strukture znamena porozumeni rozdeleni
0 chceme ziskat odhad pravdepodobnosti
pro kazdou (rozumnou) podmnozinu 
Evaluace modelu
Krizova validace
1. bokem si oddelime testovaci data
2. zbytek trenovacich dat
si rozdelime na
podobne velkych 
3. pro kazdou kombinaci hyperparametru
:
4. for J in 1..k:
5. natrenuj model na datech
s hyperparametry 
6. na mnozine
odhadni chybu jako 
7. spocitej cross-validacni chybu pro
: 
8. vrat kombinaci hyperparametru
s nejlepsim 
- typicke volby jsou

- muze byt extremne vypocetne narocna
- vhodna, pokud je malo dat
- pri extremne malem mnozstvi dat lze odhadnout chybu pomoci oddelovani testovaci mnoziny v dalsim vnejsim for cyklu
Shlukovani jako optimalizacni uloha
Shlukovani
- vstupy:
- metricky prostor
s metrikou 
- mnozina dat

- obvykle i pozadovany pocet shluku

- vystupy:
Konvergence algoritmus k-means
Tvrzeni:
- algoritmus k-means v zadne jeho iteraci nezvetsi hodnotu ucelove funkce
Dukaz:
problem kolinearity
- existuji linearni kombinace sloupcu, ktere daji temer nulkove vektory, zatimco jine linearni kombinace vraci mnohem vetsi vektory:
pro nejake 
- existuji smery, kde ma predikce obrovsky rozptyl a predikce budou dost skakat
Co s tim?
- prigenerovat data (muze a nemusi pomoct)
- zkusit se zbavit problematickych priznaku
- zmenit, co chceme minimalizovat: pridat regularizacni clen → hrebenova regrese
ROC, AUC
Pokracovani
- Implementace ve Scikitu vraci vektor
, ktery resi normalni rovnici a zaroven ma co nejmensi normu. Proc to je dobre? - predpokladejme
, tedy rovnice je ve tvaru
, oznacme
, zaroven tedy 
- kdybychom meli predikovat hodnotu pro datovy bod, kde
(napr.
a
ma velkou normu (treba
-krat), predikce by se zvetsila o dost vic, nez jak by se zmenila pro mensi 
Jednoznacnost reseni
Algoritmus k-means
- problem nalezeni globalniho minima uvedene ucelove funkce je NP-tezky
- algoritmus k-means: iterativni algoritmus, ktery konverguje k nejakemu jejimu lokalnimu minimu:
Algoritmus:
- Zvolme si
stredovych bodu 
- Kazdy bod
prirad do shluku se stredovym bodem
takovym, ze
je minimalni
: prepocitej stredovy bod
jako geometricky stred prislusneho shluku- Pokud se shluky nejak zmenily a nebylo dosazeno pripadneho zastavovaciho kriteria, vrat se na bod (2.)
Jak vybrat pocatecni stredove body?
- typicky nahodnym vyberem z dat, ktere jsou idealne nejak rozumne od sebe
- typicky se algoritmus spusti vickrat a vezme se to shlukovani, kde ma ucelova funkce nejmensi hodnotu
Jak zvolit
?
- lze ocekavat, ze pokud "podstrelime" idealni pocet shluku, ucelova funkce se o dost snizi, tedy muzeme pro
iterovat, dokud tento graf od
bude rozumne klesat - tato metoda muze fungovat, ale casto je pomerne nepouzitelna
Evaluace klasifikacniho modelu
Evaluacni miry podle presnosti a ocekavaneho vysledku
- true positive rate/sensitiva/recall/hit rate - spravne 1 (spravne detekuji nemoc)
- false positive rate/false alarm rate/type 1 error rate - v realite 0, ale predikce byla 1 (nekdo zdravy dostane pozitivni vysledek na test)
- false negative rate/miss rate/type 2 error rate - v realite 1, ale predikce byla 0 (nepozname, ze je nekdo nemocny)
- true negative rate/specificita/selektivita - spravne 0 (spravne necham zdraveho cloveka byt)
Evaluacni miry:
Hierarchicke shlukovani
- na zacatku uvazujeme kazdy bod jako jednotlivy shluk
- pokud existuji alespon 2 shluky, najdeme 2 shluky, ktere jsou k sobe nejbliz
- tyto 2 shluky spoj do noveho shluku a pokracuj na krok (2.)
Poznamky:
- zastavovaci kriterium: pocet shluku
- nebo threshold, ktere shluky jeste spojit
- zavisi na definici vzdalenosti shluku
Hrebenova regrese
- pridani penalizacniho clenu umerneho kvadratu normy koeficientu
s vynechanim interceptu:

- pro
mame linearni regresi - pro
cilime na nizsi normu vektoru Zavedme matici

- potom

- gradient:

- normalni rovnice:

- Hessova matice

Jednotlive metody
- metoda nejblizsiho souseda (single linkage): minimum vzdalenosti bodu z jednotlivych shluku - ma tendenci delat dlouhe retezy
- metoda nejvzdalenejsiho souseda (complete linkage): maximum vzdalenosti bodu z jednotlivych shluku - ma tendenci delat kompaktni shluky
- parova vzdalenost (average linkage): prumer vzdalenosti mezi kazdou dvojici bodu z ruznych shluku
- Wardova metoda: pro kazdou dvojici shluku spocita rozptyl obou shluku vuci prumeru a kdyby doslo ke sjednoceni, cili na maly rozdil rozptylu po sjednoceni, vyuziva euklidovskou vzdalenost
Zkoumame regularitu
Evaluace pomoci Silhouette skore
- uvazujme shlukovani
na metrickem prostoru
s metrikou
a pro libovolny bod
oznacme
index shluku, do ktereho
patri, tj. 
- pro bod
ted muzeme:
Pokracovani
Predikce
Kdy reseni neni jednoznacne
Ensemble metody
DBSCAN - definice
- mejme metricky prostor
s metrikou
, ze ktereho pochazi dataset
a parametry
a 
- definujme
-okoli bodu
v
jako mnozinu

- bod
je klicovy bod, jestlize v jeho
-okoli v
je alespon
bodu, tzn.

- bod
je primo dosazitelny z bodu
, jestlize
je klicovy bod a
, tj.
ma alespon
bodu v okoli a
je jeden z nich - pro dvojici klicovych bodu je relace prime dosazitelnosti symetricka, ale pro tzv. okrajovy bod symetricka neni (takovy bod, ktery neni klicovy, ale je dosazitelny z klicoveho bodu)
- bod
je dosazitelny z bodu
, pokud v grafu relace prime dosazitelnosti existuje orientovana
-
-cesta - bod
je spojeny s bodem
, jestlize existuje klicovy bod
takovy, ze
i
jsou dosazitelne z bodu
(tzn. existuje orientovana
-
-cesta a orientovana
-
-cesta a orientovana
-
-cesta), jde o symetrickou relaci a pro klicove body i tranzitivni - pro
takove, ze
jsou spojene a
je klicovy, pak
je dosazitelny z 
- shluk je maximalni mnozina spojenych bodu, formalne shluk
je neprazdna podmnozina
takova, ze
- pro kazde
plati, ze pokud
a
je dosazitelny z
, pak 
- pro kazde
je
spojeny s
(souvislost)
Pokracovani
Vazeni datovych bodu
Vazene trenovani:
- dalsi stromy se uci na tom, jak dobre/spatne predikovaly ty predchozi
- pri uceni stromu se vahy projevi v kroku, kde se pocita informacni zisk (entropie)
- pro uzel
se napr. pro vypocet entropie
pouzije odhad pravdepodobnosti tridy 1 urceny souctem vah bodu ve tride 1, ktere spadaji do
, podeleny souctem vah vsech bodu v
, lze delat podobne i pro regresni ulohu - pokud mame napr. datove body s vahami
, pak soucet vah pro
je
, soucet vsech vah je
, tedy pravdepodobnost tridy
je v tomto pripade 
- tedy u vypoctu entropie se
(
obdobne) spocita jako

- strom se (logicky) snazi lepe predikovat body s vetsi vahou, tedy cim dela vetsi chyby, tim je vetsi penalizace, aby se je priste snazil zmensit
Vazena predikce:
- predikuje se
, pokud soucet vah pro
nadpolovicni, nez soucet vsech vah
Poznamka:
- je vhodne mit "weak learners" - modely, ktere casto delaji chyby, ale spise se nepreuci
- nemusi jit nutne o rozhodovaci strom, dulezite je, aby model podporoval vazeni dat
- redukce vychyleni (bias) - mene systematickych chyb
Vztah vychyleni a rozptylu
Pokracovani

- celkova chyba je tedy
(viz nize) - tedy soucet neodstranitelne chyby, kvadratu vychyleni odhadu a rozptylu odhadu
- rozptyl: jak moc se podle trenovacich dat meni predikce
- vychyleni: systematicke vychyleni
- typicky je jedno zvetsuje, druhe zmensuje, chceme minimalizovat soucet
Trenovani - metoda maximalni verohodnosti
- Oznacme
jako pravdepodobnost, ze datovy bod nabyval hodnoty
:

- Pak oznacme
jako pravdepodobnost, ze datovy bod nabyval hodnoty
:

- Pravdepodobnost, ze
-ty datovy bod tedy skutecne nabyval hodnoty
(skutecne hodnoty, ktera nastala), se tedy da vypocitat jako

- Predpokladame, ze jednotlive namerene hodnoty jsou na sobe nezavisle, pak (z PST) vime, ze pravdepodnost, ze vsechny jevy nastaly zaroven, se da spocitat jako soucet jednotlivych pravdepodobnosti. Mame fixni trenovaci data
a muzeme tedy v zavislosti na parametrech
tuto pravdepodobnost odhadnout jako

- Tuto pravdepodobnost chceme maximalizovat.
- Teto metode pouzivane pri trenovani modelu logisticke regrese se rika metoda maximalni verohodnosti: Hledame takovy vektor parametru
, pro ktery je nejvetsi sance, ze trenovaci data nabyvala takovych hodnot, nez pro kterekoliv jine
. - Hledame tedy globalni maximum teto verohodnostni funkce

Logisticka regrese
- metoda pro klasifikaci, my se omezime na binarni klasifikaci
- budeme urcovat pravdepodobnost prislusnosti k dane tride
- podobne jako u linearni regrese uvazujme linearni zavislost na jednotlivych priznacich, tentokrat na tom ale zavisi tato pravdepodobnost
- oznacme
- stejne jako u linearni regrese nejaky intercept + koeficienty priznaku (tedy vektor
) - pocitame s tim, ze existuje nejake rozumne rozdeleni roviny na 2 casti (z pohledu vizualizace teto linearni kombinace) s tim, ze cim dal jsme od hranice na jednu stranu, tim vetsi hodnota
a naopak cim dal jsme od hranice na druhou stranu, tim mensi hodnota 
- tuto hodnotu
chceme nejak rozumne vmestnat do moznych hodnot
, coz je interval
, a to tak, aby nepresnost u hodne kladne nebo hodne zaporna hodnota nezmenila fakt, ze ta si je model hodne jisty
bias-variance tradeoff u hrebenove regrese
Dendrogram
- binarni strom, ktery reprezentuje jednotlive kroky shlukovani, pokud algoritmus nema zadany max. pocet shluku
- listy jsou mnoziny s pocatecnimi body
- koren je cely dataset
- jednotlive vrcholy jsou disjunktnim sjednocenim prave dvou vrcholu, a to prave tech, ktere algoritmus sjednotil na tento novy vrchol
- kazdy vrchol, ktery neni list, ma v sobe zaroven ciselnou hodnotu, ktera urcuje vzdalenost tech dvou mnozin vrcholu, ktere byly sjednoceny v tento vrchol

- pokud chceme
shluku, pak dendrogram usekneme pod
-tym nejvyssim vrcholem (pro 1 shluk nic nesekame, pro 2 shluky pod 1., pro 3 shluky pod 2., …) a hrany, ktere toto "useknuti" protne, vedou smerem dolu do prave tech
shluku - zaroven lze nastavit threshold, coz je proste
-souradnice, na niz se seka - zaroven se da porovnat vysky dvou sousednich vrcholu v ramci osy
, coz znaci, o kolik by se musel zvetsit threshold pro spojeni, aby se spojil ten vyssi z tech vrcholu
Nahodne lesy
- ze vstupniho trenovaciho datasetu
vytvorime
datasetu
(obvykle stejne velkych jako
) pomoci metody bootstrap - vyberu s opakovanim - na kazdem datasetu
naucime rozhodovaci strom, typicky vybereme jen nejaky zlomek priznaku: 
- pri predikci predikuji pomoci vsech stromu a predikce zprumeruji
- muzu zaroven delat vazeny prumer, jak moc si je dany strom jisty
- hyperparametry: pocet lesu, pomer
, parametry pro stromy, pomer/pocet (predem nahodne vybranych) featur - prumeruji se nezavisla data, cimz se redukuje rozptyl
- odolnejsi vuci preucenim
- horsi interpretovatelnost
- pomalejsi na natrenovani
Pokracovani silhoutte skore
- plati, ze

- pro
:

- nikdy nebude
vetsi nez
ve jmenovateli
: prumerna vzdalenost k jinemu nejblizsimu clusteru je vetsi nez k aktualnimu → GOOD
- pro

- nikdy nebude
v abs. hodnote vetsi nez 
: prumerna vzdalenost k jinemu nejblizsimu clusteru je mensi nez k aktualnimu (existuje blizsi cluster) → BAD
- pro
:
- bod je typicky blizko hranici, napr. okrajovy bod pri DBSCAN
- dobre u k-means a average linkage, u DBSCANu muze byt horsi, pokud jsou tvary hodne rozplacnute
DBSCAN - algoritmus
- Pro zadane
spocitej
- okoli kazdeho bodu a identifikuj klicove body - Vytvor zarodky shluku: Spoj sousedni (primo dosazitelne) body do shluku
- Pro kazdy bod, ktery neni klicovy: Pridej ho do shluku podle klicoveho bodu v okoli, pokud nejaky existuje, jinak ho pridej mezi sum
Poznamky:
- Pokud ma nejaky okrajovy bod vice klicovych bodu ve svem
-okoli vice ruznych zarodku shluku, spadne do prvniho shluku, ke kteremu se algoritmus dostane - lze ukazatm ze slozitost je v nejhorsim pripade
, v mnoha realnych situacich se ale realne dostane na 
- hyperparametry:
, kde
je typicky dulezitejsi
je dobre volit 4-6, nekdy
, kde
je pocet priznaku
je dobre volit male, lze napr. volit prumernou vzdalenost bodu k jejich
-temu sousedovi- sum by mel byt mezi 1 % a 30 %
- neni dobre mit velke shluky (napr. pres 50 % velikosti datasetu)
Zaver silhouette skore
- pomoci
pro kazde
lze ted napriklad zpocitat prumerne silhouette skore pro shluk
, znacime 
- nebo prumerne skore pro cele shlukovani, znacime

- porovnani
pro ruzne pocty shluku muzeme pouzit k nalezeni vhodneho poctu shluku
jako hodnoty, pri ktere je
minimalni
Analyza asociacnich pravidel
- cilem je nalezt spolecne hodnoty priznaku
- nalezeni oblasti prostoru, kde se data vyskytuji s velkou pravdepodobnost - mozne vyuziti je v doporucovacich systemech
- nejcasteji se zabyvame pouze oblastmi, ktere jsou ve tvaru kartezskeho soucinu pro jednotlive priznaky, tj. chceme, aby byla pravdepodobnost
relativne velka, tj. casto zkoumame kartezsky soucin spojitych podintervalu rozsahu jednotlivych priznaku (napr.
pro priznak
a zaroven
pro priznak
) - prunik takovych podmnozin priznaku:
se nazyva konjunktivni pravidlo
AdaBoost
1. Nastavme vahy rovnomerne, tedy
a polozme 
2. Pokud
:
Nauc strom
na datech
s vahami 
3. Do promenne
ulozme soucet vah tech bodu z
,
ktere jsou spatne klasifikovane stromem 
4. Pokud
:
Algoritmus skonci (vsechna data jsou natrenovana spravne)
a vrati rozhodovaci stromy 
5. Polozme 
kde
je hyperparametr modelu zabranujici preuceni
(pokud je mensi nez 1)
pokud je malo chyb (
), pak 
pokud je hodne chyb (
), pak 
6. Pro stromem
spatne klasifikovane body
:

7. znormalizujeme vahy, aby jejich soucet byl 1
8. zvetsime
o jedna, vratime se do bodu 2
Maximalizace verohodnostni funkce
Binarni AAP
- casto se AAP aplikuje v pripade binarnich priznaku, tj.
- "analyza nakupniho kosiku" (ANK) - pouziva se dalsi omezeni:
je bud jednoprvkova mnozina
, nebo vsechny moznosti daneho priznaku
(priznak vypadne) - vybirame pouze priznaky s hodnotou 1, nikoli s hodnotou 0 - ekvivalentne tedy hledame mnozinu indexu
tak, ze tato pravdedobnost je relativne velka: 
- mnozina
se pak nazyva mnozina polozek - relativni velikost polozek v datasetu, ktere danou mnozinu polozek obsahuji, se znaci
a nazyva podpora mnoziny polozek a odpovida odhadu vyse uvedene pravdepodobnosti: 
- tedy relativni velikost datasetu, ktere odpovidaji teto mnozine polozek
Hledani nad urcitou mez
Hledani gradientu
- tuto sumu (soucet) lze derivovat jako soucet derivaci (vnitrku sumy) pro kazde
, protoze se jedna o rozdil, muzeme oba cleny te vnejsi zavorky derivovat zvlast a odecist je od sebe - pri pocitani parcialni derivace
:
Hranice

- resenim takove rovnice je nadrovina v prostoru
(bod v
, primka pro
, rovina pro
) - tato data musi byt hezky linearne separabilni, tj. existuje nadrovina, ktera je spolehlive oddeli na nuly a jednicky (ve 2D primka, ve 3D rovina atd.)
- napr. pokud mame dataset, kde data jsou rovnomerne rozdelena do nejake vzdalenosti od bodu
napr. s hodnotou
v prvnim a tretim kvadrantu, s hodnotou
ve druhem a ctvrtem kvadrantu, nelze je nijak oddelit primkou!!!
Pokracovani
Trenovani + predikce
Parametry modelu:
n: pocet lesu
k: pocet vybranych prvku
q: pocet nahodne vybranych priznaku
H: hyperparametry stromu
Trenovani(D: dataset) -> void:
1. for i = 1..n:
2. Di = []
3. Qi = vyber nahodnych q priznaku z priznaku D
4. repeat k times:
5. x = vyber nahodny prvek z D
6. Di.append(x.vyber_priznaky(Qi))
7. Ti = natrenuj strom s daty Di a hyperparametry H
Predikce(x: datovy bod) -> float
1. pro i = 1..n:
2. Yi = Ti.predict(x.vyber_priznaky(Qi))
3. return mean(Yi)
Predikce
1. Kazdemu stromu
prirad vahu
z kroku 5 trenovaciho algoritmu
2. Secti vahy
vsech stromu, ktere pro
predikuji 
a to same udelej pro stromy predikujici
(vazena predikce)
3. Rozhodni se pro tu z moznosti, pro kterou je soucet vah vyssi
Priklad
- asociacni pravidlo

- podpora
znamena, ze v celem datasetu si koupilo
kombinaci vsech tri produktu - pokud se parky vyskytuji v
pripadu, pak spolehlivost se vypocita jako

- tedy pokud si zakaznik koupi parky, pak v
pripadu si koupi i horcici a chleb - pokud se horcice a chleb vyskytuji v
pripadu, zdvih bude 
- tedy pokud si zakaznik koupi parek, pak je
vetsi sance, ze si koupi horcici a chleb, nez kdyby si parky nekoupil - pokryti je
, tedy ze
lze horcici a chleb brat jako dusledek koupe parku - nevyhoda na podporu je, ze pravidla s velkou hodnotou spolehlivosti i zdvihu, ale s nizkou podporou, nebudou nalezena, napr.

Hledani gradientu - pokracovani