62 lines
2.1 KiB
Markdown
62 lines
2.1 KiB
Markdown
|
# Klasifikace
|
||
|
|
||
|
- zařazujeme do předem známéno a pevného počtu tříd
|
||
|
- např. rozpoznávání znaků
|
||
|
- rozlišujeme měřitelné a strukturní vlastnosti objektů
|
||
|
- mluvíme potom o příznacích a strukturních metodách rozpoznávání
|
||
|
|
||
|
**Algoritmy**
|
||
|
- klasifikátor na principu kritéria minimální vzdálenosti
|
||
|
- klasifikátor s diskriminační funkcí
|
||
|
- kritérium minimální chyby (Bayesův klasifikátor)
|
||
|
|
||
|
**Metody výběru příznaků**
|
||
|
- náhodný výběr
|
||
|
- shora dolů nebo zdola nahoru
|
||
|
- postupné ubírání/přidávání znaků
|
||
|
- ověření pomocí klasifikátoru
|
||
|
- dokumentová frekvence
|
||
|
- TF-IFD (Term Frequency-Inverse Document Frequency)
|
||
|
- vzájemná informace (Mutual Information, MU)
|
||
|
|
||
|
**Další klasifikační metody**
|
||
|
- k-nejbližších sousedů
|
||
|
- klasifikační a regresní stromy
|
||
|
- maximální entropie
|
||
|
|
||
|
**Bayesův klasifikátor**
|
||
|
- pro úlohy s neoddělitelnými (prolínajícími se) třídami obrazu
|
||
|
- předpoklad
|
||
|
- jednotlivá pozorování $E_{1}, \dots, E_{k}$ jsou podmíněně nezávislá při platnosti hypotézy $H$
|
||
|
|
||
|
**Support Vector Machine** (SVM)
|
||
|
- řeší problém binární nebo více-třídní klasifikace tím, že hledá hyperroviny, které nejlépe rozdělují data různých tříd v prostoru funkcí
|
||
|
|
||
|
**Určení klasifikátoru s učitelem a bez**
|
||
|
- s učitelem
|
||
|
- pro vstupní data je určen správný výstup
|
||
|
- bez učitele
|
||
|
- ke vstupním datům není známý výstup
|
||
|
|
||
|
# Rozpoznávání
|
||
|
|
||
|
- počet tříd není předem znám a třídy identifikujeme až během vlastního rozpoznávání (např. rozpoznávání plynulé řeči)
|
||
|
|
||
|
# Shlukování
|
||
|
|
||
|
- objekty zařazujeme do tříd na základě jejich podobnosti
|
||
|
- třídy nejsou dopředu známé
|
||
|
|
||
|
**Shluk**
|
||
|
- skupina objektů, které jsou si co nejvíce podobné uvnitř shluku a co nejméně podobné mezi shluky
|
||
|
|
||
|
**K-Means, K-Medoids**
|
||
|
- ideální při výběru malého počtu shluků z velkého počtu objektů
|
||
|
- málo odolná vůči nekonzistentním vzorkům dat a šumu
|
||
|
- nutnost volit počáteční počet shluků $k$
|
||
|
|
||
|
Metriky pro měření vzdálenosti
|
||
|
- Eukleidovská vzdálenost
|
||
|
- Manhattan vzdálenost
|
||
|
- Cosinová vzdálenost
|