FAV-ZCU/KIV UIR/05. Klasifikace, rozpoznávání, shlukování a regrese.md

# Klasifikace

- zařazujeme do předem známéno a pevného počtu tříd
	- např. rozpoznávání znaků
- rozlišujeme měřitelné a strukturní vlastnosti objektů
- mluvíme potom o příznacích a strukturních metodách rozpoznávání

**Algoritmy**
- klasifikátor na principu kritéria minimální vzdálenosti
- klasifikátor s diskriminační funkcí
- kritérium minimální chyby (Bayesův klasifikátor)

**Metody výběru příznaků**
- náhodný výběr
	- shora dolů nebo zdola nahoru
	- postupné ubírání/přidávání znaků
	- ověření pomocí klasifikátoru
- dokumentová frekvence
- TF-IFD (Term Frequency-Inverse Document Frequency)
- vzájemná informace (Mutual Information, MU)

**Další klasifikační metody**
- k-nejbližších sousedů
- klasifikační a regresní stromy
- maximální entropie

**Bayesův klasifikátor**
- pro úlohy s neoddělitelnými (prolínajícími se) třídami obrazu
- předpoklad
	- jednotlivá pozorování $E_{1}, \dots, E_{k}$ jsou podmíněně nezávislá při platnosti hypotézy $H$

**Support Vector Machine** (SVM)
- řeší problém binární nebo více-třídní klasifikace tím, že hledá hyperroviny, které nejlépe rozdělují data různých tříd v prostoru funkcí

**Určení klasifikátoru s učitelem a bez**
- s učitelem
	- pro vstupní data je určen správný výstup
- bez učitele
	- ke vstupním datům není známý výstup

# Rozpoznávání

- počet tříd není předem znám a třídy identifikujeme až během vlastního rozpoznávání (např. rozpoznávání plynulé řeči)

# Shlukování

- objekty zařazujeme do tříd na základě jejich podobnosti
- třídy nejsou dopředu známé

**Shluk**
- skupina objektů, které jsou si co nejvíce podobné uvnitř shluku a co nejméně podobné mezi shluky

**K-Means, K-Medoids**
- ideální při výběru malého počtu shluků z velkého počtu objektů
- málo odolná vůči nekonzistentním vzorkům dat a šumu
- nutnost volit počáteční počet shluků $k$

Metriky pro měření vzdálenosti
- Eukleidovská vzdálenost
- Manhattan vzdálenost
- Cosinová vzdálenost
Přidání poznámek z UIR 2024-05-14 16:01:48 +02:00			`# Klasifikace`

			`- zařazujeme do předem známéno a pevného počtu tříd`
			`- např. rozpoznávání znaků`
			`- rozlišujeme měřitelné a strukturní vlastnosti objektů`
			`- mluvíme potom o příznacích a strukturních metodách rozpoznávání`

			`Algoritmy`
			`- klasifikátor na principu kritéria minimální vzdálenosti`
			`- klasifikátor s diskriminační funkcí`
			`- kritérium minimální chyby (Bayesův klasifikátor)`

			`Metody výběru příznaků`
			`- náhodný výběr`
			`- shora dolů nebo zdola nahoru`
			`- postupné ubírání/přidávání znaků`
			`- ověření pomocí klasifikátoru`
			`- dokumentová frekvence`
			`- TF-IFD (Term Frequency-Inverse Document Frequency)`
			`- vzájemná informace (Mutual Information, MU)`

			`Další klasifikační metody`
			`- k-nejbližších sousedů`
			`- klasifikační a regresní stromy`
			`- maximální entropie`

			`Bayesův klasifikátor`
			`- pro úlohy s neoddělitelnými (prolínajícími se) třídami obrazu`
			`- předpoklad`
			`- jednotlivá pozorování $E_{1}, \dots, E_{k}$ jsou podmíněně nezávislá při platnosti hypotézy $H$`

			`Support Vector Machine (SVM)`
			`- řeší problém binární nebo více-třídní klasifikace tím, že hledá hyperroviny, které nejlépe rozdělují data různých tříd v prostoru funkcí`

			`Určení klasifikátoru s učitelem a bez`
			`- s učitelem`
			`- pro vstupní data je určen správný výstup`
			`- bez učitele`
			`- ke vstupním datům není známý výstup`

			`# Rozpoznávání`

			`- počet tříd není předem znám a třídy identifikujeme až během vlastního rozpoznávání (např. rozpoznávání plynulé řeči)`

			`# Shlukování`

			`- objekty zařazujeme do tříd na základě jejich podobnosti`
			`- třídy nejsou dopředu známé`

			`Shluk`
			`- skupina objektů, které jsou si co nejvíce podobné uvnitř shluku a co nejméně podobné mezi shluky`

			`K-Means, K-Medoids`
			`- ideální při výběru malého počtu shluků z velkého počtu objektů`
			`- málo odolná vůči nekonzistentním vzorkům dat a šumu`
			`- nutnost volit počáteční počet shluků $k$`

			`Metriky pro měření vzdálenosti`
			`- Eukleidovská vzdálenost`
			`- Manhattan vzdálenost`
			`- Cosinová vzdálenost`