Test nezávislosti
Kde se test nezávislosti používá v praxi?
V dnešní době koronaviru můžeme vidět testy nezávislosti každý den. Každá predikce, kterou nám odborníci dávají je postavena na tomto testování. Dále se testování nezávislosti používá v podnikání, kde firmy chtějí vědět, zda jejich např. marketingové snažení bylo správné.
Obecně Test nezávislosti pomáhá při rozhodování. Určí nám přesně, zda máme dostatek dat pro potvrzení nebo vyvrácení předpokladu.
Co je Test nezávislosti ve analytice?
Test nezávislosti neboli chí kvadrátový je test, který poměřuje očekávaný výsledek s výsledkem zkoumání. Například: Pan ředitel chce vědět, kdy žáci nejpravděpodobněji nepůjdou do školy. Pan ředitel předpokládal, že šance absence studentů je každý den stejná. Následně pan ředitel požádal sto náhodných kolegů, aby zjistili, jaký dny mají studenti největší absenci. Učitelé vyprodukovali výsledky. Chví kvadratový test následně otestuje, zda názor 100 náhodných učitelů je dostatečný pro potvrzení nebo vyvrácení předpokladu pana ředitele.
Vzorec pro Test nezávislosti:
χ2 = ∑ (O −E)2/E
E (expectation) očekávaná hodnota
O (observed) pozorovaná hodnota
Stupeň volnosti
Stupeň volnosti (degree of freedom) DF: DF=(r-1)*(c-1)
r (rows) počet buněk v řádcích tabulky
c (columns) počet buněk ve sloupcích tabulky
Jak postupovat při testu nezávislosti?
- Definujte Nulovou hypotézu a Alternativní hypotézu
- Nastavte hladinu významnosti
- Spočítejte stupně volnosti
- Použijte chi square distribution table pro určení hraničních hodnot
- Proveďte test nezávislosti
- Výsledek je potvrzení nulové nebo alternativní hypotézy
1. Definujte Nulovou hypotézu a alternativní hypotézu
Příklad:
Nulová hypotéza – Mezi dětmi na základní škole není propojení mezi pohlavím a oblíbenou barvou
Alternativní hypotéza – Mezi dětmi je spojení mezi pohlavím a oblíbenou barvou
2. Nastavte hladinu významnosti
Hladinu významnosti nebo-li Alfu určujete vy nebo zkoumající.
Při většině testů se setkáte s hodnotou 5%.
Jedná se v zásadě o Interval spolehlivosti.
Příklad: Změříme-li 100 nezávislých datových souborů, na nichž odhadujeme neznámý parametr intervalem spolehlivosti, tak zhruba 95 intervalů bude hledaný parametr obsahovat a zhruba pět nikoli.
3. Spočítejte stupeň volnosti
Pro spočítaní stupně volnosti použijeme již zmíněný vzorec.
Stupeň volnosti (degree of freedom) DF: DF=(r-1)*(c-1)
r (rows) počet buněk v řádcích tabulky
c (columns) počet buněk ve sloupcích tabulky
4. Použijte chi square distribution table pro určení hraničních hodnot
V tomto kroku si najdeme v tabulce hraniční hodnotu dle Vašeho stupně volnosti a hladiny významnosti. Tato hodnota nám bude potvrzovat, nebo vyvracet naše předem určené hypotézy.
5. Proveďte test nezávislosti
Nyní nám stačí dosadit hodnoty, které jsme očekávali a které jsme vypozorovali, do vzorce…
χ2 = ∑ (O −E)2/E
E (expectation) očekávaná hodnota
O (observed) pozorovaná hodnota
6.Výsledek je potvrzení nulové nebo alternativní hypotézy
Hodnota χ2 nám vyvrátí jednu z našich hypotéz a zároveň nám jednu z našich hypotéz potvrdí.