UNIVERZITA KARLOVA - PEDAGOGICKÁ FAKULTA

Metody extrakce faktorů

Metody extrakce faktorů jsou vlastně metodami, jak určit počet faktorů a velikost faktorových zátěží, jinými slovy, jak na základě výběru n osob z určitého základního souboru nejlépe odhadnout k.m faktorových zátěží aij (faktorovou matici) a k jedinečnosti ei.

Metoda hlavních komponent (principal component ) dává nekorelované faktory, které jsou navíc uspořádány podle svého rozptylu, a to tak, že první faktor má rozptyl největší a poslední nejmenší. Metoda hlavních komponent existuje i samostatně, faktorovou analýzu lze považovat za její rozšíření. Zatímco analýza hlavních komponent se snaží redukovat počet proměnných tak, aby byl co nejlépe objasněn rozptyl původních proměnných, faktorová analýza se pokouší objasnit co nejlépe korelace původních proměnných. Výpočet faktorových zátěží metodou hlavních komponent je jednoznačný, a pokud zvýšíme počet faktorů (komponent), původní komponenty se nezmění. To u ostatních metod extrakce neplatí.

První hlavní komponenta se určuje jako lineární kombinace manifestních proměnných, která má co největší variabilitu za podmínky, že součet druhých mocnin korelačních koeficientů je roven 1. Splnění této podmínky se vyžaduje proto, aby nebylo možné zvětšovat rozptyl pouhým navýšením faktorových zátěží.

Druhá hlavní komponenta se obdobně vypočte jako lineární kombinace manifestních proměnných, která má co největší variabilitu za podmínky, že součet druhých mocnin korelačních koeficientů je roven 1, a která je nekorelovaná s první hlavní komponentou. Tímto způsobem lze získat z k manifestních proměnných k hlavních komponent.
Matematicky lze tento postup popsat jako iterační postup vedoucí ke stanovení m největších vlastních čísel korelační matice a jim odpovídajících vlastních vektorů.

V případě vysokých korelací mezi proměnnými je možné celkový rozptyl zachytit pouze jednou hlavní komponentou. Naopak v případě korelací blízkých nule potřebujeme k vysvětlení celkového rozptylu tolik hlavních komponent, kolik je manifestních proměnných. Rovnice pro vyjádření hlavních komponent pomocí manifestních proměnných se dají obrátit a původní proměnné vyjádřit pomocí hlavních komponent. Přitom lze komponenty s malými rozptyly zanedbat.

Metoda hlavních komponent má tu výhodu, že dává jednoznačné faktorové řešení, kde latentní proměnné vyčerpávají nejvyšší možné procento rozptylu. Proto tato metoda patří mezi nejčastěji používané. Odpůrci této metody namítají, že není metodou, která by nejlépe vysvětlovala korelace manifestních proměnných. 

Metoda hlavních os (principal-axis) je obdobná metodě hlavních komponent s tím rozdílem, že je matice výběrových korelačních koeficientů nahrazena redukovanou korelační maticí.

Metoda nejmenších čtverců
Faktory jsou extrahovány tak, aby byl minimalizován součet čtverců reziduálních korelačních koeficientů, které neleží na diagonále korelační matice.

Zobecněná metoda nejmenších čtverců
Metoda extrakce faktorů je obdobná metodě nejmenších čtverců. Faktory jsou extrahovány tak, aby byl minimalizován součet čtverců reziduálních korelačních koeficientů, které neleží na diagonále korelační matice. Reziduální korelační koeficienty jsou přitom převáženy tak, že korelace proměnných, které mají vyšší jedinečnosti mají nižší váhu než korelace proměnných s nižšími jedinečnostmi.

Metoda maximální věrohodnosti
Odhad metodou maximální věrohodnosti je velmi rozšířený postup, který za předpokladu normálního rozdělení většinou vede ke stejným výsledkům jako metoda nejmenších čtverců. K pochopení této metody je třeba si uvědomit, že postup faktorové analýzy nerealizujeme na zkoumaném základním souboru, ale pouze na výběru z tohoto souboru.  Proto musíme rozlišovat tři typy pojmů. Za prvé to jsou neznámé korelační koeficienty v základním souboru, ke kterým přísluší i neznámé faktorové zátěže a jedinečnosti. Za druhé to jsou jejich odhady a za třetí konkrétní odhady provedené na daném výběru, především výběrové korelační koeficienty rij.

Základní myšlenka metody maximální věrohodnosti je odhadnout takové parametry základního souboru, pro které je pravděpodobnost, že se vyskytnou u našeho výběrového souboru, největší. Základem výpočtu je při metodě maximální věrohodnosti určení  věrohodnostní funkce. Ta se stanoví jako pravděpodobnost výskytu našeho výběru v závislosti na hodnotách parametrů základního souboru. Parametry, pro které nabývá věrohodnostní funkce maxima, jsou maximálně věrohodné odhady.

Pro ověření adekvátnosti modelu se konstruuje věrohodnostní poměr λ, který je mírou "neshody" odhadu parametrů s danou výběrovou korelační maticí. Tato míra vyjadřuje, nakolik se reziduální korelační koeficienty blíží nule.  Pokud je splněn předpoklad normality zkoumaných dat a výběrový soubor je velký, lze navíc dokázat, že věrohodnostní poměr λ má rozdělení χ2 (chí kvadrát) s počtem stupňů volnosti

df = ½ [(k - m)2 - (k + m)].

Pokud nemůžeme zamítnout hypotézu o neshodě matic (siginifikance je větší než 5%)  model odpovídá datům. V opačném případě je třeba model rozšířit o další faktory. Test má velkou nevýhodu, že závisí na počtu pozorování, s rostoucí velikostí analyzovaného souboru se i malé neshody stávají statisticky významnými a test zamítá i jinak správný model. Test je tedy třeba používat pouze jako doplněk analýzy a jeho použití se omezuje na menší soubory.

Metoda alpha předpokládá, že proměnné, ne případy pocházejí z výběru.

Image factoring - společná část proměnné je definována jako lineární regrese zbývajících proměnných.