Analiza wariancji
Transkrypt
Analiza wariancji
ANALIZA WARIANCJI PRZYPOMNIENIE
Dr Wioleta Drobik
ANALIZA WARIACJI
Podział zaobserwowanej zmienności (wariancji) na
zmienność między grupami i w obrębie grup
Pozwala na ocenę istotności różnic wielu średnich,
hipoteza zerowa:
H0 : µ1 = µ2 = ... = µt
Założenia:
Zmienne objaśniające są niezależne
Cecha ma rozkład normalny
dopuszczalne są niewielkie odstępstwa
często badane są wyłącznie reszty (czynnik losowy)
Wariancje są jednorodne (homogeniczność wariancji)
ANALIZA WARIACJI
Rodzaje analizy wariancji:
ANOVA - jednowymiarowa analiza wariancji :
Jednoczynnikowa – wpływ jednego czynnika na jedną zmienną zależną
Wieloczynnikowa - wpływ kilku czynników na jedną zmienną zależną
MANOVA - wielowymiarowa analiza wariancji
wpływ kilku czynników na kilka zmiennych zależnych
Model
Znaczenie
Y~X
Jednoczynnikowa analiza wariancji
Y ~ X1 + X2
Dwuczynnikowa analiza wariancji
Y ~ X1 * X2
Dwuczynnikowa analiza wariancji z interakcją
Y ~ X1 + X2 + X1 : X2
Dwuczynnikowa analiza wariancji z interakcją
(inny zapis)
ANALIZA WARIACJI
Model liniowy analizy wariancji:
Gdzie:
yij − j-ta obserwacja z i-tej grupy
µ − średnia wartość cechy w populacji
i − efekt i-tej grupy
eij − błąd czyli efekt związany ze zmiennością osobniczą,
przypadkową, niewyjaśnioną modelem, może być również
błędem pomiaru
ANALIZA WARIACJI
Tabela wariancji
Źródło
zmienności
Lss
SKO
ŚKO =
SKO/Lss
Statystyka F
Ogólna
N-1
SKO
-
-
Między
grupami
k-1
SKOMG =
ŚKOMG
F=ŚKOMG/ŚKOWG
Wewnątrz
grup
N-k
SKOWG =
ŚKOWG
-
Gdzie:
N – liczba wszystkich obserwacji
k – liczba grup
SKO – suma kwadratów odchyleń
ŚKO – średni kwadrat odchyleń
ANALIZA WARIACJI
Czy metoda wyznaczania struktury drugorzędowej białka ma
wpływ na dokładność?
Białko
Ubikwityna
Ubikwityna
Ubikwityna
DeoxyHb
DeoxyHb
DeoxyHb
Rab5c
Rab5c
Rab5c
Prealbumina
Prealbumina
Prealbumina
Metoda Dokładność
CF AVG
0.467
GOR
0.645
PHD
0.868
CF AVG
0.472
GOR
0.844
PHD
0.879
CF AVG
0.405
GOR
0.604
PHD
0.787
CF AVG
0.449
GOR
0.772
PHD
0.780
Przykład opisany
szczegółowo w książce:
Seefeld K.,Linder E. 2007.
Statistics Using R
with Biological Examples
ANOVA W R
ANALIZA WARIANCJI - ZAŁOŻENIA
Testowanie jednorodności wariancji
Test F – test F-Snedecora dla dwóch prób
Test Barletta – dla wielu prób
Test Leven’a – dla wielu prób
Test Barletta ma wyższa moc niż test Leven’a, jednak nie
może być stosowany przy odstępstwach od normalności
rozkładu
Przy braku pewności co do normalności rozkładu wyniki testu
Leven’a będą bardziej wiarygodne, niż testu Barletta
ANALIZA WARIANCJI
– ROZKŁAD ZMIENNEJ ZALEŻNEJ
ANALIZA WARIANCJI
– ROZKŁAD RESZT
ANALIZA WARIANCJI - ZAŁOŻENIA
Czy wariancje w grupach są jednorodne?
Prawdopodobieństwo testowe
jest wyższe niż 0,05 brak
podstaw do odrzucenia hipotezy
zerowej wariancje w grupach
nie różnią się istotnie
Przeciwny wynik
ANALIZA WARIANCJI
Wyniki analizy
Prawdopodobieństwo testowe jest mniejsze od 0,01, w związku z czym
odrzucamy hipotezę zerową wysoko istotnie
Dokładność oceny struktury drugorzędowej zależy od stosowanej
metody
Które metody różnią się dokładnością?
TEST POST - HOC
Testy post-hoc wykonujemy, jeżeli różnice pomiędzy grupami
są istotne. Najczęściej stosowane testy:
Test Tukeya (inaczej UIR - test uczciwie istotnych różnic)
Powinien być stosowany jedynie dla zrównoważonego układu
doświadczenia – podobna liczba obserwacji we wszystkich grupach
LSD Fishera (inaczej NIR - najmniejsza istotna różnica)
nie zakłada się równoliczności grup
Polega na wykonaniu k(k-1)/2 testów t-studenta i zastosowaniu
korekty na liczbę przeprowadzonych testów np. Holm, Bonferroni,
fdr
ANALIZA WARIANCJI
Które metody różnią się dokładnością?
Test post-hoc Tukeya:
Zestawienie grup
Różnica
95%
przedział
ufności
Prawdopodobieństwo
testowe dla każdego
zestawienia
ANOVA DWUCZYNNIKOWA
Model:
Gdzie:
yijk − k-ta obserwacja z i-tej i j-tej grupy
µ − średnia wartość cechy w populacji
i − efekt i-tej grupy
i − efekt j-tej grupy
eijk − błąd czyli efekt związany ze zmiennością osobniczą, jak i
błąd pomiaru
(αβ)ij – efekt interakcji pomiędzy czynnikami
ANOVA DWUCZYNNIKOWA
Interakcje
Interakcją nazwiemy niejednakową reakcję jednego czynnika
na zmianę poziomu drugiego czynnika
Nieaddytywne działanie jednego czynnika z drugim
W modelu zachowujemy jedynie istotne statystycznie
interakcje, co zwiększa siłę działania czynników głównych
Jeśli interakcja jest istotna nie ma możliwości porównywania
średnich dla czynników głównych konieczne jest
indywidualne porównanie poszczególnych podgrup
ANOVA DWUCZYNNIKOWA
Różnice pomiędzy metodami są istotne, ale pomiędzy
białkami już nie
ANOVA DWUCZYNNIKOWA
Czu pomiędzy badanym białkiem a metodą zachodzi
interakcja?
Interakcja występuje, jeżeli linie będą się przecinać
ANOVA DWUCZYNNIKOWA
Brak statystyki F i prawdopodobieństwa testowego
wynika z braku podstaw do testowania istotności przy
zbyt małej próbie
Zbyt mało danych aby oszacować efekt interakcji
ANOVA DWUCZYNNIKOWA
Czy istnieje zależność między statusem oraz płcią a
grubością guza?
Czy pomiędzy zmiennymi płeć i
status istnieje interakcja?
Czy powinna być uwzględniona w
modelu?
JEDNOCZYNNIKOWA VS WIELOCZYNNIKOWA
ANOVA
Istnieje możliwość przeprowadzenia jednoczynnikowej analizy
wariancji oddzielnie dla wszystkich zmiennych objaśniających
Wady takiego postępowania:
Utrata informacji o zależnościach między zmiennymi objaśniającymi
Większa wariancja – trudniej stwierdzić istotność niektórych
zmiennych
Zmiennych objaśniających nie powinno być zbyt dużo:
Wraz ze wzrostem liczby zmiennych maleje dokładność oceny
efektów modelu
Idealna sytuacja: min 30 obserwacji na każdą kombinację czynników
ANALIZA REGRESJI WIELOKROTNEJ
REGRESJA WIELOKROTNA
Wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na
zmienną zależną (Y)
Najczęściej stosowanym modelem jest regresja wielokrotna
liniowa
Model:
Gdzie
p jest liczbą zmiennych
Xi – zbiór kolumn opisujących zmienną i
i – wektor współczynników odpowiadających zmiennej i
REGRESJA WIELOKROTNA
REGRESJA WIELOKROTNA
Interpretacja współczynników jest jak w przypadku
regresji prostej:
Stała regresji jest to szacowana średnia wartość zmiennej
objaśniającej Y, gdy wszystkie zmienne niezależne (Xi) są
równe 0
Cząstkowe współczynniki regresji - szacowana średnia zmiana
wartości zmiennej objaśniającej Y, gdy wartość zmiennej
niezależnej (Xi) zwiększy się o jednostkę
REGRESJA WIELOKROTNA
Problemy:
Jak dobrać zmienne?
Jak zinterpretować współczynniki regresji?
Jak poradzić sobie z ewentualną współliniowością zmiennych
objaśniających?
Czy zmienne objaśniające są niezależne?
Zbyt mała liczba obserwacji w stosunku do liczby zmiennych
objaśniających
WSPÓŁLINIOWOŚĆ ZMIENNYCH
VIF (ang. variance inflation factor)
o ile wariancje współczynników są zawyżone z powodu
zależności liniowych w badanym modelu regresji
Funkcja vif(model) w R wyświetla wektor wartości
współczynnika VIF dla każdej zmiennej objaśniającej
Zmienne objaśniające są współliniowe, gdy są mocno
skorelowane ze sobą
Może to skutkować zawyżonym oszacowaniem współczynników i
dużymi wartościami błędów standardowych
ZALEŻNOŚCI POMIĘDZY ZMIENNYMI
KRYTERIA OCENY MODELU
GIC (ang. Generalized Information Criterion) – oparte na
funkcji wiarygodności i karze za liczbę elementów w
modelu
h – pewien współczynnik, k - liczba parametrów w modelu M,
logL(M|y,X) – funkcja wiarygodności dla modelu
Specjalne przypadki: AIC (h=2), BIC (h=log(n))
Idealny model w jak najlepszy sposób wyjaśnia zmienność zbioru
danych wykorzystując przy tym jak najmniej parametrów (k)
KRYTERIA OCENY MODELU
R2 – współczynnik determinacji (omówiony na wykładzie
o regresji liniowej)
można stosować do porównywania modeli tylko wtedy, gdy
nie różnią się one liczbą zmiennych objaśniających
Poprawiony R2
uwzględnia dodatkowo liczbę zmiennych w modelu
im wyższa wartość tym lepszy model
KRYTERIA OCENY MODELU
Kryterium Akaike (AIC – ang. Akaike information criterion)
Interpretacja:
Im mniejsza wartość tym lepiej
Nie unormowany – tylko do porównań między modelami
Wzór:
Gdzie:
k – liczba parametrów modelu (złożoność modelu)
L – maksimum funkcji największej wiarygodności (precyzja
modelu)
KRYTERIA OCENY MODELU
Kryterium Schwartza (ang. BIC – Bayesian information
criterion)
Interpretacja jak w przypadku AIC – im mniejsza wartość tym
lepiej
Większa kara za złożoność modelu niż AIC
Gdzie:
k – liczba parametrów modelu
L – maksimum funkcji największej wiarygodności
n – liczba obserwacji
MODEL Z KILKOMA ZMIENNYMI OBJAŚNIAJĄCYMI
Doboru odpowiednich zmiennych możemy dokonać
wykorzystując funkcję step
step(nazwa_modelu, direction = c("both", "backward", "forward"),
steps = 1000)
Funkcja ta znajduje najlepiej dopasowany model do
naszych danych metodą krokową
Domyślnie kryterium wyboru jest AIC
wybierając k=log(n) zmieniamy kryterium na kryterium Schwartza
(BIC)
WYBÓR ZMIENNYCH OBJAŚNIAJĄCYCH
Metoda budowy modelu jest określona w zależności od
wyboru parametru „direction”:
Backward (wtecz) - z modelu zawierającego wszystkie zmienne
objaśniające usuwane są najmniej istotne zmienne, dopóki
wszystkie zmienne w modelu będą istotne
Forward (wprzód) - określa metodę dodawania najbardziej
istotnych zmiennych do modelu zawierającego tylko wyraz
wolny
Both - oznacza metodę, którą do modelu dodajemy zmienną
istotną posiadającą najmniejszą p-value, a następnie usuwamy
zmienną nieistotną z największą p-value. Kroki te są powtarzane
aż model przestaje ulegać zmianie
REGRESJA WIELOKROTNA – PRZYKŁAD W R
Baza alkohol:
cirrhosis – marskość wątroby
oop – ludność zamieszkująca w miastach
liquor – Spożycie wysokoprocentowego alkoholu na mieszkańca
wine – spożycie wina na mieszkańca
lb – liczba urodzeń przez kobiety w wieku 45-49
Źródło danych i tutorial: http://scg.sdsu.edu/mlr-r/
KORELACJE
MODEL
REGRESJA KROKOWA
Metoda: wstecz – z modelu
zawierającego wszystkie zmienne
usuwamy po jednej sprawdzamy
wartość AIC
MODEL
Model po usunięciu zmiennej liquor
ŹRÓDŁA
Biecek P. 2013. Analiza danych z programem R. Wydawnictwo
naukowe PWN. Warszawa
Olech W., Wieczorek M. 2010. Zastosowanie metod statystyki w
doświadczalnictwie zootechnicznym. Wydawnictwo SGGW.