d Pc

Transkrypt

d Pc
Psychofizyka
Pomiary detekcji sygnałów
Porównanie modeli
Czym jest
Teoria Detekcji Sygnałów (SDT)?
• W wielu przypadkach badań wydajnościowych
proporcja poprawnych odpowiedzi (Pc) jest
niewłaściwą lub nieinformacyjną wielkością
• Inną możliwością jest pomiar wielkości d’
(d prim) – separacji rozkładów szumu dwóch bodźców
wyrażonej w jednostkach odchylenia standardowego
• Model SDT próbuje wyjaśnić kształt PF wiążącej Pc z
wartością bodźca. Obecność wewnętrznego szumu
albo niepewności powoduje, że bodziec nie jest
reprezentowany w mózgu jako pojedynczy punkt w
przestrzeni bodźców, lecz jako losowa próbka z
rozkładu zchcarakteryzowanego średnią i wariancją
N, m i M
• Próby tak/nie
– N=1 (jeden bodziec prezentowany w próbie)
– m=2 (dwie możliwe odpowiedzi)
– M=1 (jedna alternatywa bodźca)
• Próby takie samo/różne
– N=2 lub 4 (w zależności czy porównujemy jedną parę
odpowiadając takie samo/różne, czy 2 pary odpowiedając
pierwsza/druga)
– m=2 (dwie możliwości odpowiedzi)
– M=2 (dwie alternatywy bodźca)
• Prawdopodobieństwa zgadywania γ = 1/m
• Próby z wymuszonym wyborem M-AFC lub M-IFC
Relacje między M, N i m w różnych
ekperymentach psychofizycznych
Zalety pomiaru d’
• Pomiar d’ może ujednolicić wyniki eksperymentów
przeprowadzanych za pomocą różnych procedur MAFC, dla których różna jest niepewność zgadywania
• Linearyzuje zależność od wartości bodźca
• Ułatwia porównywanie wydajności psychofizycznej w
zależności od jakiegoś wymiaru (np. wieku)
Wartości Z i
prawdopodobieństwa
• Standardowy rozkład normalny jest
unormowanym rozkładem wyrażonym w
jednostkach odchylenia standardowego
(wartościach z)
Obliczanie d’ z wartości Pc
dla M-AFC
• Założenia
– Brak uprzedzeń (bezstronność) obserwatora
– Wewnętrzna reprezentacja bodźców ma charakter rozkładu
normalnego o stałej wariancji
• Rozważamy dwie reprezentacje braku bodźca (N) oraz
obecności bodźca (S+N)
– Można także rozważyć 2 bodźca (S1 i S2)
• W każdej próbie reprezentacja wewnętrzna jest losową
próbką z rozkładów
Strategia obserwatora
• Wybiera alternatywę o reprezentacji wewnętrznej o
najwyższej wartości – zasada decyzyjna
• Jak dobrze (z jaką wydajnością) taka zasada pozwoli
odpowiadać obserwatorowi zmierzymy przez wartości
Pc
• Wydajność będzie tym lepsza im bardziej
odseparowane będą rozkłady N i S+N
– W przypadku ich pełnego odseparowania Pc=1
– W przypadku ich pełnego pokrycia Pc=1/m
• Stopień odseparowania będzie zależał od wartości
średnich N i S+N oraz odchylenia standardowego σ
• Standaryzując rozkłady (wyrażając w jednostkach z)
różnica średnich będzie wartości d’
Obliczanie Pc z d’
• Załóżmy, że wartość zmysłowa bodźca S+N wynosi t
• Prawdopodobieństwo, że wartość zmysłowa dla bodźca
N będzie niższa (prawidłowa odpowiedź) wyniesie Φ(t)
w przypadku jednego źródła szumu (2AFC) i Φ(t)M-1 w
przypadku M-1 żródeł (M-AFC)
• Aby obliczyć wartość Pc dla każdej możliwej wartości
zmysłowej danego bodźca musi obliczyć całkę:
Obliczanie d’ dla 1AFC
• Rozważmy próbę tak/nie, która jest skłonna do
wykazywania uprzedzeń
• Jeśli pionowa linia oznacza kryterium, szary
obszar gwarantować będzie odpowiedź „tak”:
• pF to proporcja
błędów (fałszywych
alarmów)
• pH to proporcja
trafień
Obliczanie d’ dla 1AFC
• Oznaczmy jako c pozycję linii kryterium
pF  1   c     c 
pH  1   c  d    d   c 
z  pF   c
z  pH   c  d 
d   z  pH   z  pF 
Obliczanie kryterium C dla 1AFC
• Kryterium określamy w jednostkach z
• Wysoka wartość oznacza kryterium restrykcyjne (mało
trafień i mało błędów)
• Niska wartość oznacza luźne kryterium (dużo trafień i
dużo błędów)
• Wartość kryterium zależy od wartości dla której
przyjmiemy z=0
– Konwencja określa że z=0 w
połowie odległości między
rozkładami S i S+N
Obliczanie kryterium C dla 1AFC
• Kryterium jest usytuowane dla bodźców N i S+N
odpowiednio w punktach
d
d
C  z 1  pF     z  pF  
2
2
d
d
C  z 1  pH     z  pH  
2
2
C
z  pF   z  pH 
2
• Ujemne C oznacza
preferowanie odpowiedzi „tak”
zaś dodatnie odpowiedzi „nie”
Obliczanie kryterium ln β dla 1AFC
• Inną metodą pomiaru kryterium jest logarytm
naturalny stosunku wysokości dwóch
rozkładów w punkcie C:
• Po uwzględnieniu funkcji Gaussa w
powyższym wzorze otrzymujemy
z  pF   z  pH 
ln   
 Cd 
2
2
2
• Funkcja ta ma podobne właściwości do C
Kryterium C’
• Kryterium można też mierzyć jako stosunek C
do d’:
Obliczanie Pcmax dla 1AFC
• Najwyższe Pc jest osiągane w ekperymencie
1AFC gdy obserwator jest nieuprzedzony (C=0)
• W takim przypadku z(pH)=-z(pF) i d’=2z(pH) z
czego:
Pcmax
 d 
  
2
Alternatywna metoda obliczenia
d’ dla nieuprzedzonej próby 2AFC
• 2AFC- pokazujemy dwa bodźce i prosimy o wskazanie tego o
większej wartości
• Obserwator więc mierzy różnicę między sygnałami S+N i N i jeśli jest
dodatnia wskazuje poprawnie
• Różnica dwóch rozkładów normalnych o tej samej wariancji i
średniej odpowiednio w 0 i d’ jest rozkładem normalnym o średniej
równej d’ i wariancji
równej 2 (odchylenie
standardowe √2)
• Pc będzie szarym obszarem
na wykresie:
 d 
Pc  

 2
z czego:
d ' 2 z Pc 
Obliczanie d’
dla uprzedzonej próby 2AFC
• Weźmy pod uwagę próbę 2IFC z bodźcami X1 i X2
• Jeśli obserwator jest uprzedzony (preferuje którąś z
odpowiedzi) kryterium nie będzie równe zero i X1-X2
będzie większe lub mniejsze od C
• Aby obliczyć d’ należy sklasyfikować odpowiedzi w
kontekście trafień i błędów (pH/pF)
d  C
z  pH  
2
 d  C
z  pF  
2
z  pH   z  pF 
d 
2
Pozostałe parametry dla 2AFC
C
z  pF   z  pH 
2
z  pF   z  pH 
ln   
 Cd 
2
2
2
• Wyrażenie na lnβ jest identyczne jak dla próby
1AFC (w liczeniu z definicji używamy
rozkładów dla bodźców X1 i X2, a nie dla
różnic)
Pcmax
 d 
 

 2
Próby takie samo/inne (2AFC)
• Oznaczmy bodźce jako S1 i S2
• Bodźce są ponadprogowe a obserwator nie
musi widzieć czym się różnią
• Zakładamy że bodźce powodują powstanie
wartości zmysłowych o rozkładzie normalnym
• Najlepszą strategią obserwatora jest
porównanie wartości bodźców w obu parach
– Obserwator wybiera pierwszą parę jeśli różnica
bezwzględna jest w niej większa |X1-X2|>|X3-X4|
Obliczanie d’ dla prób takie
samo/inne (2AFC)
• Obserwator odpowiada „1”
jeśli sygnał wewnętrzny
znajdzie się w szarym obszarze
• Jest to odpowiedź prawidłowa
jeśli przedstawiona była jedna
z konfiguracji bodźców
–
–
–
–
<S1,S2,S1,S1>,
<S1,S2,S2,S2>,
<S2,S1,S1,S1>,
<S2,S1,S2,S2>
• Pc jest więc
prawdopodobieństwem, że
bodźce w powyższych
konfiguracjach znajdą się w
szarych obszarach
• Okręgi oznaczają rozłączne
rozkłady podobieństwa o
odchyleniu standardowym √2
Obliczanie d’ dla prób takie
samo/inne (2AFC)
• W każdym szarym obszarze
mamy dwa
prawdopodobieństwa: „duże” i
„małe”
• Duże oznacza przypadki, gdy
różnica bodźców odpowiada
różnicy wartości wewnętrznych
• Małe oznacza przypadki, gdy
różnica bodźców jest błędnie
zostanie odczytana ale na tyle
mocno, że i tak zostanie
wskazana prawidłowa para
 d 
 d 
Pc   2     2   
2
 2
1  2 Pc  12 
d   2z 

2


Model różnicowy (1AFC)
• Pokazujemy 2 bodźce X1 i X2 i badany odpowiada
że są różne jeśli |X2-X1|>k, gdzie k jest kryterium
• Jeśli bodziec S2 jest większy
od bodźca S1 to z dużym
prawdopodobieństwem
badany stwierdzi, że
X2-X1>k, lecz istnieje też
małe prawdopodobieństwo,
że na skutek próbkowania
stwierdzi, ze X1-X2>k, a więc
także poda prawidłową
odpowiedź
Model różnicowy (1AFC)
 d  k 
  d  k 
pH  
  

2 
 2 

 k 
pF  2 

2

 pF 
k   2 z

 2 
Metoda niezależnej obserwacji
(1AFC)
• Najlepszą strategią przy próbie takie samo/różne z
jedną parą bodźców jest odpowiadać „różne” gdy
sygnały z bodźców S1 i S2 lezą po różnych stronach
kryterium wyśrodkowanego pomiędzy rozkładami
wartości zmysłowych dla tych bodźców
• Maksymalne Pc dla takiego kryterium będzie wynosiło:
 d 
 d 
Pc   2     2   
2
 2
1  2 Pc  1 
d   2z

2


z  pH   z  pF 
C
2
Dopasowanie do wzorca
• Model niezależnej obserwacji (2AFC)
• Model różnicowy (2AFC)
• M-AFC (strategia różnicowa)
– Metoda Monte-Carlo – losujemy wartość z bodźca
wzorcowego (S1) i wzorca pasującego (S2) oraz M-1
wartości z pozostałych bodźców porównywanych(Si),
jeśli różnica dla S1-S2 jest mniejsza od dowolnego S1Si to próba określana jest jako poprawna, po wielu
powtórzeniach otrzymujemy Pc
przerwa
Porównania modeli
• Wyniki badań psychofizycznych często różnią się
między sobą z powodu różnic w warunkach ich
przeprowadzania
• Niezbędne są więc kryteria oceny czy różnice te są
„rzeczywiste” czy nie
• Aby ocenić czy zmienna X ma wpływ na wydajność
jakiejś próby
–
–
–
–
–
Adaptacja (w miarę obserwacji bodźca, między bodźcami)
Szybkość przemieszczania bodźca
Barwa bodźca
Wielkość przestrzenna bodźca
Itp…
Adaptacja a wydajność?
• Czy różnice wynikają z wpływu adaptacji na
wydajność czy też
z niepewności pomiarowej?
• Wnioskowanie statystyczne
• Nie interesuje nas wydajność
lecz jej zależność od adaptacji
Odchylenie standartowe
Odchylenie standartowe
• 68% pewności, że prawdziwa wartość mieści
się w zakresie +/- σ
• 95% pewności jeśli zwiększymy zakres do
+/- 1,96σ
• Jeśli punkty dla różnych wartości zmiennej X
nie pokrywają się w ramach swoich odchyleń
standartowych mało prawdopodobne jest aby
ich różnice wynikały z niepewności
pomiarowej
Stosunek podobieństw
• 2 modele:
– 1PF: Wydajność (czułość na kontrast) nie zależy od
adaptacji, wystarczy jedna PF do opisu danych niezależnie
od wartości zmiennej X
– 2PF: dla każdej wartości zmiennej X (adaptacji) należy
dopasować inną PF
• Dodatkowo zakładamy stabilność (wydajność nie zależy
od numeru próby) oraz niezależność (wydajność nie
zależy od poprzednich odpowiedzi)
• Zakładamy też że parametry γ (wsp. zgadywania) i λ
(wsp. rozproszeń) są stałe oraz że PF ma kształt funkcji
logistycznej
Modele
• Model 2PF jest pełniejszy (obejmuje mniejszą
ilość warunków ograniczających – restrykcji)
• Model 1PF jest węższy (obejmuje jeden
warunek ograniczający więcej)
– Mówimy, że model węższy jest zagnieżdżony w
modelu pełniejszym ponieważ stanowi jego
szczególny przypadek
LR – stosunek podobieństw
• Oba modele
dopasowujemy metodą
ML i porównujemy
otrzymane podobieństwa
Stosunek podobieństw
• Stosunek podobieństw zawarty jest w zakresie
0-1, ponieważ model pełniejszy zawsze lepiej
będzie opisywał dane
– dwie funkcje zawsze lepiej będą pasować niż
jedna, chyba że obie serie danych są identyczne
• Współczynnik LR określa
prawdopodobieństwo że model węższy
określa prawidłowo PF obserwatora
LR – stosunek podobieństw
• Symulacja daje LR na
poziomie 63,26%
Stosunek podobieństw
• Wykonajmy wiele symulacji zakładając model
węższy i sprawdźmy ile z nich będzie pasować
gorzej niż dane od obserwatora
• Zgodnie z LR powinno to być 0,21%
• Po przeprowadzeniu 10000 prób 24 okazują
się dawać LR gorsze od obserwatora, więc
hipotezę o modelu węższym możemy odrzucić
Stosunek podobieństw
Logika
• Jeśli mniej prawdopodobieństwo dopasowania
gorszego niż rzeczywiste jest mniejsze od 5% można
stwierdzić, że dodatkowe założenie modelu węższego
jest niesłuszne w stosunku do danych
• Jest to podobna sytuacja do zdań:
– Jeśli pamiętałby że dzisiaj jest nasza rocznica
prawdopodobnie powiedziałby coś teraz. Jeśli nic dotąd
nie powiedział prawdopodobnie zapomniał, że dziś jest
nasza rocznica.
– Jeśli prostszy model byłby prawdziwy, stosunek
podobieństw prawdopodobnie nie byłby tak mały jak jest.
Jeśli jest tak mały jak jest to prawdopobnie prostszy model
jest nieprawdziwy.
Inne porównania modeli
• Dotychczas rozważaliśmy dopasowanie PF w
całości (tzn. zarówno nachylenia jak i progu).
• W modelach możemy założyć uwolnienie jedynie
jednego z tych parametrów, a także uwolnienie
pozostałych, np. współczynnika rozproszeń
• Można także jako model pełniejszy uznać model
zakładające jedynie niezależność i stabilność tzw.
model nasycony. W modelu takim nie zakładamy
żadnego przebiegu funkcji, tzn. współczynniki Pc
dla każdej wartości bodźca są wolnymi
parametrami modelu. Porównywany model
nazywamy w tym przypadku celowym.
Hipotezy proste i złożone
• Jeśli jakiś model nie ma wolnych parametrów
(zakładamy, że znamy zależność dokładnie i ją
weryfikujemy) hipotezę taką nazywamy prostą
• Jeśli model ma parametry zależne od danych
(dopasowywane) jego hipotezę nazywamy
złożoną
Test χ2
• Jeśli w LR przetransformujemy w postaci tzw.
Transformowanego stosunku podobieństw:
TLR  2 ln LR
będzie on asymptotycznie rozłożony jak rozkład χ2 ze
liczbą stopni swobody równą różnicy w ilości wolnych
parametrów modeli pełniejszego i węższego
Kryteria informacyjne - AIC
• AIC – An Information Criterion, Kryterium
informacyjne
– Zwiększanie podobieństwa świadczy o coraz lepszym
modelu
– Każdy nowy wolny parametr zwiększa LR
– Jednocześnie najlepsze modele mają jak najmniej
parametrów
AICi  2LL y; M i   2Ki
– Minimalizacja wsp. AIC świadczy o lepszym modelu
• K – liczba wolnych parametrów w modelu
• LL() – podobieństwo modelu M do serii danych θ
Kryteria informacyjne - BIC
• BIC – Bayesian Information Criterion
BICi  2LL y; M i   ln nKi
– Uwzględnia liczbę prób jako czynnik jeszcze
mocniej obciążający dodawanie nowych
parametrów (przy dużych próbach statystycznych)
Współczynnik Bayesa
L | y; M  p d

BF 
 L | y; M  p d
1
1
1
1
2
2
2
2
• Pozwala włączyć wstępne założenia co do
przebiegu PF
• BF<1 wskazuje na bardziej prawdopodobny
model 2 i odwrotnie
• W przypadku tego kryterium nie musimy
zakładać, że modele są zagnieżdżone