Miernik całkowitej zależności między dwoma zbiorami zmiennych

Transkrypt

Miernik całkowitej zależności między dwoma zbiorami zmiennych
Marek Styczeń
Rękopis nie do publikacji
Pomysł pierwotny dotyczył analogu analizy czynnikowej dla zmiennych nominalnych i do jego
realizacji się zabrałem. Pomysł daje się on ekstrapolować na zadania prostsze, od których
wymienienia zacznę.
Mam istotny problem z pytaniem, czy tego już ktoś wcześniej nie zrobił?
Miernik całkowitej zależności między dwoma zbiorami zmiennych nominalnych
Niech będzie zbiór zmiennych nominalnych {X1, X2, ... Xnx}, gdzie nx jest liczbą tych zmiennych.
Liczbę wartości zmiennej Xi oznaczymy nXi
Niech H(T) oznacza entropię rozkładu zmiennej T.
Symbolem < oznaczymy operację na parze zmiennych, która przyporządkowuje im nową
zmienną będącą ich różnowartościową funkcją.
Jeżeli Z = Xi < Xj, to entropia zmiennej Z jest równa entropii łącznego rozkładu zmiennych Xi, Xj
Z = Xi < Xj => H(Z) = H(Xi < Xj) = H(Xi,Xj)
Każda różnowartościowa funkcja pewnych zmiennych nominalnych jest oczywiście równoważnym
zapisem wynków pomiaru.
Oznaczmy symbolem M(Xi,Xj) jakiś informacyjny miernik zależności zmiennej Xi od Xj np
2 * ( H(Xi) + X(Xj) – H(Hi,Xj) )
---------------------------------H(Xi) + H(Xj)
Niech będzie inny zbiór zmiennych nominalnych {Y1, Y2, ..., Yny}.
Oznaczmy X dowolną ( z wielu możliwych) zmienną będącą różnowartościową funkcją zmiennych
X1,X2, ..., Xnx spełniającą warunek X = X1<X2< ... <Xnx.
Oznaczmy Y (j.w.) zmienną będącą różnowartościową funkcją zmiennych Y1,Y2, ..., Yny
spełniającą warunek Y = Y1<Y2< ... <Yny.
Entropia każdej zmiennej X będącej różnowartościową funkcją zmiennych X1,X2, ..., Xnx H(X)
jest taka sama i równa entropii łącznego rozkładu zmiennych X1,X2, ..., Xnx. Podobnie, entropia
każdej zmiennej Y - H(Y) jest taka sama i równa entropii łącznego rozkładu zmiennych Y1, Y2,
..., Yny.
Entropia łącznego rozkładu zmiennych X, Y - H(X,Y) jest równa entropii dowolnej zmiennej
Z=X<Y. W konsekwencji miernik siły zależności między zmiennymi X, Y :
2*( H(X) + H(Y) – H(X,Y) )
--------------------------- =
H(X) + H(Y)
2*( H(X1<X2< ... <Xnx)+ H(Y1<Y2< ... <Yny) – H(H(X1<X2< ... <Xnx, Y1<Y2< ... <Yny ) )
--------------------------------------------------------------------------------------H(X1<X2< ... <Xnx)+H(Y1<Y2< ... <Ynx)
2*( H(X1, X2, ... , Xnx) + H(Y1, Y2, ..., Ynx) – H(X1, X2, ..., Xnx, Y1, Y2, ..., Yny ) )
----------------------------------------------------------------------------------------H(X1, X2, ..., Xnx)+H(Y1, Y2, ..., Ynx)
co można nazwać miernikiem całkowitej zależności między dwoma zbiorami zamiennych
nominalnych
Analog współczynnika korelacji wielokrotnej
Dane są zbiór zmiennych nominalnych { X1,X2, ... Xnx} i pojedyncza zmienna nominalna Z.
Można zdefiniować asymetryczny informacyjny miernik zależności Z od zbioru { X1,X2, ... Xnx}
jako
H(X1, X2, ..., Xnx) + H(Z) – H(X1, X2, ... Xnx, Z)
--------------------------------------------------H(Z)
Żadna funkcja zmiennych { X1,X2, ... Xnx } nie może nieść więcej informacji o zmiennej Z niż
X1<X2< ... <Xnx. Można jednak poszukać takiej funkcji zmiennych { X1,X2, ... Xnx }, która
charakteryzowałaby się najmniejszą entropią i tą samą ilością niesionej o Z informacji.
f(X1,X2, ... Xnx) :
(1) I (Z, f(X1,X2, ... Xnx)) = I (Z, X1<X2< ... <Xnx)
(2) H (f(X1,X2, ... Xnx)) = min
Funkcja f spełniająca oba warunki zasługiwała na miano regresji.
Warunek (1) można by osłabić dopuszczając k procentową stratę informacji. Otwieramy jednek
w ten sposób furtkę arbitralności.
Analog współczynnika korelacji kanonicznej
Dane są dwa zbiory zmiennych nominalnych { X1,X2, ... Xnx} i {Y1,Y2, ...,Yny}. Wyznaczyć
można całkowity miernik zależności między tymi dwoma zbiorami zmiennych jako miernik siły
zależności między ich różnowartościowymi funkcjami X1<X2< ... <Xnx oraz Y1<Y2< ... <Yny.
W liniowej korelacji kanonicznej występują liniowe funkcje zmiennych z każdego zbioru dobrane
tak, by korelacja między nimi była maksymalna.
Tu poszukać trzeba takich funkcji f(X1,X2, ... Xnx) i g(Y1,Y2, ... Yny), które charakteryzowałyby
się:
(1) minimalną sumą (?) etropii przy ilości informacji jaką niesie jedna z tych funkcji o drugiej
I ( f (X1,X2, ... Xnx), g (Y1,Y2, ... Yny) ) równej ilości informacji niesionej przez zbiory
zmiennych źródłowych o sobie nawzajem I (X1<X2< ... <Xnx, Y1<Y2< ... <Ynx ) lub
(2) maksymalną zależnością informacyjną, a w przypadku istnienia większej liczby par takich
(równie najlepszych) zmiennych - przy minimalnej sumie (?) ich etropii.
Analog głównych składowych
Dana jest zmienna nominalna Z. Zmienna Z jest funkcją obserwowalnych zmiennych Y:
Z = Y1<Y2< ... <Yny. Zmienne {X1,X2, ... Xnx} są głównymi składowymi nominalnymi zmiennej
Z, a w konsekwencji zmiennych Y1,..Y2,... Yny, jeżeli spełniają następujące warunki:
(1) każda z nich jest k wartościową funkcją zmiennej Z a zatem zmiennych zmiennych
{ Y1,..Y2,... Yny },
(2) zmienna X1 ma maksymalną etropię
(3) każda następna zmienna Xi (dla i>1) jest stochastycznie niezależna od zmienych X1,...,
Xi-1 i ma maksymalną etropię
Wybór k - liczby wartości zmiennych będących głównymi składowymi ma charakter
arbitralny. Z rozmaitych względów na uwagę zasługuje k=2
Można się spodziewać, że często nie będzie możliwym znalezienie drugiej i następnych
głównych składowych spełniających te warunki. Warto wypróbować dwa rozwiązania:
(a) badaną zbiorowość traktujemy jako próbę a częstości z rozkładu zmienej Z jako
estymatory populacyjnych prawdopodobieństw. Wtedy dekompozycja zmiennej Z na
iloczyn X1<X2< ... <Xnx staje się hipotezą
(b) dopuszczamy, by funkcja fi: Xi = fi(Z) miała charakter probabilistyczny i wartości zmiennej
Xi przypisywała poszczególnym wartościom zmienej Z z pewnymi
prawdopodobieństwami.
Analog analizy czynnikowej
Dana jest zmienna nominalna Z. Zmienna Z jest różowartościwą funkcją pewnych
nominalnych zmiennych obserwowalnych Z = X1<X2< ... <Xnx. Ze względu na nominalny
charakter wszystkich zmiennych funkcją ta może być dowolna funkcja różnowartościowa
(o dostatecznej liczbie argumentów).
Zmienne {Y1,Y2, ..., Yny} są czynnikami zmiennej Z (a w konsekwencj zmienych X1, X2,
..., Xnx), jeżeli spełniają następujące warunki:
(1)
Z = Y1<Y2< ... <Yny
(2)
zmienne Y1,Y2, ..., Yny są dowolnymi niezależnymi zmiennymi stochastycznie o z góry
założonej liczbie wartości
Badaną zbiorowość traktujemy jako próbę a częstości z rozkładu zmienej Z jako
estymatory populacyjnych prawdopodobieństw.
Rozszerzenie:
Ze zbioru zmiennych {Y1,Y2, ..., Yny} można wybrać podzbiór zmiennych:
(1)
o określonej liczebności równej m zapewniających maksymlaną zależność ilocznu
wybranych zmiennych {Y1,..Y2,... Ym} ze zmienną Z lub
(2)
o mnimalnej liczbności m, których iloczyn < mieć będzie zależność ze zmienną Z
przekraczającą założony limit.
(3)
zakładając, że relacje między nimi spełniają jakieś inne warunki dające się opisać np.
w języku modeli log-liniowych
Ponieważ zaczęło się od pomysłu dekompozycji jednej zmiennej nominalnej na grupę zmiennych
nominalnych charaktryzujących się szczególnym rodzajem zachodzących między nimi zależności
spróbowałem coś takiego zrealizować zakładając, że czynniki są kompletnie niezależne
stochastycznie:
PRZYKŁAD:
Dana jest zmienna Z (na którą partię byś głosował?) mająca 9 wartości i jej rozkład w niewielkiej
(niestety) próbie liczącej ok. 300 osób.
Pytanie 1. Czy populacyjny rozkład zmiennej Z może być traktowany jako rozkład dwu
niezależnych stochastycznie zmiennych trójwartrościowych (4 parametry) ?
Odpowiedź: Tak, są do pomyślenia dwie zmienne Y1, Y2 trójwartościowe takie, że Z = Y1<Y2
o oszacowanych na podstawie tej próby rozkładach brzegowych i wynikającym z hipotezy o ich
niezależności rozkładzie łącznym będącym jednocześnie rozkładem hipotetycznym zmiennej Z.
Funkcja Z = Y1<Y2, i empiryczny rozkład zmiennej Z
Y1
0
0
0
1
1
1
2
2
2
Y2
0
1
2
0
1
2
0
1
2
Z
5
8
7
4
6
0
1
2
3
N(Zi)
32
4
8
81
14
20
110
15
26
To samo inaczej
Funkcja Z = Y1<Y2,
Y2\Y1
0
1
2
0
5
8
7
1
4
6
0
2
1
2
3
Empiryczny łączny rozkład zmiennych Y1, Y2
Y2\Y1
0
1
2
0
32
4
8
1
81
14
20
2
110
15
26
Liczebności oczekiwane wg hipotezy o niezależności
Y2\Y1
0
1
2
0
1
31.7
4.7
7.7
82.7
12.2
20.0
2
108.6
16.1
26.3
Niecałkiem legalnie policzona wartość CHI2= 0.499647 (przy df = 9-1-4=4)
Dla zainteresowanych interpretacjami podaje znaczenie wartości zmiennej Z:
Y2\Y1
0
1
2
0
SdPL
UW
UP
1
SAM
SLD
LPR
2
PO
PSL
PiS
Partie oznaczone tym samym kolorem można bez większej straty dla jakości (dopasowania)
modelu zamienić miejscami.
Wg Y1 podobnie lokują się grupy: (SdPL, UW, UP), (SAM, SLD, LPR), (PO, PSL, PiS)
Wg Y2 podobnie lokują się grupy: (SdPL,SAM,PO), (UW,SLD,PSL), (UP,LPR,PiS)
Pytanie 2. Czy populacyjny rozkład zmiennej Z może być traktowany jako rozkład trzech
niezależnych stochastycznie zmiennych dwu - dwuwartościowych i jednej - trójwartościowej (jak
wyżej - 4 parametry) ?
Odpowiedź: Tak, są do pomyślenia trzy zmienne Y1, Y2 dwuwartościowe i Y3 trójwartościowa
takie, że Z= Y1<Y2<Y3
o oszacowanych na podstawie tej próby rozkładach brzegowych i
wynikającym z hipotezy o ich niezależności rozkładzie łącznym
będącym jednocześnie rozkładem hipotetycznym zmiennej Z.
Ponieważ zmienna Y1<Y2<Y3 ma w tym modelu 12 wartości przyjęłem, że zmienna Z ma też 12
wartości i trzy z nich miały w próbie zerowe liczebności.
Funkcja Z = Y1<Y2<Y3, i empiryczny rozkład zmiennej Z
Y1
Y2
Y3
Z
N(Zi)
0
1
0
1
0
0
1
1
0
0
0
0
6
1
7
4
14
110
8
81
0
1
0
1
0
0
1
1
1
1
1
1
8
5
9
3
4
32
0
26
0
1
0
1
0
0
1
1
2
2
2
2
9
0
9
2
0
20
0
15
SLD
PO
UP
SAM
UW
SDPl
PiS
LPR
PSL
To samo inaczej
Funkcja Z = Y1<Y2 dla Z=0
Y2\Y1
0
1
0
6
1
1
7
4
Funkcja Z = Y1<Y2 dla Z=1
Y2\Y1
0
1
0
8
5
1
3
Funkcja Z = Y1<Y2 dla Z=2
Y2\Y1
0
1
0
0
1
2
Niecałkiem legalnie policzona wartość CHI2= CHI2= 7.353065, (przy df=12-1-4=7) dla hipotrzy o
kompletnej niezależności zmiennych Y1, Y2 i Y3.
Partie oznaczone tym samym kolorem można bez większej straty dla jakości modelu zamienić
miejscami.
Wg Y1: (SLD,UP,UW), (PO,SAM,SDPl,PiS,LPR,PSL)
Wg Y2: (SLD,PO,UW,SDPl,LPR), (UP,SAM,PiS,PSL)
Wg Y3: (SLD,PO,UP,SAM), (UW,SDPl,PiS), (LPR,PSL)
Pamiętamy, że porządek zmiennych i ich wartości nie jest nośnikiem informacji.
Nie policzyłem zależności czynników (osobno Y1, Y2 i Y3) ze zmienną Z; ani całkowitych ani
cząstkowych. Liczyć na piechotę mi się nie chciało a programu w takie możliwości jeszcze nie
wyposażyłem.
Program poszukiwania najlepszej dekompozycji mam dość prymitywny bo przeszukuje wszystkie
permutacje rozkładu Z. Za to nie powinien(em) się mylić.