wykład 13 analiza regresji

Transkrypt

wykład 13 analiza regresji
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
WYKŁAD 13
BADANIE ZALEśNOŚCI
CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Było:
Przykład. Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych
(cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono
w tabeli:
20 21 22 23 22 25 30 27 24 26
plon xi
zawartość skrobi yi 17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4
Diagram korelacyjny
Analiza korelacji
przeprowadzona przy poziomie
istotności 0,05 wykazała istotną
korelację między plonem bulw
a zawartością skrobi.
Wyznaczono współczynnik
korelacji Pearsona r = -0,90.
Plon bulw i zawartość skrobi są
ujemnie skorelowane.
zawartość skrobi (%)
17,2
17,1
17
16,9
16,8
16,7
16,6
16,5
16,4
16,3
16,2
18
20
22
24
26
28
30
32
plon
O tej zaleŜności moŜna powiedzieć więcej (wzór zaleŜności, idea opisu)...
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Opis zaleŜności cechy Y od cechy X (regresji cechy Y względem cechy X)
– terminologia
cecha X : objaśniająca, opisująca, niezaleŜna
cecha Y : objaśniana, opisywana, zaleŜna
Postać funkcji regresji II rodzaju: g (x) = β1 · x + β0
lub
g (x) = β · x + α
β1 – współczynnik regresji,
β0 – stała regresji
Statgraphics: Linear model: Y = a + b · X
b – współczynnik regresji (ang. slope),
a – stała regresji (ang. intercept)
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
X, Y – cechy obserwowane w doświadczeniu, Y~N
n – liczba jednostek doświadczalnych,
Próba:
wartości cechy X:
wartości cechy Y:
x1
y1
x2
y2
x3
y3
...
...
xn
yn
Diagram korelacyjny:
cecha Y
βˆ1 = b1 , βˆ 0 = b0
prosta regresji
równanie prostej regresji:
y = b1x + b 0,
b1 - współczynnik regresji,
cecha X
b0 - stała regresji.
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Estymacja parametrów β1 i β0 metodą najmniejszych kwadratów (MNK):
Komentarz...
równanie prostej regresji:
cecha Y
y = b1x + b 0,
b1 =?
y(xi)
b 0 =?
y( xi ) = b1xi + b0,
ei
yi
ei = y( xi ) – yi
n
xi
cecha X
∑ e i → min
i =1
2
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Estymatory uzyskane metodą najmniejszych kwadratów:
n
b1 =
∑ (x
i =1
i
− x ) ⋅ ( yi − y )
n
∑ (x
i =1
i
− x)
2
,
b0 = y − b1 ⋅ x
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Oznaczenia upraszczające zapis wzoru:
n
SS x = ∑ (xi − x )
n
2
i =1
,
SS y = ∑ ( yi − y )
i =1
2
,
n
S xy = ∑ (xi − x ) ⋅ ( yi − y )
i =1
Określenia:
SSx – suma kwadratów odchyleń dla cechy X,
SSy – suma kwadratów odchyleń dla cechy Y,
Sxy – suma iloczynów odchyleń dla cech X, Y.
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Estymatory uzyskane metodą najmniejszych kwadratów:
b1 =
S xy
SS x
,
Interpretacja współczynnika regresji b1...
b0 = y − b1 ⋅ x
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Czy badana zaleŜność jest znacząca (istotna)?
• Stawiamy hipotezę:
H0: β = 0 ,
(hipoteza o braku regresji)
• poziom istotności α,
• test t Studenta:
t emp
gdzie:
sb =
SS y − b1 ⋅ S xy
(n − 2) ⋅ SS x
t kryt = t α , v=n −2
b1
=
sb
,
H1: β
≠ 0
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
WNIOSKOWANIE
Jeśli | temp | > t
kryt
to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna
odrzucić.
test F - Fishera:
Femp =
b1 ⋅ S xy ⋅ (n − 2)
SS y − b1S xy
Fkryt = Fα , v1 =1,v 2 =n −2
WNIOSKOWANIE
Jeśli Femp > F
odrzucić.
kryt
to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
W przykładzie: n=10, x = 24 kg , y = 16,7% , SSx = 84, SSy = 0,68, Sxy = -6,8.
Wyznaczamy równanie prostej regresji:
− 6 ,8
b1 =
=
= −0 ,081
,
SS x
84
S xy
b0 = y − b1 ⋅ x = 16 ,7 − ( −0 ,081) ⋅ 24 = 18,64
prosta regresji: y = 18,64 – 0,081x.
Badamy istotność regresji (zaleŜności):
H0: β = 0 (hipoteza o braku regresji),
poziom istotności α = 0,05
H1: β
≠ 0,
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
test t Studenta:
sb =
t emp
SS y − b1 ⋅ S xy
0,68 − (−0,081) ⋅ (−6,8)
0,1292
=
=
= 0,014
,
(n − 2) ⋅ SS x
(10 − 2) ⋅ 84
672
b1 − 0 ,081
=
=
= −5,79
,
sb
0 ,014
t kryt = t 0, 05, 8 = 2,31
WNIOSKOWANIE
|temp| = 5,79 > 2,31 = t kryt , zatem H0 odrzucamy.
Stwierdzamy statystycznie istotną zaleŜność zawartości skrobi od plonu bulw
ziemniaka.
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
test F - Fishera:
Femp =
b1 ⋅ S xy ⋅ (n − 2)
SS y − b1S xy
(−0,081) ⋅ (−6,8) ⋅ (10 - 2) 4,4064
=
=
= 34,11
0,68 − (−0,081) ⋅ (−6,8)
0 ,1292
Femp = 34,11
Fkryt = F0, 05, 1, 8 = 5,32
WNIOSKOWANIE
Jeśli Femp = 34,11 > 5,32 = F kryt , zatem H0 odrzucamy.
Matematyka i statystyka matematyczna dla rolników w SGGW
Independent variable: plon
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------Intercept
18,6429
0,335618
55,5478
0,0000
Slope
-0,0809524
0,0138832
-5,83095
0,0004
-----------------------------------------------------------------------------
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
0,550476
1
0,550476
34,00
0,0004
Residual
0,129524
8
0,0161905
----------------------------------------------------------------------------Total (Corr.)
0,68
9
Correlation Coefficient = -0,899735
R-squared = 80,9524 percent
Standard Error of Est. = 0,127242
The StatAdvisor
--------------The output shows the results of fitting a linear model to describe
the relationship between skrobia and plon. The equation of the fitted
model is
skrobia = 18,6429 - 0,0809524*plon
Anna Rajfura, KDiB
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Plot of Fitted Model
17,1
skrobia
16,9
16,7
16,5
16,3
20
22
24
26
plon
28
30
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Interpretacja współczynnika regresji b1
prosta regresji y = b 0 + b1x,
Jeśli wartość cechy X wzrośnie o jednostkę (w jednostkach cechy X), to wartość
cechy Y zmieni się o | b1 | jednostek (w jednostkach cechy Y), a dokładniej.:
• wzrośnie, gdy b1 > 0;
• zmaleje, gdy b1 < 0.
Interpretacja współczynnika regresji b1 w przykładzie:
prosta regresji y = 18,64 – 0,081x, b1 = -0, 08.
Jeśli plon z bulw ziemniaka wzrośnie o 1 kg, to zawartość skrobi zmniejszy się
o 0,08%.
Matematyka i statystyka matematyczna dla rolników w SGGW
Anna Rajfura, KDiB
Współczynnik determinacji d:
d = r2 · 100%,
r – współczynnik korelacji,
Interpretacja współczynnika determinacji:
współczynnik d oznacza, jaka część zmienności cechy Y jest objaśniona
(wytłumaczona) zmiennością cechy X.
Obliczanie i interpretacja współczynnika determinacji d w przykładzie:
r = - 0,9,
to
d = 0,81· 100% = 81%
W 81% zmienność zawartości skrobi jest wytłumaczona zmiennością plonu,
natomiast 19% zmienności zawartości skrobi nie jest wytłumaczona zmiennością
plonu.
Matematyka i statystyka matematyczna dla rolników w SGGW
Independent variable: plon
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------Intercept
18,6429
0,335618
55,5478
0,0000
Slope
-0,0809524
0,0138832
-5,83095
0,0004
-----------------------------------------------------------------------------
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
0,550476
1
0,550476
34,00
0,0004
Residual
0,129524
8
0,0161905
----------------------------------------------------------------------------Total (Corr.)
0,68
9
Correlation Coefficient = -0,899735
R-squared = 80,9524 percent
Standard Error of Est. = 0,127242
The StatAdvisor
--------------The output shows the results of fitting a linear model to describe
the relationship between skrobia and plon. The equation of the fitted
model is
skrobia = 18,6429 - 0,0809524*plon
Praktyczne warunki ustalania cechy zaleŜnej i niezaleŜnej...
Wykorzystanie prostej regresji...
Anna Rajfura, KDiB