wykład 13 analiza regresji
Transkrypt
wykład 13 analiza regresji
Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB WYKŁAD 13 BADANIE ZALEśNOŚCI CECHY Y OD CECHY X - ANALIZA REGRESJI PROSTEJ Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Było: Przykład. Z dziesięciu poletek doświadczalnych zebrano plony bulw ziemniaczanych (cecha X) i oznaczono w nich procentową zawartość skrobi (cecha Y). Wyniki zestawiono w tabeli: 20 21 22 23 22 25 30 27 24 26 plon xi zawartość skrobi yi 17,1 16,9 17,0 16,8 16,9 16,5 16,3 16,6 16,5 16,4 Diagram korelacyjny Analiza korelacji przeprowadzona przy poziomie istotności 0,05 wykazała istotną korelację między plonem bulw a zawartością skrobi. Wyznaczono współczynnik korelacji Pearsona r = -0,90. Plon bulw i zawartość skrobi są ujemnie skorelowane. zawartość skrobi (%) 17,2 17,1 17 16,9 16,8 16,7 16,6 16,5 16,4 16,3 16,2 18 20 22 24 26 28 30 32 plon O tej zaleŜności moŜna powiedzieć więcej (wzór zaleŜności, idea opisu)... Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Opis zaleŜności cechy Y od cechy X (regresji cechy Y względem cechy X) – terminologia cecha X : objaśniająca, opisująca, niezaleŜna cecha Y : objaśniana, opisywana, zaleŜna Postać funkcji regresji II rodzaju: g (x) = β1 · x + β0 lub g (x) = β · x + α β1 – współczynnik regresji, β0 – stała regresji Statgraphics: Linear model: Y = a + b · X b – współczynnik regresji (ang. slope), a – stała regresji (ang. intercept) Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB X, Y – cechy obserwowane w doświadczeniu, Y~N n – liczba jednostek doświadczalnych, Próba: wartości cechy X: wartości cechy Y: x1 y1 x2 y2 x3 y3 ... ... xn yn Diagram korelacyjny: cecha Y βˆ1 = b1 , βˆ 0 = b0 prosta regresji równanie prostej regresji: y = b1x + b 0, b1 - współczynnik regresji, cecha X b0 - stała regresji. Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Estymacja parametrów β1 i β0 metodą najmniejszych kwadratów (MNK): Komentarz... równanie prostej regresji: cecha Y y = b1x + b 0, b1 =? y(xi) b 0 =? y( xi ) = b1xi + b0, ei yi ei = y( xi ) – yi n xi cecha X ∑ e i → min i =1 2 Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Estymatory uzyskane metodą najmniejszych kwadratów: n b1 = ∑ (x i =1 i − x ) ⋅ ( yi − y ) n ∑ (x i =1 i − x) 2 , b0 = y − b1 ⋅ x Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Oznaczenia upraszczające zapis wzoru: n SS x = ∑ (xi − x ) n 2 i =1 , SS y = ∑ ( yi − y ) i =1 2 , n S xy = ∑ (xi − x ) ⋅ ( yi − y ) i =1 Określenia: SSx – suma kwadratów odchyleń dla cechy X, SSy – suma kwadratów odchyleń dla cechy Y, Sxy – suma iloczynów odchyleń dla cech X, Y. Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Estymatory uzyskane metodą najmniejszych kwadratów: b1 = S xy SS x , Interpretacja współczynnika regresji b1... b0 = y − b1 ⋅ x Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Czy badana zaleŜność jest znacząca (istotna)? • Stawiamy hipotezę: H0: β = 0 , (hipoteza o braku regresji) • poziom istotności α, • test t Studenta: t emp gdzie: sb = SS y − b1 ⋅ S xy (n − 2) ⋅ SS x t kryt = t α , v=n −2 b1 = sb , H1: β ≠ 0 Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB WNIOSKOWANIE Jeśli | temp | > t kryt to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna odrzucić. test F - Fishera: Femp = b1 ⋅ S xy ⋅ (n − 2) SS y − b1S xy Fkryt = Fα , v1 =1,v 2 =n −2 WNIOSKOWANIE Jeśli Femp > F odrzucić. kryt to H0 odrzucamy, w przeciwnym przypadku H0 nie moŜna Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB W przykładzie: n=10, x = 24 kg , y = 16,7% , SSx = 84, SSy = 0,68, Sxy = -6,8. Wyznaczamy równanie prostej regresji: − 6 ,8 b1 = = = −0 ,081 , SS x 84 S xy b0 = y − b1 ⋅ x = 16 ,7 − ( −0 ,081) ⋅ 24 = 18,64 prosta regresji: y = 18,64 – 0,081x. Badamy istotność regresji (zaleŜności): H0: β = 0 (hipoteza o braku regresji), poziom istotności α = 0,05 H1: β ≠ 0, Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB test t Studenta: sb = t emp SS y − b1 ⋅ S xy 0,68 − (−0,081) ⋅ (−6,8) 0,1292 = = = 0,014 , (n − 2) ⋅ SS x (10 − 2) ⋅ 84 672 b1 − 0 ,081 = = = −5,79 , sb 0 ,014 t kryt = t 0, 05, 8 = 2,31 WNIOSKOWANIE |temp| = 5,79 > 2,31 = t kryt , zatem H0 odrzucamy. Stwierdzamy statystycznie istotną zaleŜność zawartości skrobi od plonu bulw ziemniaka. Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB test F - Fishera: Femp = b1 ⋅ S xy ⋅ (n − 2) SS y − b1S xy (−0,081) ⋅ (−6,8) ⋅ (10 - 2) 4,4064 = = = 34,11 0,68 − (−0,081) ⋅ (−6,8) 0 ,1292 Femp = 34,11 Fkryt = F0, 05, 1, 8 = 5,32 WNIOSKOWANIE Jeśli Femp = 34,11 > 5,32 = F kryt , zatem H0 odrzucamy. Matematyka i statystyka matematyczna dla rolników w SGGW Independent variable: plon ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------Intercept 18,6429 0,335618 55,5478 0,0000 Slope -0,0809524 0,0138832 -5,83095 0,0004 ----------------------------------------------------------------------------- Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 0,550476 1 0,550476 34,00 0,0004 Residual 0,129524 8 0,0161905 ----------------------------------------------------------------------------Total (Corr.) 0,68 9 Correlation Coefficient = -0,899735 R-squared = 80,9524 percent Standard Error of Est. = 0,127242 The StatAdvisor --------------The output shows the results of fitting a linear model to describe the relationship between skrobia and plon. The equation of the fitted model is skrobia = 18,6429 - 0,0809524*plon Anna Rajfura, KDiB Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Plot of Fitted Model 17,1 skrobia 16,9 16,7 16,5 16,3 20 22 24 26 plon 28 30 Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Interpretacja współczynnika regresji b1 prosta regresji y = b 0 + b1x, Jeśli wartość cechy X wzrośnie o jednostkę (w jednostkach cechy X), to wartość cechy Y zmieni się o | b1 | jednostek (w jednostkach cechy Y), a dokładniej.: • wzrośnie, gdy b1 > 0; • zmaleje, gdy b1 < 0. Interpretacja współczynnika regresji b1 w przykładzie: prosta regresji y = 18,64 – 0,081x, b1 = -0, 08. Jeśli plon z bulw ziemniaka wzrośnie o 1 kg, to zawartość skrobi zmniejszy się o 0,08%. Matematyka i statystyka matematyczna dla rolników w SGGW Anna Rajfura, KDiB Współczynnik determinacji d: d = r2 · 100%, r – współczynnik korelacji, Interpretacja współczynnika determinacji: współczynnik d oznacza, jaka część zmienności cechy Y jest objaśniona (wytłumaczona) zmiennością cechy X. Obliczanie i interpretacja współczynnika determinacji d w przykładzie: r = - 0,9, to d = 0,81· 100% = 81% W 81% zmienność zawartości skrobi jest wytłumaczona zmiennością plonu, natomiast 19% zmienności zawartości skrobi nie jest wytłumaczona zmiennością plonu. Matematyka i statystyka matematyczna dla rolników w SGGW Independent variable: plon ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------Intercept 18,6429 0,335618 55,5478 0,0000 Slope -0,0809524 0,0138832 -5,83095 0,0004 ----------------------------------------------------------------------------- Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 0,550476 1 0,550476 34,00 0,0004 Residual 0,129524 8 0,0161905 ----------------------------------------------------------------------------Total (Corr.) 0,68 9 Correlation Coefficient = -0,899735 R-squared = 80,9524 percent Standard Error of Est. = 0,127242 The StatAdvisor --------------The output shows the results of fitting a linear model to describe the relationship between skrobia and plon. The equation of the fitted model is skrobia = 18,6429 - 0,0809524*plon Praktyczne warunki ustalania cechy zaleŜnej i niezaleŜnej... Wykorzystanie prostej regresji... Anna Rajfura, KDiB