W marcowym odcinku ligi zastanawialiśmy się, jak wyznaczyć liczbę, która będzie dawała nam wyobrażenie o elementach zbioru danych. Uznaliśmy, że jedną z takich liczb jest średnia arytmetyczna, natomiast inny nasz wybór może paść na medianę. Zwróćmy jednak uwagę, że wyobrażenie, jakie zyskamy o danych na podstawie takiej jednej liczby, może być mocno niekompletne.
Przykład 1. Swego czasu Adam Małysz powiedział, że cały sekret jego wyników na skoczni narciarskiej tkwi w tym, by oddać dwa równe skoki. Wyobraźmy sobie, że porównujemy wyniki dwóch zawodników na konkursie skoków oddane na treningu i w konkursie (łącznie cztery skoki). Dla naszych rozważań skupmy się tylko na długości skoków (bez uwzględnienia not za styl). Skoki zostały oddane z tej samej belki startowej. Wyniki zawiera poniższa tabela:
Zawodnik | Trening, 1. skok |
Trening, 1. skok | Konkurs, 1. skok | Konkurs, 2. skok |
I | 128 | 124 | 122 | 118 |
II | 124 | 124 | 122 | 122 |
Średnia i mediana długości skoków pierwszego zawodnika wyniosły 123 m - tak samo jak drugiego zawodnika. Na tej podstawie można by przypuszczać, że obaj zawodnicy są w podobnej formie. Okazuje się jednak, że pierwszy zawodnik na treningu uzyskał zdecydowanie lepsze wyniki niż w seriach konkursowych. Mimo że w swoich wynikach z treningu prześcignął zawodnika pierwszego, ostatecznie zajął gorsze miejsce w konkursie.
Powyższy przykład pokazuje, że dla oceny zbioru danych oprócz średniego wyniku ważne jest też, jak wyniki są rozproszone.
W zależności od tego, jaką liczbę wybierzemy jako punkt odniesienia - średnią czy medianę - możemy badać rozproszenie danych wokół średniej bądź wokół mediany. Z pewnych względów w każdym z tych wypadków dokonujemy tego w nieco inny sposób.
Na potrzeby dalszych rachunków przyjmijmy następujące oznaczenia: niech zbiór danych, który rozważamy, liczy n elementów: x1, x2, ..., xn. Niech x oznacza średnią arytmetyczną liczb x1, x2, ..., xn, natomiast me(x) niech oznacza ich medianę.
Rozproszenie (rozrzut) danych wokół średniej mierzy wariancja. Wariancja liczb x1, x2, ..., xn wyraża się jako
1/n · [(x1-x)2 + (x2-x)2 + ... + (xn-x)2] .
Czasem zamiast dzielenia przez liczbę obserwacji n dokonuje się dzielenia przez n-1, a zatem wariancja bywa definiowana jako:
1/n-1 · [(x1-x)2 + (x2-x)2 + ... + (xn-x)2] .
Zwróćmy uwagę, że jeśli obliczalibyśmy np. wariancję wzrostu uczniów w klasie i wzrost ten wyrazilibyśmy w cm, to wariancja byłaby wyrażona w cm2! To może wydawać się dziwne, bo przecież cm2 to jednostka powierzchni. Wobec tego zamiast wariancji bywa rozważane odchylenie standardowe czyli pierwiastek kwadratowy z wariancji. W ten sposób rozrzut danych wokół średniej jest opisany w tych samych jednostkach, w których wyrażone są dane.
Z kolei jeśli miarą położenia danych jest dla nas mediana, to możemy rozważać odchylenie średnie czyli wielkość mierzącą rozrzut danych wokół mediany, które wyraża się jako:
1/n · [|x1-me(x)| + |x2-me(x)|+ ... + |xn-me(x)|] .
Przy odchyleniu średnim nie mamy już problemu z jednostką, ponieważ jest ono wyrażone w takiej jednostce jak dane.
Przykład 2. Obliczny wariancję, odchylenie standardowe i odchylenie średnie długości skoków obu skoczków narciarskich z przykładu 1. Przypomnijmy, że średnie i mediany w przypadku obu zawodników wynoszą 123 m. Poprzestaniemy na tej wersji wariancji i odchylenia standardowego, w których dokonujemy dzielenia przez 4, nie przez 3.
Wariancja pierwszego zawodnika:
¼·[(128-123)2 + (124-123)2 + (122-123)2 + (118-123)2] =
= ¼·[52 + 12 + (-1)2 + (-5)2] = ¼·[25+1+1+25] = ¼·52 = 13 m2
Wariancja drugiego zawodnika:
¼·[(124-123)2 + (124-123)2 + (122-123)2 + (122-123)2] =
= ¼·[12+12+(-1)2+(-1)2] = ¼·[1+1+1+1] = ¼·4 = 1 m2
Odchylenie standardowe pierwszego zawodnika: √13 m
Odchylenie standardowe drugiego zawodnika: 1 m
Odchylenie średnie pierwszego zawodnika:
¼·[|128-123| + |124-123| + |122-123| + |118-123|] =
= ¼·[|5| + |1| + |-1| + |-5|] = ¼·[5+1+1+5] = ¼·12 = 3 m
Odchylenie średnie drugiego zawodnika:
¼·[|124-123| + |124-123| + |122-123| + |122-123|] =
= ¼·[|1| + |1| + |-1| + |-1|] = ¼·[1+1+1+1] = ¼·4 = 1 m
Wszystkie obliczone wielkości świadczą o tym, że długości skoków pierwszego zawodnika mają większy rozrzut.
Przypatrując się powyższym wzorom, można zadać kilka ciekawych pytań. Po pierwsze: dlaczego rozproszenie danych mierzyć w tak skomplikowany sposób? Wydaje się, że można zrobić to prościej, np. obliczając różnicę największej i najmniejszej obserwacji. Istotnie czasem tak się czyni i różnicę tę nazywamy rozstępem. Widzimy jednak, że rozstęp niesie ze sobą bardzo ograniczoną informację o danych. Na wartość rozstępu wpływa jedynie najmniejsza i największa obserwacja, natomiast rozstęp nie uwzględnia w ogóle, jak wyglądają pozostałe obserwacje - te, które nie są skrajne. Można by sobie wyobrazić, że skoczkowi narciarskiemu bardzo nie udał się jeden skok z czterech, podczas gdy drugiemu bardzo słabo wyszły aż trzy skoki z czerech. Jeśli tylko maksymalna i minimalna nota obu zawodników będą takie same, rozrzut jako różnica maksimum i minimum spośród obserwacji nie uwzględni różnicy między zawodnikami.
Drugie pytanie, jakie można zadać, to dlaczego przy obliczaniu wariancji bierze się kwadraty różnic, podczas gdy przy obliczaniu odchylenia średniego bierze się ich wartości bezwzględne. Jakkolwiek pytanie jest bardzo zasadne, w pełni poprawne uzasadnienie tego faktu wymaga wiedzy z zakresu matematyki akademickiej.
W Excelu do obliczenia wariancji służą funkcje WARIANCJA i WARIANCJA.POPUL. W pierwszej z nich odbywa się dzielenie przez n, w drugiej przez n-1. Jako argument podajemy w nich zakres komórek, w których zapisane są dane. Odchylenie standardowe jako pierwiastek z wariancji obliczamy z kolei za pomocą funkcji ODCH.STANDARDOWE lub ODCH.STANDARD.POPUL. W pierwszym przypadku pierwiastkujemy wariancję z dzieleniem przez n, w drugim - przez n-1. Z kolei odchylenie średnie obliczamy za pomocą funkcji ODCH.ŚREDNIE.
Na koniec przyjrzyjmy się dwóm histogramom sporządzonym na podstawie danych z tego pliku:
Nietrudno się domyślić, że zbiór danych, którego dotyczy niebieski histogram, ma większą średnią i medianę, natomiast w zbiorze danych, którego dotyczy czerwony histogram, z uwagi na większy rozrzut mamy większą wariancję i odchylenie średnie. Średnie, mediany, wariancje i odchylenia średnie dla obu zbiorów danych zawiera poniższa tabela:
Zbiór danych |
Średnia | Mediana | Wariancja | Odchylenie średnie |
I | 159,37 | 160 | 94,76 | 7,88 |
II | 180,59 | 181 | 24,24 | 3,95 |
Zad. 1. W odpowiednim arkuszu tego pliku znajdują się długości i szerokości płatka w pięćdziesięciu kwiatach irysa (w centymetrach). Zakładając, że płatki irysa są prostokątne (co jest bardzo zgrubnym założeniem), łatwo można przybliżyć ich powierzchnię. Co jest większe: wariancja tak obliczonej powierzchni płatków czy iloczyn wariancji długości i szerokości płatków? A jak będzie w wypadku odchylenia standardowego i odchylenia średniego? Przy obliczaniu wariancji i odchylenia standardowego możesz wykorzystać definicję z dzieleniem przez n lub przez n-1.
Zad. 2. Wprost z definicji widać, że zarówno wariancja jak i odchylenie średnie przyjmują zawsze wartości nieujemne. Jaki warunek muszą spełniać dane, aby każda z tych wielkości była równa 0?
Zad. 3. Skonstruuj zbiór danych liczący co najmniej 5 elementów, dla którego wariancja (z dzieleniem przez liczbę elementów tego zbioru) i odchylenie średnie będą miały taką samą wartość (z dokładnością do jednostki, która z natury rzeczy może się różnić).
Za rozwiązanie każdego z zadań można otrzymać 1 punkt. Jako rozwiązanie prześlij arkusz kalkulacyjny z rozwiązaniem zadań 1 i 3 oraz odpowiedź na pytanie w zadaniu 2.