listopad 2014 - miary rozrzutu danych

Data ostatniej modyfikacji:
2015-01-1
Miniwykład o miarach rozrzutu danych

Poniżej przedstawiamy zdjęcie z pierwszego wykładu w języku polskim po II wojnie światowej wygłoszonego na Politechnice Wrocławskiej przez prof. Kazimierza Idaszewskiego. Miał on miejsce (jak widać na fotografii) 15 listopada 1945 roku. Ta inauguracja roku akademickiego 1945/1946 w powojennym Wrocławiu została upamiętniona obchodzonym co rok właśnie 15 listopada Świętem Nauki Wrocławskiej.

 

Z kolei dla polskiej powojennej matematyki duże znaczenie miał Zjazd Matematyczny, który odbył się we Wrocławiu w dniach 12-14 grudnia 1946 roku. Jego uczestników przedstawia słynna karykatura autorstwa prof. Leona Jeśmanowicza z UMK w Toruniu (więcej na ten temat można przeczytać na Portalu tutaj). Zostali na niej sportretowani m.in. wybitni matematycy, którzy swoje życie po II wojnie światowej związali z Wrocławiem: Hugo Steinhaus, Stanisław Hartman czy Edward Marczewski.

Oczywiście karykatura posługuje się swoistą konwencją, przejaskrawiając charakterystyczne cechy postaci. Zdarza się, że osoby niskie są ukazane jako niższe niż w rzeczywistości, a osobom wysokim dodaje się wzrostu. Gdybyśmy porównali powyższą karykaturę ze ze zdjęciem wykonanym na Politechnice Wrocławskiej, naszą uwagę zwróci zapewne pewien szczegół związany właśnie ze wzrostem osób na obu ilustracjach. Zakładając, że górne krawędzie tablic są umieszczone na tej samej wysokości nad podłożem, na którym stoją przedstawione osoby, stwierdzimy od razu, że wzrost osób z karykatury jest bardziej zróżnicowany niż tych ze zdjęcia. Podczas gdy sfotografowane osoby różnią się co najwyżej o głowę, na karykaturze najniżsi sięgają najwyższym ledwie do pasa (np. Marceli Stark Romanowi Sikorskiemu). Na pierwszy rzut oka widać, że rozrzut wzrostów osób na zdjęciu jest znacznie mniejszy niż osób z karykatury.

Mając do czynienia z zestawem danych, często chcemy określić, jak bardzo różnią się one między sobą. Inaczej mówiąc, chcemy wiedzieć jaka jest zmienność danych lub inaczej rozrzut, albo jeszcze inaczej - jakie jest ich rozproszenie.

Zapewne wielu z Was przychodzi w tym momencie do głowy pomysł, aby obliczyć różnicę między największą i najmniejszą obserwacją. Taka wielkość w statystyce nazywa się rozstępem danych. Niestety, jako miara rozproszenia ma on poważną wadę. Ilustruje to poniższy przykład.

Przykład 1. Czterech kolegów z klasy III gimnazjum gra po lekcjach w piłkę na szkolnym boisku. Ich wzrosty wynoszą: 1,72 m, 1,61 m, 1,7 m i 1,65 m. Rozstęp wzrostu wynosi w tym wypadku 0,11 m. Po pewnym czasie na boisko przychodzi młodszy brat jednego z graczy - uczeń IV klasy podstawówki - i prosi, by mógł z nimi pograć, na co koledzy zgadzają się. Nowy chłopiec ma 1,44 m. Przybycie młodszego kolegi (znacznie niższego od pozostałych) spowodowało więc bardzo duże zwiększenie rozstępu wzrostu chłopców na boisku. Rozstęp wynosi teraz 0,28 m, czyli jest prawie trzy razy większy niż wcześniej. Mamy jednak przekonanie, że sytuacja na boisku nie zmieniła się aż tak znacząco (tym bardziej gdyby chłopców na początku było np. 50).

Taki wynik, który bardzo różni się od pozostałych, statystyk nazwie obserwacją odstającą. Pojawianie się obserwacji odstających ma duży wpływ na rozstęp danych. Potrzebna jest wobec tego wielkość, która również mierzy rozproszenie danych, ale nie zmienia się tak łatwo pod wpływem obserwacji odstających. Taką miarą rozproszenia jest wielkość zwana wariancją. Jeśli kolejne obserwacje oznaczymy jako x1, x2, ..., xn, to wariancję tego zestawu oznaczamy jako s2(x1, ..., xn) i obliczamy w następujący sposób:

s2(x1, ..., xn) = $\frac{1}{n}[(x_1-\overline{x})^2+(x_2-\overline{x})^2+\dots+(x_n-\overline{x})^2]$, gdzie $\overline{x}$ oznacza średnią arytmetyczną liczb x1, x2, ..., xn.

Przykład 2. Aby obliczyć wariancję wzrostu chłopców z przykładu 1, najpierw obliczamy średnią arytmetyczną ich wzrostów. Początkowo wynosiła ona 1,67 m, a po przybyciu nowego gracza 1,62 m. Zatem początkowo wariancja wzrostu wynosiła $\frac{1}{4}$[(1,72-1,67)2 + (1,61-1,67)2 + (1,7-1,67)2 + (1,65-1,67)2] = 0,00185, a później $\frac{1}{5}$[(1,72-1,62)2 + (1,61-1,62)2 + (1,7-1,62)2 + (1,65-1,62)2 + (1,44-1,62)2] = 0,009944. Biorąc pod uwagę skalę danych (wzrosty były wyrażone liczbami pomiędzy 1 a 2), różnica wariancji jest znikoma.

Jeśli przyjrzymy się definicji wariancji, zobaczymy, że mierzy ona średnie odchylenie kwadratowe (tzn. wyrażone przez kwadraty odległości) obserwacji od ich wartości średniej. Zatem w powyższym przykładzie ostateczne wyniki są podane... w metrach kwadratowych. To kojarzy się raczej z powierzchnią figury płaskiej, a nie z pomiarem wzrostu. Właśnie po to, żeby wyrazić rozproszenie danych w tych samych jednostkach, w jakich są podane te dane, wprowadzono jeszcze inną wielkość, która również opisuje rozrzut danych. Jest nią odchylenie standardowe. Jeśli kolejne obserwacje wynoszą x1, x2, ..., xn, to odchylenie standardowe tego zestawu oznaczamy jako s(x1, ..., xn) i obliczamy jako piwrwiastek z wariancji, czyli

s(x1, ..., xn) =$\sqrt{s^2(x_1,\dots, x_n)}$.

Przykład 3. W przypadku chłopców na boisku odchylenie standardowe wzrostu wynosi w przybliżeniu początkowo 0,0430 m, a później 0,0997 m.

Wariancję zestawu danych można obliczyć także w inny sposób. Aby go łatwo opisać, wprowadzimy jeszcze jedno oznaczenie. Niech $\overline{x^2}=\frac{1}{n}({x_1}^2+{x_2}^2+ \dots + {x_n}^2)$, czyli jest to średnia kwadratów obserwacji. Wówczas s2(x1, ..., xn) = $\overline{x^2}-\overline{x}^2$. W tym zapisie należy zwrócić baczną uwagę, czy dwójka w indeksie górnym jest pod kreską, czy nie (za pierwszym razem jest to średnia kwadratów liczb x1, ..., xn, a za drugim - kwadrat średniej tych liczb).

Wariancja i odchylenie standardowe mają kilka ciekawych własności, które można nietrudno udowodnić.

  • Dodanie do wszystkich obserwacji tej samej liczby nie zmienia wariancji ani odchylenia standardowego (bo przy dodawaniu wszystkie obserwacje przesuwają się o tyle samo na osi liczbowej, ale odległości między nimi nie zmieniają się).
  • Pomnożenie wszystkich obserwacji przez tę samą liczbę różną od zera powoduje pomnożenie wariancji przez kwadrat tej liczby, a odchylenia standardowego przez wartość bezwzględną tej liczby (bo przy mnożeniu przez jakąś liczbę odległości między danymi na osi zmieniają się tyle razy, ile wynosi ta liczba z pominięciem znaku, a znak tej liczby wskazuje, czy same dane dodatkowo nie zmieniają znaku).

Wariancja i odchylenie standardowe wraz ze średnią i medianą (o których była mowa poprzednio) są jednymi z podstawowych wielkości, jakimi opisuje się w statystyce zbiory danych.

Zadania dla GIM

Zad. 1. Oblicz wariancję następującego zestawu danych: 1,4; 2,8; 5,3; 3,8; 1,2; 10,3; 14,1; 6,8; 5,1; 3,2. Podaj dokładny wynik.

Zad. 2. W badaniach na temat posługiwania się przez młodzież telefonami komórkowymi przeprowadzono anonimową ankietę wśród uczniów pewnej klasy I gimnazjum. Spytano ich, którym z kolei w życiu jest telefon komórkowy, jakim się aktualnie posługują. Dla dziewięciorga uczniów używany aparat był pierwszym w życiu, dla ośmiorga był to drugi aparat, dla siedmiorga - trzeci, a dla jednego ucznia - czwarty. Ile wynosi wariancja liczby aparatów telefonicznych, jakie posiadali w swoim życiu uczniowie tej klasy?

Zad. 3. Suma kwadratów pewnej liczby obserwacji wynosi 156,4, a średnia tych obserwacji wynosi 3,2. Dodanie do zestawu jednej obserwacji równej 9,5 spowodowało zwiększenie średniej o 0,7. Ile wynosi wariancja powiększonego zestawu  danych?

Zadania dla LO

Zad. 1. Udowodnij, że dla dowolnych liczb x1, x2, ..., xn wariancja tego zestawu jest równa $\overline{x^2}-\overline{x}^2$.

Zad. 2. Udowodnij, że odchylenie standardowe obliczone na podstawie tylko dwóch różnych obserwacji jest połową odległości na osi liczbowej między nimi.

Zad. 3. Udowodnij, że wariancja obliczona na podstawie n obserwacji, spośród których k jest równych 1, a n-k jest równych 0, wynosi p(1-p), gdzie p =$\frac{k}{n}$.

 

Wyniki: 
Wyniki w kategorii GIM

Z listopadowymi zadaniami najlepiej poradzili sobie, otrzymując po trzy punkty:

  • Aleksandra Domagała z G 23 we Wrocławiu,
  • Mieszko Baszczak z SP 301 w Warszawie,

Rezultat gorszy o włos tj. 2,5 punktu uzyskały:

  • Kaja Grabowska z G 2 w Wołowie,
  • Joanna Lisiowska z Katolickiego G w Warszawie.

Natomiast Kacper Toczek z G 2 w Wołowie uzyskał 2 punkty.

Pozostali uczestnicy w tej kategorii nie otrzymali punktów.

Tym samym po dwóch miesiącach Ligi z Analizy Danych prowadzi Aleksandra Domagała (I miejsce) przed Mieszkiem Baszczakiem, Kają Grabowską i Joanną Lisiowską (ex aequo II miejsce) oraz Kacprem Toczkiem (III miejsce).

Wyniki w kategorii LO

W edycji listopadowej Ligi z Analizy danych 3 punkty przyznano:

  • Darii Bumażnik z II LO w Jeleniej Górze,
  • Tomaszowi Stempniakowi z I LO w Ostrowie Wielkopolskim.

Pozostali uczestnicy w tej kategorii nie uzyskali punktów.

Tym samym po dwóch miesiącach prowadzi Tomasz Stępniak (I miejsce) przed Darią Bumażnik (II miejsce) i Krzysztofem Danielakiem (III miejsce).

 

Odpowiedzi: 
Odpowiedzi dla GIM

Zad. 1. Wariancja podanego zbioru danych wynosi 14,956.

Zad. 2. Wariancja liczby aparatów telefonicznych, jakie posiadali w swoim życiu uczniowie tej klasy, wyniosła 0,8.

Zad. 3. Oznaczymy przez x1, x2, ..., xn dane obserwacje. Niech S1 = x1+x2+...+xn i S2 = x12+x22+...+xn2. Wówczas warunki podane w zadaniu można zapisać jako:
[tex]s_2=156,4; \qquad \frac{s_1}{n}=3,2; \qquad \frac{s_1+9,5}{n+1}=3,9.[/tex]
Przekształcając trzecie równanie do postaci S1/n = 3,9 - 5,6/n i wstawiając drugie równanie do trzeciego, otrzymujemy n=8. Wobec tego po dodaniu obserwacji równej 9,5 średnia kwadratów obserwacji jest równa (156,4+9,52)/9 = 27,40(5), a zatem nowa wariancja jest równa 27,41-3,92 = 12,19(5).

Odpowiedzi dla LO

Zad. 1. Przeprowadźmy obliczenia:
[tex]s^2(x_1,x_2,\dots,x_n)=\frac{1}{n}[(x_1-\overline{x})^2+(x_2-\overline{x})^2+\dots+(x_n-\overline{x})^2]=[/tex]

[tex]=\frac{1}{n}[{x_1}^2+2x_1\overline{x}+\overline{x}^2+{x_2}^2+2x_2\overline{x}+\overline{x}^2+\dots+{x_n}^2+2x_n\overline{x}+\overline{x}^2]=[/tex]

[tex]=\frac{1}{n}[({x_1}^2+{x_2}^2+\dots+{x_n}^2)-2\overline{x}(x_1+x_2+\dots+x_n)+n\overline{x}^2]=[/tex]

[tex]=\frac{1}{n}[({x_1}^2+{x_2}^2+\dots+{x_n}^2)-2n\overline{x}^2+n\overline{x}^2][/tex]

[tex]=\frac{1}{n}[({x_1}^2+{x_2}^2+\dots+{x_n}^2)-n\overline{x}^2]=[/tex]

[tex]=\frac{1}{n}({x_1}^2+{x_2}^2+\dots+{x_n}^2)-\overline{x}^2=\overline{x^2}-\overline{x}^2[/tex]

Zad. 2. Niech dane będą obserwacje a i b. Wówczas:
[tex]s^2(a, b)=\frac{a^2+b^2}{2}-\left(\frac{a+b}{2}\right)^2=\frac{2a^2+2b^2}{4}-\frac{a^2+2ab+b^2}{4}=\frac{a^2-2ab+b^2}{4}[/tex]
[tex]=\left(\frac{a-b}{2}\right)^2.[/tex] W takim razie [tex]s(a,b)=\sqrt{\left(\frac{a-b}{2}\right)^2}=\frac{|a-b|}{2}.[/tex]

Zad. 3. Ponieważ wszystkie obserwacje są równe 1 lub 0, kwadraty obserwacji są równe tym obserwacjom. Wobec tego
[tex]s^2(x_1,x_2,\dots,x_n)=\overline{x^2}-\overline{x}^2=\overline{x}-\overline{x}^2=\overline{x}(1-\overline{x}).[/tex] Pozostaje jeszcze zauważyć, że [tex]\overline{x}=\frac{k}{n}.[/tex]

 

Powrót na górę strony