W minionych odcinkach ligi poznaliśmy różne wielkości, które oblicza się na podstawie danych. W bieżącym odcinku spróbujemy podsumować wiedzę o wszystkich tych poznanych wcześniej wielkościach.
W tym miejscu wypada przedstawić pewne pojęcie, którego w tym kontekście używają statystycy. Samo słowo "statystyka" bywa rozumiane na różne sposoby. Niektórzy utożsamiają je z samym gromadzeniem danych. Statystyka to oczywiście również dziedzina matematyki zajmująca się zagadnieniami związanymi z analizą danych w oparciu o metody rachunku prawdopodobieństwa. Jednak dla samego statystyka - czyli matematyka specjalizującego się w statystyce - słowo to ma jeszcze jedno znaczenia. Statystyką nazywa się każdą wielkość obliczoną na podstawie danych.
Do tej pory poznaliśmy statystyki, które służą do poznania struktury zbioru danych i jego opisu. Te statystyki nazywa się czasem, dla podkreślenia ich zastosowania właśnie do opisu zbioru danych, statystykami opisowymi.
Statystyki opisowe zazwyczaj dzielimy na dwie grupy. Są to tzw. miary klasyczne rozkładu danych i miary pozycyjne rozkładu danych.
Formalne zdefiniowanie, czym są klasyczne miary rozkładu danych, jest trudne. Można jednak powiedzieć, że są to takie miary, na które wpływ ma zawsze każdy element zbioru danych tzn. jeśli zmienimy wartość jednego jego elementu, to miara ta ulega zmianie. Do takich miar należą średnia, wariancja i odchylenie standardowe.
Łatwiej jest wysłowić, czym są pozycyjne miary rozkładu danych. Są to takie miary, że zmiana jednej z obserwacji niekoniecznie musi prowadzić do zmiany ich wartości. Można też powiedzieć, że do wyznaczenia pozycyjnych miar rozkładu najpierw porządkujemy obserwacje. Tak jest choćby w wypadku mediany. Tak jest też z kwartylami (a zatem i z rozstępem międzykwartylowym). Minimum i maksimum obserwacji także są miarami pozycyjnymi (a co za tym idzie także rozstęp). Oczywiście nie należy podanej tu definicji interpretować w ten sposób, że jedna zmiana jednej obserwacji nigdy nie spowoduje zmiany wartości miary pozycyjnej. Dla przykładu zmiana największej obserwacji na jeszcze większą od wszystkich dotychczasowych, powoduje zmianę maksimum. To jednak, czy zachodzi zmiana wartości miarym czy nie, zależy właśnie od pozycji, jaką ta zmieniona obserwacja zajmuje pośró danych.
Do wyznaczenia współczynnika skośności, który również poznaliśmy, używamy zarówno średniej i odchylenia standardowego, które są klasycznymi miarami rozkładu, jak i mediany, która jest miarą pozycyjną. Zwróćmy jednak uwagę, że współczynnik skośności jest miarą klasyczną. Zmiana tylko jednej obserwacji może powodować dużą zmianę współczynnika skośności, o czym mogli się przekonać licealiści, rozwiązując jedno z zadań z grudniowego etapu ligi.
W tym miejscu warto powtórzyć, dlaczego warto się posługiwać zarówno klasycznymi jak i pozycyjnymi miarami rozkładu danych. Miary pozycyjne z reguły wykazują odporność na obserwacje odstające tzn. nie zmieniają się, jeśli do zbioru danych dołożymy jakąś obserwację znacznie większą lub znacznie mniejszą od wszystkich pozostałych. Wprost odwrotnie zachowują się miary klasyczne. Z tego wynika, że jedne o drugie miary niosą ze sobą nieco inne informacje.
Oprócz przedstawionego podziału możemy też rozważać, jak to czyniliśmy do tej pory, podział ze względu na to, o czym informację niesie dana statystyka opisowa. Mamy tu miary położenia danych, miary ich rozrzutu oraz miary asymetrii.
Miary położenia informują nas, mówiąc w uproszczeniu, jak duże są dane czy też niego bardziej profesjonalnie: jaki jest rząd wielkości, o której dane gromadzimy. Należy tu wymienić średnią, medianę, kwartyle, minimum i maksimum (czyli wszystkie statystyki wchodzące w skład piątki Tukeya).
Z kolei miary rozrzutu informują nas, jak bardzo "rozległy" jest zbiór danych czy też jak bardzo obserwacje są rozproszone. Tutaj należy wymienić wariancję (a więc także odchylenie standardowe), rozstęp oraz rozstęp międzykwartylowy.
Do tej pory poznaliśmy jedną miarę asymetrii. Jest nią współczynnik skośności.
Zestawienie wszystkich poznanych miar wraz z uwzględnieniem różnych kryteriów podziału ilustruje poniższa tabela:
Miary klasyczne | Miary pozycyjne | |
Mary położenia | średnia | mediana, kwartyle, minimum, maksimum |
Miary rozrzutu | wariancja, odchylenie standardowe | rozstęp, rozstęp międzykwartylowy |
Miary asymetrii | współczynnik skośności |
Poznaliśmy też dwa wykresy używane w statystyce dla przedstawienia zbioru danych: histogram i wykres pudełkowy.
Zadaniem osoby analizującej zbiór danych jest, jakkolwiek górnolotnie to brzmi, zrozumienie struktury zbioru danych i wyciągnięcie wniosków o wielkości, którą te dane reprezentują. Tak jak w życiu często chcielibyśmy opisać jakiś przedmiot, podając jego wymiary, kolor czy inne właściwości, tak i zbiór danych chcielibyśmy opisać, tak aby w tym opisie zawrzeć informacje o zbiorze danych istotne z punktu widzenia osoby, która zajmuje się badaniem zjawiska, którego dane dotyczą. Dlatego właśnie przydaje się wiele miar rozkładu i warto jest rozumieć ich różnorodność.
Zad. 1. (2 punkty) Dla następującego zestawu danych: 17,9; 11,9; 13; 12,1; 7,5; 9,7; 15,8; 18,9; 13,3; 8,9; 16,3; 19,3; 14,7; 11,6; 13,1; 13,4; 21,9; 6,9; 10,8; 16,4; 29,1; 12,5; 22,1; 10,2; 8,9; 11,4; 13,4; 17,3; 20,5; 22,9; 12,3; 11,6 oblicz wszystkie statystyki dotychczas poznane i wymienione w tabeli powyżej.
Zad. 2. (1 punkt) Zbadano wzrost zawodników czterech drużyn siatkówki: A, B, C i D i narysowano dla nich histogramy:
W poniższej tabelce podano średnie i odchylenia standardowe wzrostu zawodników tych drużyn, ale w losowej kolejności:
Drużyna: | I | II | III | IV |
Średnia (cm) | 194 | 189 | 188 | 195 |
Odch. standardowe (cm) | 6,50 | 4,91 | 3,90 | 3,74 |
Dopasuj histogramy do danych w tabelce.
Zad. 1. (2 punkty) Wykonaj zadanie 1 dla gimnazjalistów.
Zad. 2. (1 punkt) Czasem piątkę Tukeya definiuje się w inny sposób niż to opisano w miniwykładzie ze stycznia, zastępując pierwszy i trzeci kwartyl tzw. dolnym i górnym zawiasem. Dolny zawias definiuje się jako medianę z tych obserwacji, które są niewiększe od mediany. Podobnie górny zawias definiujemy jako medianę próbkową z tych obserwacji, które są niemniejsze od mediany. Jaki warunek musi spełniać liczba obserwacji, aby dolny zawias pokrywał się z pierwszym kwartylem a górny zawias z trzecim kwartylem?
Za rozwiązanie zadań z rundy marcowej Aleksandra Domagała i Joanna Lisiowska otrzymują komplet punktów, natomiast Mieszko Baszczak i Kacper Toczek nieznacznie ustępują paniom, otrzymując 2,5 punktu. Wobec tego w klasyfikacji generalnej wciąż prowadzi Joanna Lisiowska a na dwóch kolejnych miejscach odpowiednio Aleksandra Domagała i Mieszko Baszczak.
Uczestnicy, którzy nadesłali rozwiązania, nie ustrzegli się niedopatrzenia w zadaniu 2, wobec czego otrzymują 2,5 punktu. Czołówka klasyfikacji generalnej pozostaje bez zmian: Tomasz Stępniak - I miejsce, Daria Bumażnik - II miejsce, Krzysztof Danielak - III miejsce.
Zad. 1.
średnia: 14,55
mediana: 13,2
wariancja: 24 151/320 = 24,471875
odchylenie standardowe: √24,471875 ≈ 4,9470
współczynnik skośności: ≈ 0,2729
pierwszy kwartyl: 11,55
trzeci kwartyl: 17,45
rozstęp międzykwartylowy: 5,9
minimum: 6,9
maksimum: 29,1
rozstęp: 22,2
Zad. 2. Analizując histogramy, możemy powiedzieć, że w druzynach C i D średnia wzrostu zawodników jest wyraźnie mniejsza niż średnia wzrostu zawodników w drużynacj A i B. Jednocześnie jeśli rozważamy drużyny C i D, to wariancja wzrostu zawodników jest większa w drużynie C, natomiast gdy rozważamy druzyny A i B, wariancja wzrostu zawodników jest większa w drużynie B. Wobec tego I to druzyna B, II - drużyna C, III - drużyna B zaś IV - drużyna A.
Zad. 1. Odpowiedź jak w zadaniu 1 dla gimnazjalistów.
Zad. 2. Niech x1, x2, …, xn będą obserwacjami uporządkowanymi w od najmniejszej do największej. Należy rozpatrzyć cztery przypadki ze względu na liczbę obserwacji: n = 4m, n = 4m+1, n = 4m+2 i n = 4m+3 dla pewnej liczby naturalnej m.
1. n = 4m
Ponieważ [tex]\frac{m}{4m}=\frac{1}{4}[/tex] i [tex]\frac{3m}{4m}=\frac{3}{4}[/tex], więc q1 = xm+1 i q3 = x3m+1. Jednocześnie dolny zawias jest równy xm+1 a górny zawias x3m+1.
2. n = 4m+1
Ponieważ [tex]\frac{m}{4m+1}<\frac{1}{4}<\frac{m+1}{4m+1}[/tex] i [tex]\frac{3m}{4m+1}<\frac{3}{4}<\frac{3m+1}{4m+1}[/tex], więc q1 = ¾xm+1+¼xm+2 i q3 = ¼x3m+1+¾x3m+2. Dolny zawias jest równy jak poprzednio xm+1 a górny zawias x3m+1.
3. n = 4m+2
W tym przypadku [tex]\frac{m}{4m+2}<\frac{1}{4}<\frac{m+1}{4m+2}[/tex] i
[tex]\frac{3m+1}{4m+2}<\frac{3}{4}<\frac{3m+2}{4m+2}[/tex], więc q1 = ½xm+1+½xm+2 i q3 = ½x3m+1+½x3m+2. Dolny i górny zawias są równe ½xm+1+½xm+2 i ½x3m+1+½x3m+2.
4. n = 4m+4
Jako że [tex]\frac{m}{4m+3}<\frac{1}{4}<\frac{m+1}{4m+3}[/tex] i
[tex]\frac{3m+2}{4m+3}<\frac{3}{4}<\frac{3m+3}{4m+3}[/tex], więc q1 = ¼xm+1+¾xm+2 i q3 = ¾x3m+2+¼x3m+3. Dolny zawias jest równy jak poprzednio ½xm+1+½xm+2 a górny zawias ½x3m+1+½x3m+2.
Z powyższych rozważań wynika, że zawiasy pokrywają się z kwantylami wtedy i tylko wtedy, gdy liczba obserwacji jest nieparzysta.