marzec 2017 - mediana i średnia ucięta

Data ostatniej modyfikacji:
2017-04-4
Miniwykład o medianie i średniej uciętej

Tekst został napisany w oparciu o arkusz kalkulacyjny MS Excel 2013. Inne wersje Excela mogą się nieznacznie różnić od prezentowanej.

Wyobraźmy sobie szkolny turniej koszykówki, w którym występują drużyny złożone z chłopców z klas szóstych szkoły podstawowej, przy czym wprowadzono zasadę, że w drużynie mogą też występować ojcowie, z tym że w danym momencie gry w danej drużynie może być tylko jedna dorosła osoba na boisku. Załóżmy, że w pewnym momencie meczu w jednej z drużyn na boisku byli sami tylko szóstoklasiści a ich wzrost wynosił: 152, 153, 156, 157 i 158 cm. Nietrudno obliczyć, że średnia wzrostu zawodników z tej drużyny będących na boisku wynosiła 155,2 cm. Kiedy jednak dokonano zmiany i zamiast Adriana mierzącego 153 cm na boisko wszedł tata Adriana, który ma 178 cm wzrostu, średnia wzrostu zawodników tej drużyny wyniosła aż 159,2 cm.

Niewątpliwie posiadanie na boisku wyższego zawodnika jest w koszykówce sporym atutem. Moglibyśmy się jednak zastanawiać, czy jeśli umiejętności tego wysokiego zawodnika są porównywalne do umiejętności pozostałych zawodników (tata Adriana nie gra zbyt dobrze w koszykówkę), to same tylko dodatkowe centymetry stanowią tak duży atut dla drużyny. Wydaje się, że lepiej by było, gdyby trochę tych dodatkowych centymetrów miał każdy z zawodników niż wszystkie dodatkowe centymetry tylko jeden z nich. Gdybyśmy zestawili wspomnianą drużynę (wraz z tatą Adriana na boisku) z inną drużyną, której zawodnicy mierzą 156, 157, 160, 161 i 162 cm, stwierdzilibyśmy pewnie, że druga drużyna dysponuje lepszymi warunkami fizycznymi.

Często, starając się wyobrazić sobie jakiś zbiór danych, oprócz jego liczności podajemy średnią arytmetyczną zaobserwowanych w nim wartości liczbowych. Intuicyjnie czujemy, że takie postępowanie pozwala nam zyskać wyobrażenie o tym, co zaobserwowano. Matematycy mają nawet kilka uzasadnień, dlaczego zbiór danych daje się niejednokrotnie dobrze opisać za pomocą średniej. Przedstawiony powyżej przykład pokazuje jednak pewną niewątpliwą wadę średniej: każda obserwacja ma silny wpływ na średnią. Jeśli w zbiorze danych pojawi się obserwacja znacznie różniąca się od pozostałych, "ciągnie" ku sobie średnią. Tę własność średniej określa się fachowym językiem jako brak odporności średniej na obserwacje odstające.

Co zatem powinniśmy zrobić, jeśli w naszym zbiorze danych znajdują się takie obserwacje odstające i na skutek ich obecności średnia może dawać mylny obraz o tym, co zawiera zbiór danych?

Jedną z możliwości jest posłużenie się medianą. O medianie wspominaliśmy już przed miesiącem. Mediana jest wartością środkową w zbiorze danych. Aby ją wyznaczyć, porządkujemy obserwacje w kolejności od najmniejszej do największej. Jeśli mamy nieparzystą liczbę obserwacji, to medianą jest obserwacja znajdująca się w samym środku uporządkowanych obserwacji. Jeśli liczba obserwacji jest parzysta, medianą będziemy nazywali średnią spośród dwóch obserwacji znajdujących się w środku zbioru danych po uporządkowaniu. Jeśli np. zbiór danych będzie liczył 21 obserwacji, to medianą będzie 11. obserwacja w kolejności, jeśli natomiast zbiór danych będzie liczył 22 obserwacje, to medianą nazwiemy średnią obserwacji 11. i 12.

Ogólnie można powiedzieć, że jeśli zbiór danych liczy 2k+1 obserwacji, to medianą nazwiemy obserwację na pozycji k+1 po uporządkowaniu danych, jeśli zaś zbiór danych liczy 2k obserwacji, to medianą będziemy określali średnią obserwacji na pozycjach k i k+1 po uporządkowaniu danych.

Zwróćmy uwagę, że dla mediany nieistotne jest, jaką wartość przyjmie skrajna obserwacja w zbiorze. O medianie decyduje tylko kolejność obserwacji i wartości tych obserwacji, które służą bezpośrednio do jej obliczenia. W przykładzie z drużyną koszykarską mediana wzrostu zawodników na boisku zarówno z Adrianem jak i z tatą Adriana wynosi tyle samo: 156 cm.Powiemy zatem, że mediana jest odporna na występowanieobserwacji odstających.

W Excelu do obliczenia mediany najprościej jest użyć funkcji MEDIANA, w której podajemy zakres komórek, na podstawie których mediana ma być obliczona. (W poprzednim miniwykładzie poznaliśmy też inne sposoby wyznaczania mediany: jako drugi kwartyl i pięćdziesiąty centyl).

A czy można jednak posłużyć się średnią w taki sposób, by uniknąć "przyciągania" jej przez skrajne obserwacje, które niekoniecznie powinny mieć wpływ na nasze wyobrażenie o całym zbiorze danych? Można oczywiście usunąć z danych te obserwacje, które zaburzają strukturę, ale wymagałoby to najpierw identyfikacji takich obserwacji. No i oczywiście pozostaje jeszcze pytanie, czy takie postępowanie jest "sprawiedliwe", czy też może bardzo duże bądź bardzo małe obserwacje nie są w ten sposób dyskryminowane.

W sytuacji, gdy spodziewamy się, że średnia może nas zawieść z uwagi na obecność w zbiorze danych obserwacji odstających, możemy posłużyć się tzw. średnią uciętą. Jest to średnia obliczona na podstawie zbioru danych, z którego usunięto tyle samo obserwacji skrajnych z każdej strony. Oczywiście możemy przyjąć, że usuwamy np. po pięć obserwacji z każdej strony i wówczas obliczamy średnią, ale tak prosta zasada ma jedną zasadniczą wadę: inne znaczenie ma usunięcie dziesięciu w sumie obserwacji ze zbioru składającego się z 20 elementów, a inne, gdy zbiór składa się ze 100 elementów. To, ile obserwacji usuwamy powinno mieć związek z licznością danych. Jak to sobie zapewnić?

Załóżmy, że dla danego zbioru danych chcemy obliczyć średnią uciętą do 90% obserwacji. Oznacza to, że odrzucimy po 5% obserwacji z każdej strony. Nasze obliczenia dla wygody rozpoczniemy od obliczenia 5. i 95. centyla (jak to zrobić, wyjaśniliśmy w poprzednim odcinku ligi). Załóżmy, że nasze dane znajdują się w komórkach od A1 do A100, natomiast obliczone przez nas centyle znajdują się w komórkach B1 (5. centyl) i B2 (95. centyl). Do obliczenia średniej uciętej wykorzystamy funkcję ŚREDNIA.WARUNKÓW. Jako jej pierwszy argument podajemy zakres komórek, na podstawie których mają być prowadzone obliczenia, natomiast kolejnymi argumentami są warunki, jakie muszą być spełnione, by dana obserwacja została wzięta pod uwagę przy obliczaniu średniej uciętej. W opisanym przypadku użyjemy następującej formuły: ŚREDNIA.WARUNKÓW(A1:A100;A1:A100;">"&B1;A1:A100;"<"&B2). Argumenty A1:A100;">"&B1 i A1:A100;"<"&B2 oznaczają, że obliczamy średnią wartości tylko z tych komórek z zakresu A1:A100, których zawartość jest większa od zawartości komówki B1 (u nas: 5. centyl) i mniejsza od zawartości komórki B2 (u nas: 95. centyl).

Posłużenie się średnią uciętą w sposób powyżej opisany w pewnym stopniu uwalnia nas od konieczności zastanawiania się, czy daną obserwację skrajną należy potraktować jako nietypową i usunąć ją ze zbioru danych przy obliczaniu średniej, czy nie. Daje nam też kontrolę nad tym, czy nie usuwamy zbyt dużo obserwacji. Oczywiście wrażliwą kwestią pozostaje to, z jak dużej części danych możemy zrezygnować. Każdy czytelnik na pewno doskonale zdaje sobie sprawę z faktu, że im więcej obserwacji pozostawimy, tym średnia obliczona na ich podstawie będzie dawała jaśniejszy obraz zbioru danych, ale z drugiej strony jeśli w zbiorze danych są obserwacje silnie "przyciągające" średnią, a my ich nie usuniemy, zysku nie będzie. posłużenie się średnią uciętą nie gwarantuje, że w ten sposób zyskamy pełniejszą wiedzę o danych, jakie analizujemy, ale jest to niewątpliwie kolejne narzędzie, które warto poznać

Zadania

Zestawy danych do rozwiązania zadań znajdują się w tym pliku.

Zad. 1. (1 punkt) Oblicz medianę i średnią uciętą do 15% obserwacji dla danych zawartych w odpowiednim arkuszu.

Zad. 2. (1,5 punktu) Wyznacz (np. metodą prób i błędów), do jakiej części wszystkich obserwacji ma być ucięta średnia, by różnica średniej i mediany dla danych w odpowiednim arkuszu nie przekraczała 10% mediany tych danych. W wyznaczaniu odpowiedniej części zbioru danych wystarczy się ograniczyć do procentów wyrażonych liczbami całkowitymi.

Zad. 3. (0,5 punktu) W bieżącym odcinku ligi poznaliśmy średnią uciętą. Dlaczego nie rozważa się zdefiniowanej w analogiczny sposób mediany uciętej?

Jako rozwiązanie prześlij arkusz kalkulacyjny z rozwiązaniami zadań 1 i 2 oraz odpowiedź na pytanie w zadaniu 3.

 

Odpowiedzi: 

Rozwiązania zadań 1 i 2 znajdują się w tym pliku.

Zad. 3.  Jeśli przy obliczaniu mediany pominiemy tę samą liczbę skrajnych obserwacji najmniejszych i największych, mediana nie ulegnie zmianie, a zatem mediana ucięta zdefiniowana analogicznie do średniej uciętej byłaby po prostu medianą.

 

Powrót na górę strony