maj 2015 - porównanie dwóch zbiorów danych | Wrocławski Portal Matematyczny

Miniwykład o porównywaniu dwóch zbiorów danych

Zastanówmy się nad następującym zdaniem: Kobiety są niższe od mężczyzn. Prawdopodobnie wszyscy zgodzimy się z jego słusznością. Gdyby jednak zapytać matematyka, czy uważa to zdanie za prawdziwe, z pewnością zapyta, jak należy rozumieć to zdanie. Jestem pewien, że takie samo pytanie postawiło sobie wielu czytelników.

No właśnie. Jak rozumieć porównanie dwóch wielkości, o których możemy powiedzieć, że są losowe? Gdybyśmy porównywali np. średnicę dwuzłotówki i średnicę pięciozłotówki, nie mielibyśmy z tym najmniejszych problemów, bo rozmiary obu tych monet są ściśle określone. Inaczej jest w wypadku wzrostu. Nie istnieje coś takiego jak wzorzec wzrostu mężczyzny czy wzorzec wzrostu kobiety, gdyż wzrost każdego człowieka wyróżnia go pośród innych ludzi. Mimo to mamy przekonanie, że również takie wielkości jak wzrost kobiet i wzrost mężczyzn da się porównywać. Przyjrzyjmy się bliżej temu zagadnieniu.

Zanim przystąpimy do rozważań matematycznych, musimy uczynić pewne istotne rozróżnienie. W tych rozważaniach naszym głównym celem nie jest porównanie wzrostu konkretnej kobiety i konkretnego mężczyzny. Chcielibyśmy móc orzec coś o wzroście wszystkich kobiet i wszystkich mężczyzn. Oczywiście dokona się to poprzez zmierzenie wzrostu pewnej liczby kobiety i pewnej liczby mężczyzn. Niemniej na podstawie danych o niewielkiej liczbie osób chcielibyśmy powiedzieć coś o wzroście osób obu płci w ogóle. Wymaga to oczywiście takiego wyboru osób do badania, aby ich wzrost odzwierciedlał wzrost wszystkich ludzi. Domyślamy się, że jeśli do badania zaprosimy koszykarki i dżokejów, to wyniki mogą być zupełnie inne od tych, jakie uzyskalibyśmy, pytając o wzrost przypadkowo spotkanych na ulicy przechodniów. Musimy więc wybrać do badania ludzi w sposób, jaki określilibyśmy umownie: losowy.

Jeśli jednak wybierzemy już osoby do badania i zanotujemy ich wzrost, to w jaki sposób dokonać porównania?

Na pewno pierwszym, co przyszło na myśl wielu czytelnikom, jest porównanie średnich arytmetycznych wzrostów mężczyzn i kobiet, na temat których zebraliśmy dane. Gdyby średnia wzrostów mężczyzn okazała się większa niż średnia wzrostów kobiet, to wówczas orzeklibyśmy, że kobiety są niższe niż mężczyźni.

Innym podobnym sposobem postępowania byłoby porównanie median wzrostów kobiet i mężczyzn. Ktoś może się nawet pokusić o narysowanie wykresów pudełkowych dla tych dwóch zbiorów danych i na tej podstawie je porównywać. Wszystkie te działania są w jakimś sensie uzasadnione. Statystycy postępują jednak nieco inaczej. Spróbujmy zatem przyjrzeć się temu problemowi okiem statystyka.

Przede wszystkim musimy powrócić do pytania postawionego na początku: w jakim sensie kobiety są niższe od mężczyzn? W jaki sposób w ścisłym języku matematycznym oddać nasze intuicyjne rozumienie tego porównania. Dla uproszczenia rozważań załóżmy, że wzrost każdego człowieka jest inny. Oczywiście jeśli będziemy mierzyli wzrost z pewną dokładnością (np. do 1 cm), to z pewnością jest szansa, że dwie osoby podadzą nam taki sam wzrost. Możemy się jednak umówić, że gdybyśmy wystarczająco dokładnie zmierzyli wzrost, wynik pomiaru dla każdego człowieka byłby inny (podobnie jak przyjmuje się, że nie ma dwóch takich samych płatków śniegu czy dwóch osób o takim samym układzie linii papilarnych). W tej sytuacji powiedzielibyśmy, że to, iż kobiety są niższe niż mężczyźni, oznacza, że prawdopodobieństwo, że losowo wybrana kobieta jest niższa od losowo wybranego mężczyzny, jest większe niż prawdopodobieństwo tego, że losowo wybrana kobieta jest wyższa od losowo wybranego mężczyzny.

Gdybyśmy wprowadzili następujące oznaczenia: K - wzrost losowo wybranej kobiety i M - wzrost losowo wybranego mężczyzny, to moglibyśmy napisać, że to, iż losowo wybrana kobieta jest niższa od losowo wybranego mężczyzny, jest bardziej prawdopodobne niż to, że losowo wybrana kobieta jest wyższa od losowo wybranego mężczyzny, oznacza, że P(K<M) > P(K>M).

Ponieważ zdarzenia "losowo wybrana kobieta jest niższa od losowo wybranego mężczyzny" i "losowo wybrana kobieta jest wyższa od losowo wybranego mężczyzny" nawzajem się wykluczają a razem dają wszystkie możliwości (gdyż wykluczyliśmy sytuację, że losowo wybrana kobieta ma wzrost taki sam jak losowo wybrany mężczyzna, ponieważ założyliśmy, że wszyscy ludzie różnią się wzrostem), to suma prawdopodobieństw tych zdarzeń wynosi 1 czyli P(K<M) + P(K>M) = 1. Wyznaczając z tego równania P(K>M) i wstawiając do wcześniejszej nierówności, otrzymujemy warunek P(K<M) > ½.

Podsumowując, powiemy, że kobiety są niższe niż mężczyźni, jeśli P(K<M) > ½.

Nie jesteśmy w stanie obliczyć tego prawdopodobieństwa, ponieważ nie jesteśmy w stanie sprawdzić wzrostu wszystkich ludzi. Jeśli jednak zebraliśmy dane od pewnej grupy ludzi (w której reprezentowane są zarówno kobiety jak i mężczyźni), to możemy obliczyć to prawdopodobieństwo w tej grupie. Jeśli grupa ta była wybrana losowo, to prawdopodobieństwo wyznaczone dla grupy powinno być zbliżone do prawdopodobieństwa dla wszystkich ludzi. Jasnym jest także, że im większa grupa, od której zbierzemy dane, tym nasze wnioskowanie będzie pewniejsze.

Jak więc obliczyć prawdopodobieństwo, że w wybranej grupie losowo wybrana kobieta jest niższa niż losowo wybrany mężczyzna? W tym celu należy porównać wszystkie możliwe pary utworzone z kobiety i mężczyzny. Jeśli liczbę kobiet oznaczymy przez k a liczbę mężczyzn przez m, to okazuje się, że takich par jest km. Następnie należy zliczyć te pary, w których wzrost kobiety okaże się mniejszy od wzrostu mężczyzny. Liczbę tych par należy podzielić przez liczbę wszystkich par czyli przez km.

Przykład 1. W badanej przez nas grupie znalazły się trzy kobiety i trzech mężczyzn o wzroście: kobiety - 167 cm, 169 cm i 173 cm, mężczyźni - 165 cm, 172 cm i 178 cm. W poniższej tabelce 0 oznacza, że wzrost danej kobiety jest większy niż wzrost danego mężczyzny, natomiast 1 oznacza, że wzrost danej kobiety jest mniejszy od wzrostu danego mężczyzny.

M\K	167	169	173
165	0	0	0
172	1	1	0
178	1	1	1

Suma zer i jedynek w tabelce wynosi 5. W takim razie prawdopodobieństwo, że wzrost losowo wybranej spośród tych trzech kobiet jest mniejszy niż wzrost losowo wybranego spośród tych trzech mężczyzn, wynosi ⁵/₉.

Jeśli w rzeczywistym badaniu uzyskaliśmy wynik ⁵/₉, to wydaje się, że jest on bardzo duży. Wszak mieliśmy tylko sprawdzić, czy prawdopodobieństwo, że losowo wybrana kobieta jest niższa od losowo wybranego mężczyzny, jest większe niż ¹/₂ a ⁵/₉ > ¹/₂. Niestety musimy jeszcze wziąć pod uwagę pewną trudność. Nawet jeśli wybraliśmy osoby do badania w sposób losowy, tak aby ich wzrosty odzwierciedlały wzrost u wszystkich ludzi, to i tak przez przypadek mogło się tak zdarzyć, że do badania wybraliśmy trzy zawodowe siatkarki i trzech wyczynowych dżokejów. W takiej sytuacji nasz wynik będzie niemiarodajny dla wnioskowania o wszystkich ludziach. A zatem im większy wynik uzyskamy (bliższy liczbie 1), tym bardziej prawdopodobne będzie, że P(K<M), której wyznaczenie jest niemożliwe, będzie większe od ¹/₂.

Z tego powodu dziś statystycy raczej nie podejmują się oceny, czy kobiety są niższe od mężczyzn (lub w innych tego typu problemach). Obliczają jedynie (mówiąc w bardzo dużym uproszczeniu) prawdopodobieństwo, że wśród danych zebranych przez naukowców badających wzrost, wzrost losowo wybranej kobiety jest mniejszy niż wzrost losowo wybranego mężczyzny. To naukowcy zajmujący się danym badaniem przyrodniczym sami już później oceniają, czy to prawdopodobieństwo jest dla nich wystarczające, by stwierdzić, że kobiety są niższe niż mężczyźni, czy też nie.

Zwróćmy jeszcze uwagę, że zamiast porównywać wzrosty poszczególnych osób, moglibyśmy ponumerować je kolejno według wzrostu, pamiętając, który numer należy do której płci, a porównanie przeprowadzać na samych tylko numerach. Takie numery kolejne nazywamy rangami.

Przykład 2. Po ustawieniu danych z przykładu 1 w porządku rosnącym otrzymujemy następujący ciąg, w którym wytłuszczono liczby oznaczające wzrosty mężczyzn: Liczba 165 ma tutaj numer 1, liczba 167 - numer 2, liczba 169 - numer 3, liczba 172 - numer 4, liczba 173 - numer 5 zaś liczba 178 - numer 6. Możemy zatem powiedzieć, że kobietom przypadły rangi 2, 3 i 5 a mężczyznom 1, 4 i 6. Tabelka sporządzona w poprzednim przykładzie dla wzrostów wygląda tak samo, gdy wzrosty zastąpimy rangami:

M\K	2	3	5
1	0	0	0
4	1	1	0
5	1	1	1

Okazuje się, że zamiast sprawdzać wszystkie możliwe pary złożone z mężczyzny i kobiety, możemy się posłużyć rangami w następujący sposób: należy zsumować rangi, które przypadły w udziale mężczyznom i odjąć od tej sumy liczbę ^m(m+1)/₂ (gdzie, jak poprzednio, m oznacza liczbę mężczyzn).

Przykład 3. Rangi, jakie w naszym przykładzie przypadły mężczyznom, to 1, 4 i 6, a liczba mężczyzn wynosi 3. Mamy: 1+4+6-3·(3+1)/2 = 11-6 = 5 - dokładnie tyle, ile jedynek pojawiło się w tabelkach w poprzednich przykładach.

Sposób obliczania prawdopodobieństwa, które rozważamy, w oparciu o rangi bywa wygodniejszy niż sprawdzanie wszystkich możliwych par.

Problem opisany w tym miniwykładzie jest próbą przedstawienia idei zagadnienia, które w statystyce nosi nazwę test Wilcoxona-Manna-Whitneya. Zagadnienie to szczegółowo poznają studenci matematyki.

Zadania dla GIM

Zad. 1. W pliku znajdują się dane odnośnie wzrostu (w cm) kobiet i mężczyzn zebrane od studentów przypadkowo spotkanych na korytarzu Instytutu Matematycznego Uniwersytetu Wrocławskiego (naprawdę). Posługując się arkuszem kalkulacyjnym Gnumeric narysuj wykresy pudełkowe, aby wstępnie się przekonać, czy dane nie przeczą tezie, że kobiety są niższe od mężczyzn, a następnie oblicz prawdopodobieństwo, że wśród osób, o których dane zebrano, losowo wybrana kobieta jest niższa niż losowo wybrany mężczyzna. Pomocne może być w tym następujące wyrażenie:

=if(A2<B1;1;0)

przyjmujące wartość 1, gdy liczba w komórce A2 jest mniejsza od liczby w komórce B1, i wartość 0 w przeciwnym przypadku (odpowiednik w Excelu: JEŻELI).

Zad. 2. Wyobraź sobie, że dysponujesz danymi dotyczącymi wzrostu trzech kobiet i trzech mężczyzn, przy czym wszystkie liczby oznaczające wzrost są różne. Pokaż, że średnia wszystkich prawdopodobieństw, że losowo wybrana kobieta jest niższa od losowo wybranego mężczyzny, możliwych do uzyskania ze względu na różne uporządkowanie względem siebie wzrostów mężczyzn i kobiet, wynosi ½.

Zad. 3. Przeprowadź badanie analogiczne do tego w zad. 1 wśród swoich rówieśników. Sam zdecyduj, jak dużo osób chcesz zapytać o wzrost, pamiętając, że im więcej danych, tym lepiej. Obliczenia przeprowadź w arkuszu kalkulacyjnym jak poprzednio. Pamiętaj: osoba sprawdzająca nie jest w stanie sprawdzić, czy dane, na jakich będziesz pracować, nie zostały przez Ciebie wymyślone. Masz jednak szansę przeprowadzenia prawdziwej małej analizy statystycznej, a analizowanie prawdziwych danych jest bardziej fascynujące niż trenowanie obliczeń na danych wymyślonych.

Jako rozwiązanie zad. 1 i zad. 3 prześlij arkusz kalkulacyjny w formacje .gnumeric z przeprowadzonymi obliczeniami, nadając mu nazwę postaci Imie_Nazwisko_maj.gnumeric. Wszystkie ewentualne komentarze umieść w tym pliku.

Zadania dla LO

Zad. 1. Wykonaj zadanie 1 dla gimnazjalistów.

Zad. 2. Wykonaj zadanie 2 dla gimnazjalistów.

Zad. 3. Spróbuj uogólnić wynik z zad. 2 na dowolną liczbę obserwacji tzn. udowodnij, że jeśli mamy dane dotyczące wzrostu n kobiet i n mężczyzn, przy czym dane się nie powtarzają, to średnia wszystkich prawdopodobieństw, że losowo wybrana kobieta jest niższa od losowo wybranego mężczyzny, możliwych do uzyskania ze względu na różne uporządkowanie względem siebie wzrostów mężczyzn i kobiet, wynosi ½.

Jako rozwiązanie zad. 1 prześlij arkusz kalkulacyjny w formacje .gnumeric z przeprowadzonymi obliczeniami, nadając mu nazwę postaci Imie_Nazwisko_maj.gnumeric. Wszystkie ewentualne komentarze umieść w tym pliku.

Wyniki:

Wyniki w kategorii GIM

Za rozwiązanie zadań w majowym etapie ligi zadaniowej z analizy danych Joanna Lisiowska otrzymuje 2,5 punktu, Aleksandra Domagała - 2 punkty zaś Kacper Toczek - 1 punkt. W klasyfikacji generalnej widzimy ostrą wywalizację: pierwsze miejsce zajmują ex aequo Aleksandra Domagała i Joanna Lisiowska natomiast drugie miejsce również ex aequo zajmują Mieszko Baszczak i Kacper Toczek.

Wyniki w kategorii LO

Daria
Bumażnik wzbogaciła się w tym miesiącu o 2,5 punktu zaś Tomasz Stępniak o 1 punkt. Na prowadzeniu wciąż Tomasz Stępniak (I miejsce) przed Darią Bumażnik (II miejsce) i
Krzysztofem Danielakiem (III miejsce).

Odpowiedzi:

Odpowiedzi dla GIM

Zad. 1. Rozwiązanie zadania znajduje się w tym pliku.

Zad. 2. Jeśli dysponujemy danymi o wzroście trzech kobiet (K) i trzech mężczyzn (M), przy czym dane nie mogą się powtarzać, to po uporządkowaniu danych od wartości najmniejszej do największej jest 20 możliwych układów K i M. Wymienimy je wraz z odpowiadającymi im sumami rang dla M.

1) M M M K K K; 1 + 2 + 3 = 6 11) K M M M K K; 2 + 3 + 4 = 9

2) M M K M K K; 1 + 2 + 4 = 7 12) K M M K M K; 2 + 3 + 5 = 10

3) M M K K M K; 1 + 2 + 5 = 8 13) K M M K K M; 2 + 3 + 6 = 11

4) M M K K K M; 1 + 2 + 6 = 9 14) K M K M M K; 2 + 4 + 5 = 11

5) M K M M K K; 1 + 3 + 4 = 8 15) K M K M K M; 2 + 4 + 6 = 12

6) M K M K M K; 1 + 3 + 5 = 9 16) K M K K M M; 2 + 5 + 6 = 13

7) M K M K K M; 1 + 3 + 6 = 10 17) K K M M M K; 3 + 4 + 5 = 12

8) M K K M M K; 1 + 4 + 5 = 10 18) K K M M K M; 3 + 4 + 6 = 13

9) M K K M K M; 1 + 4 + 6 = 11 19) K K M K M M; 3 + 5 + 6 = 14

10) M K K K M M; 1 + 5 + 6 = 12 20) K K K M M M; 4 + 5 + 6 = 15

Możliwe prawdopodobieństwa tego, że losowo wybrana kobieta jest niższa od losowo wybranego mężczyzny, uzyskamy, dodając rangi, następnie od każdej sumy odejmując 3·(3+1):2 = 6 i dzieląc różnicę przez 3·3 = 9. Wobec tego suma prawdopodobieństw wyraża się jako:

(6+7+8+9+8+9+10+10+11+12+9+10+11+11+12+13+12+13+14+15 - 20·6):9 =

= (210-120):9 = 90:9 = 10.

Ponieważ mamy 20 możliwych układów M i K, średnia prawdopodobieństw wynosi 10:20 = ½.

Uwaga. Jeśli zinterpretujemy treść zadania nieco inaczej i będzie nas interesowała średnia istotnie różnych prawdopodobieństw, jakie możemy uzyskać, to weźmiemy pod uwagę tylko istotnie różne sumy rang z powyższego zestawienia. wówczas suma prawdopodobieństw wyniesie:
(6+7+8+9+10+11+12+13+14+15 - 10·6):9 = (105-60):9 = 45:9 = 5
Ze względu na to, że występuje tu 10 istotnie różnych prawdopodobieństw, zatem ich średnia wynosi ⁵/₁₀ = ¹/₂.

Odpowiedzi dla LO

Zad. 1. Odpowiedź jak w zadaniu 1 dla gimnazjalistów.

Zad. 2. Odpowiedź jak w zadaniu 2 dla gimnazjalistów.

Zad. 3. Zauważmy, że układy symboli M i K można połączyć w pary w taki sposób, że dany układ w parze powstaje z drugiego poprzez zamianę K na M i M na K. Ustalmy pewien układ symboli M i K. W takim razie suma rang odpowiadających symbolowi M w drugim układzie w parze będzie sumą rang odpowiadających w wyjściowym układzie symbolowi K. Gdy dodamy te dwie sumy rang, otrzymamy sumę liczb naturalnych od 1 do 2n czyli ^2n(2n+1)/₂=n(2n+1). W takim razie suma prawdopodobieństw wystąpienia tych dwóch układów wynosi:

[tex]\left[n(2n+1) - 2\cdot\frac{n(n+1)}{2}\right] \ : \ n^2 = \left[n(2n+1) - n(n+1)\right] \ : \ n^2 = [/tex]

[tex]=\left[2n^2+n-n^2-n\right] \ : \ n^2 = \frac{n^2}{n^2} = 1.[/tex]

Z powyższych rozważań wynika, że liczba możliwych układów M i K jest parzysta. Oznaczmy ją przez 2k. Ponieważ wcześniej połączyliśmy układy M i K w pary, więc par tych jest k. W takim razie średnia prawdopodobieństw uzyskanych z różnych układów M i K wynosi ^1·k/_2k= ¹/₂.

Uwaga. Możemy też zinterpretować treść zadania nieco inaczej i będzie nas interesowała średnia istotnie różnych prawdopodobieństw, jakie możemy uzyskać.

Najmniejsza suma rang odpowiadających M występuje wtedy, gdy wszyscy mężczyźni są niżsi od wszystkich kobiet. Wówczas symbole M zajmują n początkowych miejsc. Wobec tego suma rang odpowiadających M będzie w tym przypadku sumą liczb naturalnych od 1 do n czyli wynosi ⁿ⁽ⁿ⁺¹⁾/₂.

Z kolei największa suma rang odpowiadających M występuje wtedy, gdy wszyscy mężczyźni są wyżsi od wszystkich kobiet. Wówczas symbole M zajmują n końcowych miejsc. Wobec tego suma rang odpowiadających M będzie w tym przypadku sumą liczb naturalnych od n+1 do 2n czyli wyniesie ^(n+1+2n)·n/₂ = ⁿ⁽³ⁿ⁺¹⁾/₂.

Zauważmy, że jeśli w dowolnym układzie M i K oprócz takiego, w którym symbole M zajmują n końcowych pozycji, zamienimy miejscami jedno M z jednym K stojącym tuż przy M po jego prawej stronie, to suma rang odpowiadających M wzrośnie dokładnie o 1. Z tego wynika, że możliwe do uzyskania sumy rang odpowiadających M będą kolejnymi liczbami naturalnymi od ⁿ⁽ⁿ⁺¹⁾/₂ do ⁿ⁽³ⁿ⁺¹⁾/₂. Będzie ich n²+1. W takim razie suma tych liczb wynosi:

[tex]\left(\frac{n(n+1)}{2}+\frac{n(3n+1)}{2}\right) \ \cdot \ \frac{n^2+1}{2}= \frac{n(n+1)(2n+1)}{2}[/tex]

Wobec tego suma rozważanych prawdopodobieństw wynosi:

[tex]\left(\frac{n(n+1)(2n+1)}{2}-(n^2+1) \ \cdot \ \frac{n(n+1)}{2}\right) \ : \ n^2=\frac{n^2+1}{2}[/tex]

Ostatecznie okazuje się, że średnia arytmetyczna prawdopodobieństw jest równa

[tex]\frac{n^2+1}{2} \ : \ \left(n^2+1\right)=\frac{1}{2}.[/tex]

maj 2015 - porównanie dwóch zbiorów danych

Bohater miesiąca

Impreza miesiąca

Odkrycie miesiąca

Pytanie miesiąca

Zabawka miesiąca

Arcydzieło miesiąca