styczeń 2017 - wykresy w analizie danych

Data ostatniej modyfikacji:
2017-02-14
Miniwykład o wykresach w analizie danych

Tekst został napisany w oparciu o arkusz kalkulacyjny MS Excel 2013. Inne wersje Excela mogą się nieznacznie różnić od prezentowanej.

W naszych dotychczasowych rozważaniach o danych staraliśmy się wyciągać o nich wnioski, wyznaczając pewne liczby, które te dane charakteryzowały np. średnią ocen z matury z danego przedmiotu, liczbę kobiet w zbiorze danych, liczbę rodzin z danego województwa. Kiedy mamy przed oczami tabelę zawierającą takie informacje, możemy wprawdzie odczytać każdą liczbę zawartą w tabeli, ale trudno jest nam od razu ocenić, która z nich jest największa itp. Liczby wypisane w wierszu czy w kolumnie nie oddziałują wyraźnie na naszą wyobraźnię. Z tego powodu w analizie danych bardzo często stosuje się różnego rodzaju wykresy. W tym odcinku ligi opowiemy sobie o dwóch spośród nich.

Wyobraźmy sobie, że zliczając chłopców i dziewczęta w pewnej klasie, w której jest 12 dziewcząt i 18 chłopców, budujemy wieże z jednakowych klocków: jedna wieża odpowiada dziewczętom, druga chłopcom, przy czym każdemu dziecku odpowiada jeden klocek. Wobec tego wysokość każdej z wież mierzona liczbą klocków odpowiada liczbie uczniów danej płci. Gdybyśmy teraz narysowali to, co zbudowaliśmy, dorysowalibyśmy w pionie oś, na której będzie widać wysokość wież, oraz podpisalibyśmy wieże, nasz rysunek mógłby wyglądać na przykład tak:

 

 

Tak wykres nosi nazwę wykresu kolumnowego.

Wykres taki można też sporządzić w innym wariancie. Jeśli umówimy się, że za jednostkę przyjmujemy sumę wysokości wszystkich słupków, to na osi pojawi się informacja nie o tym, ile w klasie było dziewcząt, a ilu chłopców, ale jaka część wszystkich uczniów w klasie to chłopcy, a jaka to dziewczęta. W naszym przykładzie w klasie jest 12 + 18 = 30 uczniów, więc dziewczęta stanowią 12/30 = 0,4 = 40% uczniów w tej klasie, natomiast chłopcy stanowią 18/30 = 0,6 = 60% uczniów tej klasy.

 

 

Innym sposobem na przedstawienie takiej samej informacji jest wykres kołowy. Na nim każdej grupie odpowiada wycinek koła wyznaczony przez kąt środkowy. Jeśli dana grupa liczy p % całości, to odpowiada jej wycinek koła wyznaczony przez kąt środkowy o mierze równej p% · 360o. Wobec tego dziewczętom z klasy w przykładzie odpowiada kąt środkowy o mierze 40% · 360o = 144o, podczas gdy chłopcom odpowiada kąt 60% · 360o = 216o.

 

 

Wykres kołowy po angielsku nazywa się pie chart. Można więc powiedzieć, że pokazuje on, jaka część placka powinna przypaść na każdą płeć, tak żeby każde dziecko dostało tyle samo.

W Excelu wykres kolumnowy i wykres kołowy można bardzo łatwo sporządzić, opierając się na tabeli przestawnej.

W pliku dostępne są informacje o uczniach pewnego gimnazjum zebrane przez szkolną pielęgniarkę. Za pomocą tabeli przestawnej łatwo ustalimy, ilu jest w tej szkole uczniów, a ile uczennic. Aby narysować wykres kolumnowy na podstawie takiej tabeli przestawnej, wystarczy ustawić się aktywną komórką w tabeli przestawnej i w karcie Wstawianie kliknąć "Wstaw wykres kolumnowy". Do wyboru mamy kilka rodzajów wykresów, ale będzie nas interesował ten pierwszy. Możemy też wybrać wykres o podobnym wyglądzie ale w wersji trójwymiarowej.

Ponieważ w tabeli przestawnej, na podstawie której sporządziliśmy wykres, jest tylko jedna kolumna z liczbami (bo w polu KOLUMNY nic nie umieściliśmy), wszystkie prostokąty na wykresie są w jednym kolorze. W takim wypadku pojawiającą się po prawej strone legendę możemy po prostu usunąć. Dla poprawienia estetyki wykresu możemy mu nadać elegancki nagłówek. Po tych zabiegach nasz wykres będzie wyglądał tak:

 

 

Jeśli w tabeli przestawnej zmienimy sposób wyświetlania wartości na pokazywanie wartości jako % kolumny, na wykresie automatycznie pojawią się procenty.

Z kolei aby utworzyć wykres kołowy, będąc z aktywną komórką w tabeli przestawnej, na karcie Wstawianie klikamy "Wstaw wykres kołowy lub pierścieniowy". Z podanych propozycji wyglądu wykresu wybieramy pierwszą, ewentualnie odpowiadającą jej propozycję wyglądu trójwymiarowego. Warto podkreślić, że wykres kołowy można narysować niekoniecznie na podstawie danych wyrażonych w procentach. Ten sam efekt uzyskamy, jeśli narysujemy wykres na podstawie samego zliczenia dziewcząt i chłopców. Excel sam wyznaczy, jaka część koła powinna przypadać każdej z płci.

W wypadku wykresu kołowego legenda jest nam już konieczna.

Możemy poprawić czytelność naszych wykresów np. poprzez napisanie przy każdym słupku na wykrsie kolumnowym czy przy każdym wycinku koła na wykresie kołowym liczby bądź procentu obserwacji. Aby to uczynić, należy kliknąć prawym przyciskiem myszy na dowolny słupek bądź wycinek koła i dwukrotnie wybrać "Dodaj etykiety danych". Poniższy wykres, jak to wynika z etykiet danych, został sporządzony na podstawie tabeli przestawnej z procentami.

 

Jeśli chcielibyśmy zliczyć, ilu uczniów ma daną liczbę rodzeństwa, ale zrobić to z podziałem na płeć, i potem przedstawić to na wykresie kolumnowym, również bez trudu możemy to uczynić. Wystarczy sporządzić tabelę przestawną, w której w polu WIERSZE umieścimy liczbę rodzeństwa, a w polu KOLUMNY płeć, i na jej podstawie utworzyć wykres. Wówczas na każdą liczbę rodzeństwa będą przypadały dwa słupki: jeden dla dziewcząt i jeden dla chłopców.

Warto zwrócić uwagę, że jeśli z takiego wykresu będziemy chcieli przejść na procenty, można to zrobić sensownie na dwa sposoby: zmienić sposób pokazywania wartości na % sumy końcowej lub na % kolumny. W pierwszym wypadku kształt wykresu nie zmieni się w stosunku do tego bez procentów. W drugim przypadku wygląd będzie inny, jeśli tylko liczba dziewcząt i chłopców w szkole nie jest taka sama. Statystyków zazwyczaj interesuje ten drugi typ wykresu, ponieważ jeśli analizują dane i chcą wyciągać ogólne wnioski a nie tylko komentować konkretny zbiór danych, to powinni się uniezależnić np. od tego, ile w bazie danych było kobiet a ilu mężczyzn. Za pierwszym razem suma wysokości wszystkich słupków wynosić będzie 100%, przy czym suma długości wysokości słupków odpowiadających dziewczętom będzie stanowiła tyle procent, ile procent wszystkich uczniów stanowią dziewczęta (i odpowiednio taka sama obserwacja dotyczy chłopców). W drugim przypadku suma wysokości słupków odpowiadających dziewczętom wynosi 100% i podobnie suma wysokości słupków odpowiadających chłopcom wynosi 100%.

Warto zwrócić uwagę, że w przypadku gdy chcemy zilustrować na wykresie dwie kolumny z tabeli przestawnej (tak jak w przykładzie powyżej), wykres kołowy się nie sprawdza.

Wykresy kolumnowe i kołowe można sporządzać także na podstawie danych pogrupowanych. (O grupowaniu danych pisaliśmy w poprzednim odcinku ligi).

Jeśli na wykresie kolumnowym sąsiednie słupki odpowiadają kolejnym liczbom naturalnym czy też kolejnym przedziałom, to taki wykres (w pewnym uproszczeniu) można nazwać histogramem.

Zadania

Na podstawie danych z arkusza kalkulacyjnego, którego dotyczą przykłady omówione w miniwykładzie, wykonaj następujące polecenia:

Zad. 1. Narysuj wykres kołowy, na którym będzie pokazane, jaką część (procent) wszystkich uczniów w szkole stanowią jedynacy, jaką uczniowie z jednym lub dwójką rodzeństwa, a jaką uczniowie z większą liczbą rodzeństwa. Pola na wykresie kołowym opatrz odpowiednimi etykietami procentowymi. Zadbaj też o to, by w legendzie na wykresie pojawiły się komunikatywne etykiety (musisz o tym pomyśleć już na etapie tworzenia tabeli przestawnej).

Zad. 2. Klasy "a" to klasy o profilu humanistycznym, natomiast klasy "d" to klasy o profilu matematyczno-informatycznym. Narysuj wykres kolumnowy, który będzie służył do porównania, jaką część wszystkich uczniów w klasach "a", a jaką część wszystkich uczniów w klasach "d" stanowią chłopcy, a jaką dziewczęta. W tym celu dokładnie rozważ, co mają oznaczać poszczególne kolumny, a co poszczególne kolory na wykresie, i stosownie do tego zbuduj tabelę przestawną, na podstawie której utworzysz wykres. Zadbaj o to, aby na wykresie nie pojawiały się informacje o klasach "b" i "c".

Zad. 3. Pogrupuj wzrost uczniów w wybrane przez siebie przedziały i narysuj wykres kolumnowy z podziałem na płeć, ilustrujący, jaki procent uczniów danej płci osiągnęło wzrost w danym przedziale. Postaraj się, aby wykres niósł ze sobą sporo informacji, ale aby jednocześnie był czytelny. Decydująca okaże się tu liczba przedziałów, jaką wybierzesz

Jako rozwiązanie prześlij arkusz kalkulacyjny, w którym będą się znajdowały wykresy, które należało sporządzić. Rozwiązanie każdego zadania powinno się znajdować w osobnej karcie, a karty powinny być podpisane numerami zadań. Jeśli pojawi się problem w związku z obecnością w jednym pliku kilku tabel przestawnych z pogrupowanymi danymi, możesz wysłać kilka plików, byleby wyraźnie było opisane, gdzie znajduje się rozwiązanie danego zadania. Rozwiązanie każdego zadania jest warte 1 punkt.

 

Wyniki: 
Wyniki w kategorii SP

W tym miesiącu zawodnicy osiągnęli następujące wyniki:

Imię i nazwisko Zad. 1 Zad. 2 Zad. 3 Suma
Jakub Ptak 1 1 0,5 2,5
Adam Stachelek 0,5 1 0,5 2

Klasyfikacja generalna:

Adam Stachelek (Szkoła Podstawowa nr 301 w Warszawie) - 10,5 punktu
Jakub Ptak (Szkoła Podstawowa nr 64 we Wrocławiu) - 10,5 punktu

Wyniki w kategorii GIM

W tym miesiącu zawodnicy osiągnęli następujące wyniki:

Imię i nazwisko Zad. 1 Zad. 2 Zad. 3 Suma
Mateusz Winiarski 0,5 0 0,5 1

Klasyfikacja generalna:

Mateusz Winiarski (Gimnazjum Dwujęzyczne im. Mikołaja Kopernika w Krośnie) - 9,5 punktu

Wyniki w kategorii LO

W tym miesiącu zawodnicy osiągnęli następujące wyniki:

Imię i nazwisko Zad. 1 Zad. 2 Zad. 3 Suma
Marcin Kuna 1 1 1 3
Joanna Lisiowska 1 1 1 3
Wojciech Wiśniewski 1 1 1 3

Klasyfikacja generalna:

Wojciech Wiśniewski (I Liceum Ogólnokształcące im. W. Kętrzyńskiego w Giżycku) - 11,5 punktu
Joanna Lisiowska (XXI Liceum Ogólnokształcące im. H. Kołłątaja w Warszawie) - 11 punktów
Marcin Kuna (VII Liceum Ogólnokształcące im. K. K. Baczyńskiego we Wrocławiu) - 11 punktów

 

Odpowiedzi: 

Rozwiązania znajdują się w tym pliku.

 

Powrót na górę strony