Zad. 1. Czym jest rozkład Benforda i do czego się go wykorzystuje? Podaj jego trzy słynne zastosowania w historii cywilizacji?
Zad. 2. Czym jest prawo Zipfa i do czego się je wykorzystuje?
Zad. 3. Kto wprowadził do nauki stylistykę kwantytatywną? Na czym ona (z grubsza) polega?
W tym miesiącu 3 punkty zdobyli: Daria Bumażnik - chemik z Piechowic, Krystyna Lisiowska - redaktor z Warszawy, Bolesław Mokrski - emerytowany nauczyciel z Przyszowic, Ignacy Włodarski SP 36 Wrocław.
Zad. 1. Rozkład Benforda to rozkład prawdopodobieństwa występowania określonej pierwszej cyfry w wielu rzeczywistych danych statystycznych (np. powierzchniach jezior, długościach rzek, liczbach ludności różnych krajów, wynikach zawodów sportowych, danych giełdowych, numerach domów), a także w wartościach stałych fizycznych. Występuje najczęściej w przypadku wielkości, które mogą przyjmować różne rzędy wielkości. Fakt częstego występowania tego rozkładu w obserwowanych danych zwany jest prawem Benforda. Największą częstość występowania na pierwszej pozycji ma cyfra 1 (30,1%), a najmniejszą - cyfra 9 (4,6%).
Nazwa jest ahistoryczna, bowiem zależność została po raz pierwszy odnotowana w 1881 przez kanadyjskiego matematyka Simona Newcomba, który w bibliotece United States Naval Observatory zauważył, że strony tablic logarytmicznych są brudniejsze na początku i coraz czystsze na dalszych kartkach. Wywnioskował stąd, że korzystający z tablic logarytmicznych częściej szukają liczb rozpoczynających się od niższych cyfr (a te znajdują się na początku tablic). Swoje odkrycie (bez dowodu ogólnej prawidłowości) opublikował w American Journal of Mathematics, ale nie spotkało się ono z szerokim zainteresowaniem. Po niemal 60 latach w 1938 Frank Benford - inżynier w General Electric - dokonał tego samego odkrycia także na podstawie stanu czystości tablic logarytmicznych. Sprawdził, że jego obserwacja potwierdza się w innych zbiorach danych, np. liczbach drukowanych w gazetach a nawet w cenach. Wyniki opublikował w Proceedings of the American Philosophical Society, ale i tym razem dowód nie został przedstawiony. Podał go w sposób formalny w 1995 Theodore Hill.
Rozkład Benforda jest stosowany głównie do sprawdzania dokumentów finansowo-księgowych, gdyż ludzie, wpisując liczby "z głowy" ale tak, żeby wydawały się przypadkowe, nie są świadomi, że pewne cyfry występują częściej na pierwszej pozycji niż inne. Pomaga też wykryć fałszowanie danych w pracach naukowych. W USA dowody procesowe oparte na prawie Benforda są dopuszczone w sprawach karnych na szczeblu lokalnym, federalnym i stanowym. Zastosowania w historii:
- wykrycie fałszerstw dokonanych przez Jamesa Nelsona, głównego księgowego Arizona State Treasurer 1992,
- wykrycie "kreatywnej księgowości" w firmach Enron i Worldcom,
- wykrycie oszustw w wyborach gubernatorskich stanu Kalifornia 2003,
- podważenie wiarygodności wyborów w Iranie 2009 - niewłaściwy był rozkład pierwszych cyfr liczb głosów oddanych w kilku okręgach na kandydata małej partii opozycyjnej (dwukrotnie częściej niż powinna pojawiała się siódemka), anomalie wystąpiły w trzech z sześciu największych okręgów i właśnie tam aktualny prezydent miał proporcjonalnie wyższe poparcie niż w reszcie kraju,
- wykrycie, że dane makroekonomiczne Grecji przekazywane do organów Unii Europejskiej w związku z przystąpieniem do strefy euro były naciągane,
- sprawdzanie wiarygodności danych podczas pandemii koronawirusa (wykazano duże prawdopodobieństwo fałszowania danych w Rosji i manipulacje w Iranie).
Zad. 2. Prawo empiryczne nazwane na cześć amerykańskiego lingwisty George'a Zipfa, który je odkrył. Stwierdza, że wiele rodzajów danych tworzonych przez ludzi lub odnoszących się do ich zachowań cechuje charakterystyczny rozkład wartości, w którym dystrybucja częstotliwości występowania poszczególnych wartości jest odwrotnie proporcjonalna do ich rangi statystycznej, np. ranga słowa w tekście to liczba porządkowa dla słów ustawionych w kolejności występowania (najczęstsze słowo ma rangę 1). Porównanie rozkładu Zipfa obliczonego dla korpusu języka z rozkładem dla danego tekstu pozwala na ocenę stylu autora i jego zrozumiałość dla przeciętnego czytelnika. Im bardziej rozkład dla analizowanego tekstu jest zgodny z rozkładem ogólnym dla języka, w którym go napisano, tym jest on bardziej zrozumiały dla większości osób posługujących się na co dzień tym językiem. Podobne zależności są obserwowane dla częstości występowania wyrażeń matematycznych w tekstach technicznych, w rankingach wielkości miast, liczby osób zatrudnionych w przedsiębiorstwach czy rankingach dochodów. Prawo Zipfa jest często używane w językoznawstwie korpusowym, znajduje też zastosowanie w kryptografii, a nawet zostało wykorzystane w ramach poszukiwań pozaziemskiej inteligencji. Przykłady występowania:
- Zależność między liczbą mieszkańców a liczbą określającą miejsce na liście rankingowej miast uporządkowanych według wielkości.
- Liczba przedsiębiorstw o obrotach zawartych w określonym przedziale rośnie jak odwrotność miejsca na liście uporządkowanej według wartości tych obrotów.
- Liczba trzęsień ziemi rośnie od największych do najsłabszych według zależności potęgowej.
- Funkcja rozkładu galaktyk w gromadach ma charakter potęgowy; podobnie rozkład rozmiarów galaktyk, rozmiarów planet, satelitów.
- Erupcje wulkaniczne i ich rozmiary są zgodne z rozkładem Zipfa, to samo dotyczy rozmiarów wysp.
Zad. 3. Stylistyka kwantytatywna to dyscyplina naukowa z pogranicza stylistyki, retoryki, gramatyki i matematyki, która za pomocą metod matematycznych (statystycznych) bada teksty w różnych językach i na tej podstawie formułuje ogólnie obowiązujące prawa dotyczące stylu, zwane normą stylistyczną. Za twórców stylistyki kwantytatywnej uważa się greckich gramatyków z Aleksandrii, którzy w III wieku p.n.e. zaczęli liczyć słowa używane przez Homera w Iliadzie i Odysei. Zauważyli, że chociaż zdecydowana większość wyrazów powtarza się wielokrotnie, to Homer używał też słów, które pojawiały się bardzo rzadko albo tylko raz. Zaczęli tworzyć zestawienia wyrazów homeryckich, szczególną rangę nadając tym, które były używane rzadko. Do XIX wieku badania nad sformułowaniem obiektywnych zasad norm stylistycznych nie wyszły poza ustalenia starożytne. Dopiero pod koniec XIX wieku francuski stenograf i leksykograf Jean-Baptiste Estoup, badając zasady stenografii, ustalił podstawowe zasady statystyczne dotyczące stylistyki tekstu. Jego obserwacje zweryfikował i uściślił amerykański lingwista George Zipf. Uważa się go za twórcę nowożytnej stylistyki kwantytatywnej. Podstawowe twierdzenie stylistyki kwantytatywnej głosi, że wyrazy występują w mowie z częstotliwością stałą. Około 85% tekstu w jakimkolwiek języku wyrażane jest przy użyciu około 1000 najczęściej używanych słów. Ta właściwość pozwala wyodrębnić w danym języku podstawowy zespół wyrazów, stanowiący jego trzon. Sformułowana na podstawie tych badań zasada stylistyczna głosi, że tekst napisany zgodnie z normą stylistyczną w 85% swojej objętości powinien używać zbioru do 1000 najczęściej używanych słów, a 15% tekstu powinny stanowić wyrazy spoza podstawowego trzonu języka. Zachwianie tej zasady prowadzi do niestylistyczności tekstu. Użycie zbyt wielu rzadko używanych wyrazów skutkuje tym, że tekst jest zbyt skomplikowany i niezrozumiały dla przeciętnego odbiorcy, natomiast zaniżenie normy poniżej 15% powoduje zbytnie uproszczenie stylistyczne tekstu, jego dwuznaczność i niejasność. Dla stylistyki kwantytatywnej szczególne znaczenie mają terminy hápax legómenon (wyrazy występujące w tekście raz) oraz słowa kluczowe (występujące szczególnie często). Użycie hápax legómenon i słów kluczowych wpływa na stosunek między ilością informacji a liczbą słów użytych w tekście. Im więcej jest słów kluczowych, tym dla przekazania tej samej informacji trzeba użyć więcej słów. Zjawisko to nazywa się redundancją. Natomiast im więcej hápax legómenon, tym za pomocą mniejszej liczby słów przekazujemy większą porcję informacji.