Otwierasz arkusz z danymi. Zaczynasz robić wyliczenia i wykresy, a następnie przeklejasz wyniki do raportu lub prezentacji. Co może pójść nie tak? W tym artykule opiszę trzy pułapki, w które możesz wpaść, analizując dane i podzielę się wskazówkami, jak ich unikać.
W dalszej części wpisu będziemy bazować na danych o darowiznach fikcyjnej Fundacji ABC. Arkusz i obliczenia znajdziesz tutaj.
Pułapka nr 1: Suma i średnia to tylko część historii
Wyobraź sobie, że pracujesz w Fundacji ABC i robisz przegląd darowizn indywidualnych z 2024 r.:
Liczba darowizn | 853 |
Suma darowizn | 801 500 zł |
Średnia kwota darowizny | 940 zł |
Wydaje się, że darczyńcy byli bardzo hojni – średnia kwota darowizny wyniosła prawie 1000 zł! Już prawie idziesz otwierać szampana z zespołem, ale… zaraz, zaraz… czy średnia arytmetyczna na pewno jest dobrą miarą przeciętności? Niekoniecznie.
Sprawdzasz dodatkowe statystyki i wyglądają one tak:
Minimalna darowizna | 10 zł |
Maksymalna darowizna | 56 000 zł |
Zakres darowizn był bardzo zróżnicowany (a nawet: ogromnie zróżnicowany): od wpłat o równowartości espresso w kawiarni do przelewów rzędu kilkudziesięciu tysięcy złotych.
Gdy przyjrzymy się wpłatom jeszcze dokładniej, zauważymy, że fundacja otrzymała:
- 21 przelewów o wysokości powyżej 10 tys. zł,
- 832 darowizny o wysokości od 10 do 200 zł.
Mówiąc inaczej: 21 darowizn (stanowiących 2,5% wszystkich darowizn) wygenerowało aż 89% wpływów.
Czy zatem wyliczanie średniej arytmetycznej z tak rozproszonego rozkładu ma sens? Niestety, nie do końca. W takim wypadku lepiej sprawdzi się mediana:
Mediana darowizn | 100 zł |
Mediana wynosi „tylko” 100 zł i informuje o tym, że połowa darowizn była mniejsza, a połowa większa od tej kwoty.
Skąd zatem taka wysoka średnia arytmetyczna (940 zł)? Średnia ma to do siebie, że jest podatna na tzw. „wartości odstające”. Już kilka bardzo wysokich wpłat może ją mocno zawyżyć. I tak właśnie jest w tym przypadku.
Mediana, w przeciwieństwie do średniej arytmetycznej, nie reaguje tak mocno na wartości odstające i dlatego często jest lepszą miarą przeciętności.
Użyteczną miarą w przypadku takiej analizy może być również dominanta, która wskazuje, jaka wysokość wpłaty była najczęstsza w 2024 r.:
Najczęstsza darowizna (dominanta) | 50 zł |
Podsumowując – warto przeanalizować więcej statystyk opisowych niż średnia arytmetyczna i suma, a także przyjrzeć się danym z kilku różnych stron.
Pułapka nr 2: Więcej nie znaczy lepiej – potrzebny jest punkt odniesienia
Przejdźmy do analizy darczyńców. W 2024 r. w sumie 450 osób indywidualnych wpłaciło środki na rzecz Fundacji ABC. Gdzie mieszkają darczyńcy? Jak wygląda ich rozkład geograficzny według województw? Ponieważ Fundacja prowadzi działania na terenie całej Polski, chcemy sprawdzić, gdzie udało nam się pozyskać największą liczbę darczyńców.
Analiza pokazuje, że aż 38% darczyńców pochodzi z trzech województw – śląskiego, wielkopolskiego i mazowieckiego:
To, co warto zrobić, to porównać geograficzny rozkład darczyńców Fundacji z rozkładem populacji Polski w wieku produkcyjnym (zakładając, że to ta grupa wiekowa zwykle przekazuje darowizny). W ten sposób dowiemy się, czy są regiony, z których mamy więcej lub mniej wspierających niż wskazywałaby na to demografia.
Pobrałam aktualne dane z Głównego Urzędu Statystycznego i dołączyłam je do tabeli:
Uwaga: oczywiście należy do takiej analizy podchodzić z ostrożnością, ponieważ liczba darczyńców w niektórych województwach jest dość niska i może się wahać z roku na rok – warto sprawdzić, czy podobne zależności występowały we wcześniejszych latach działania Fundacji.
To, co chcę przekazać, to wskazówka, że warto osadzać dane w kontekście – może nam to pomóc dostrzec zależności, które nie są widoczne na pierwszy rzut oka.
Inny przykład: gdybyśmy chcieli sprawdzić, które województwa w Polsce są najbardziej zmotoryzowane, zamiast podawać całkowitą liczbę zarejestrowanych samochodów w danym regionie, lepiej obliczyć, ile samochodów przypada na każde 1000 osób – wszak populacja mazowieckiego prawie sześciokrotnie przewyższa populację województwa opolskiego.
Pułapka nr 3: Próba to nie (zawsze) populacja
Wyobraź sobie taką sytuację: z ankiety, którą przesłałeś/przesłałaś w zeszłym miesiącu mailowo do wszystkich 450 osób wspierających finansowo Fundację ABC wynika, że darczyńcy oceniają efektywność działań organizacji na 4.9/5.
Czy jednak zdanie, które napisałam powyżej, jest poprawnie sformułowane?
Jeśli nie wszyscy darczyńcy wypełnili ankietę (a to się raczej nigdy nie zdarza), to powinniśmy powiedzieć: „Darczyńcy, którzy wypełnili ankietę, oceniają efektywność działań Fundacji ABC na 4.9/5”.
Wysyłając ankietę, otrzymujemy odpowiedzi od pewnej podgrupy – co gorsza nielosowej. Dobrowolne formularze wypełniają nieprzypadkowe osoby: na przykład takie, które są bardzo przywiązane do Fundacji i zadowolone z jej działań. Lub odwrotnie – osoby, które coś zdenerwowało i chcą wyrazić swoje niezadowolenie. Albo… osoby, które lubią wypełniać ankiety (poniższa grafika trafnie oddaje ten problem 🙂).
Oczywiście to nie znaczy, że nie warto robić ankiet. Ankiety mają ogromny sens! Na podstawie odpowiedzi respondentów (nawet nielosowych) możesz:
- wytropić potencjalne problemy,
- zauważyć mocne strony działań organizacji,
- postawić hipotezy badawcze,
- poznać język, którym posługują się darczyńcy.
Ważne jest to, aby na podstawie niereprezentatywnej próby nie wyciągać wniosków dotyczących całej populacji. Opisując dane i wyniki z ankiet/badań, zadbajmy o precyzję języka i uważajmy, aby nie wyciągać zbyt pochopnych wniosków.
I jeszcze dwie pułapki
W praktyce obserwuję jeszcze dwa błędy – opiszę je bardzo krótko:
Mylenie procentów i punktów procentowych
Przykład: jeśli odsetek darczyńców jednorazowych w 2023 r. wynosił 42%, a rok później 33%, to znaczy, że obniżył się o 9 punktów procentowych (a nie o 9%). Gdybyśmy chcieli wyrazić tę zmianę w procentach, powiedzielibyśmy, że odsetek darczyńców jednorazowych spadł o 21% (21% = efekt dzielenia 9%/42%).
Mylenie korelacji z przyczynowością
Przykład: Jeśli zauważymy dodatnią korelację między wiekiem darczyńców a kwotą przekazywanych darowizn, nie oznacza to jeszcze, że starszy wiek powoduje hojniejsze darowizny. Taka zależność może wynikać z wielu innych czynników, np. większych dochodów. Korelacja nie daje dowodów na przyczynowość – pokazuje jedynie powiązanie.
Mam nadzieję, że wskazówki, które zebrałam w tym artykule, pomogą Ci uniknąć błędów i wyciągania pochopnych wniosków z danych, a jednocześnie zainspirują Cię do wzbogacenia i poszerzenia Twoich analiz.
Życzę Ci owocnej pracy z danymi!
Na deser: #BI_NGO
Jeśli Twoja organizacji potrzebuje wsparcia w analizie i wizualizacji danych, sprawdź projekt #BI_NGO, który łączy NGO-sy z wolontariuszami – miłośnikami liczb. O efektach I edycji wolontariatu dla Fundacji Gajusz przeczytasz w tym artykule.
Inne teksty, które Cię zainteresują: