Przejdź do treści

O czterech błędach analitycznych w HR… oraz o czterech prostych sposobach ich uniknięcia…

Średnia to chyba najczęściej stosowana statystyka. Liczymy ją właściwie zawsze, niekoniecznie zastanawiając się nad sensownością tego kroku i znaczeniem obliczonego wyniku. Pomimo swojej prostoty i intuicyjności, właściwie użycie średniej wcale nie jest takie oczywiste.

W poniższym tekście opisują kilka często popełnianych błędów przy wykorzystywaniu średniej oraz to jak ich uniknąć.

Błąd 1 – Używanie średniej w rozkładach skośnych

Średnia świetnie sprawdza się jako podsumowanie rozkładów, które są symetryczne, np. rozkładu normalnego. Gorzej jeśli nasze wyniki rozkładają się w inny sposób. Często mamy do czynienia z tak zwanymi rozkładami skośnymi, w których następuje skumulowanie wyników na jednym z krańców zmiennej, którą analizujemy. Popatrzmy na poniższe wykresy:

Rozkład skośny i normalny

W przypadku rozkładu normalnego, średnia, modalna i mediana pokrywają się ze sobą. Natomiast w rozkładach skośnych średnia jest „ciągnięta” w stronę wyników skrajnych dużo szybciej niż pozostałe dwie miary tendencji centralnej. Średnia jest więc miarą stosunkowo mało odporną na pojawiające się skrajne wartości, zarówno te bardzo wysokie jak i bardzo niskie. Dlatego też słabo nadaje się do podsumowania niesymetrycznych danych. Sugeruje nam błędne wnioski co do wartości typowych wyników.

Przykład? Dane dotyczące średnich wynagrodzeń publikowane przez GUS…i komentarze internautów, w których nieparlamentarnym językiem zapytują: „kto i gdzie ***** aż tyle zarabia, bo jakoś ja i moi znajomi nie łapiemy się na ten pułap…”.

W większości firm oraz całej gospodarce, wynagrodzenia rozkładają się najczęściej w sposób prawoskośny. Stąd oburzenie internautów. Pytanie dlaczego GUS tak rzadko podaje medianę i modalną wynagrodzeń.

Wniosek praktyczny: W przypadku skośnego rozkładu lepiej użyć mediany zamiast średniej. Obliczenia będą lepiej odzwierciedlać typowy wynik w naszych danych. Można też policzyć obie wartości i porównać je ze sobą. Im są od siebie bardziej oddalone, tym dane bardziej skośne i tym mniej można ufać średniej.

Błąd 2 – Liczenie średnich na małej ilości danych

Popatrzmy na dwa zestawy danych:

W zestawie A nie dzieje się w sumie nic ciekawego, średnia i mediana wynoszą równe 3. Natomiast w zestawie B, po zmianie tylko jednej wartości na skrajną, następuje również gwałtowny wzrost średniej aż do wartości 102. Intuicyjnie widzimy, że w zestawie B, wartość 102 w żaden sposób nie może zostać uznana za właściwe podsumowanie naszych danych. 102 jest znacząco różne zarówno od wartości 1, 2, 3 i 4, jak i od wartości 500.

Pamiętajmy o tym, że w małych próbach, nawet jedna skrajna wartość może znacznie zaburzyć średnią. Dlatego jeśli macie 2, 3, 5 czy 10 punktów danych, dobrze zastanówcie się czy średnia jest najlepszą statystyką do podsumowania tak małego zbioru danych.

Wniosek praktyczny: Jeśli macie mały zbiór danych, zdecydowanie lepiej bazować na medianie. Średnia jest tutaj zdecydowanie bardziej ryzykowną miarą.

Błąd 3 – Uśrednianie średnich

To jedna z gorszych praktyk związanych z wykorzystaniem średniej. Niestety stosowana dalej stosunkowo często gdy ktoś chce policzyć średnią globalną dla wielu grup. Przykłady? Oj jest ich mnóstwo. Weźmy na badanie satysfakcji na skali od 1 do 5 i takie oto wyniki:

  • Dział produkcji: 3,2
  • Dział łańcucha dostaw: 4,5
  • Dział IT: 4,4
  • Dział kadr: 2,3

Ile wynosi średnia dla całej firmy…? Prawda, że kusi aby policzyć średnią arytmetyczną i podać, że wynosi ona 3,6?  Oj kusi…

Jeśli jeszcze nie czujcie, że coś tu nie gra, to dodajmy do naszych danych dodatkową informację o tym jak wygląda zatrudnienie w poszczególnych działach oraz jak radzą sobie przełożeni:

  • Dział produkcji: 500 osób – „normalni przełożeni”
  • Dział łańcucha dostaw: 50 osób – „normalni przełożeni”
  • Dział IT: 4,4 – 12 osób – „normalni przełożeni”
  • Dział kadr: 2,3 – 3 osoby – „szef despota”

Teraz ewidentnie widać, że liczenie średniej arytmetycznej ze średnich to zły pomysł. Trzy osoby z działu kadr, których szef jest raczej mało przyjazny, zaniżą nam wynik dla całej firmy.

Wniosek praktyczny: Nigdy NIE licz średniej arytmetycznej dla średnich wyników poszczególnych grup/działów. Zamiast tego policz średnią na wszystkich wynikach bez podziału na podgrupy lub użyj średniej ważonej. Jako wagi przyjmij ilość punktów danych w każdej z grup.

Błąd 4 – Liczenie średniej tam gdzie nie wolno tego robić

Liczenie średniej ma sens tylko wtedy, kiedy mamy do czynienia z odpowiednimi danymi. W przyjętym powszechnie w metodologii nauk podziale skal Stevensa, powiemy, że potrzebne są dane na poziomie interwałowym lub ilorazowym.

W praktyce oznacza to, że nie powinniśmy liczyć średniej dla danych jakościowych lub porządkowych. Niby sprawa oczywista, jednak w praktyce wciąż można spotkać się z wykorzystaniem tej statystyki na nieodpowiednich danych.

Przeanalizujmy przykład badania satysfakcji kandydata gdzie dostaje on do wypełnienia ankietę zadowolenia na skali:

1 – zdecydowanie nie polecam tego pracodawcy

2 – nie mam zdania

3 – polecam ale sam nie podjąłbym pracy

4 – polecam i chętnie podjąłbym pracę

Jak widać liczby to tylko „przykrywki” dla kategorii jakościowych, które w najlepszym razie da się ustawić od najbardziej negatywnej do najbardziej pozytywnej. Jednak średnia, jakkolwiek możliwa do policzenia, nie ma kompletnie żadnego sensownego znaczenia.

Mam jeszcze jeden przykład. Choć nie wiem czy wypada… Pytanie było takie: „Na jakim stanowisku pracujesz:

1 – pracownik produkcji

2 – inżynier/specjalista

3 – menedżer

Średnia wyszła 1,64… OMG….

Wniosek praktyczny: Zanim policzycie średnią, sprawdźcie czy ma to sens biorąc pod uwagę dane, które macie. Jeśli dane mają charakter jakościowy pokażcie ile razy pojawiły się poszczególne odpowiedzi. Zróbcie wykres częstości, zwany inaczej histogramem.

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *