Złe dane, błędne dane, niepoprawne dane, niedokładne dane – innymi słowy: dane z dupy. Dostaliście zarówno od rządu, jak i od matki, od waszego teścia, zięcia, teściowej, od sąsiada z bloku. Od telewizji publicznej. Od korporacji.
Sprawa jest o tyle istotna, że radzenie sobie ze złymi danymi, jest jedną z tych umiejętności, która odróżnia profesjonalistę od amatora.
Co to są złe dane?
Dane z dupy, to po prostą są dane, które są niepoprawne. Są dane, które ktoś:
- źle zebrał
- źle składował
- źle zagregował
albo wszystko na raz. I to jest problem bo to są dane, które robią poważną krzywdę.
W 2017 roku zwolniono kilkuset pracowników Tesli tylko dlatego, że źle wypadli w „Annual Performance Reviews”. Wiesz, to są te ankiety, które wypełniamy u naszego pracodawcy raz na rok, w których odpowiadamy na pytania np. czy zrealizowaliśmy nasze roczne cele albo czy się rozwinęliśmy itd. I te pytania są zazwyczaj konstruowane w ten sposób, że odpowiada się na nie binarnie, tzn. TAK – NIE. Albo w skali 1 – 5. Natomiast świat jest złożony. Zazwyczaj odpowiedź na tak postawione pytanie brzmi „trochę” albo „to zależy”. Moim zdaniem, trudno na tej podstawie ocenić produktywność pracownika. Ale co ja tam wiem.
Błędne dane – ich rodzaje i jak je znaleźć
Wejdźmy głębiej w dane z dupy. Otóż, uogólniając, dane z dupy mogą być albo źle zbierane
albo źle składowane. I to są dwie troszeczkę różne kwestie.
Źle zbierane dane to troszeczkę przykład Tesli. To znaczy: zadajemy pewnego rodzaju pytanie, ale odpowiedź na to pytanie, wcale nie jest odpowiedzią na to to pytanie.
Wydaje się nam, że coś mierzymy, tzn. mierzymy jak wydajni są nasi pracownicy, ale w rzeczywistości stworzyliśmy pewną sztuczną metrykę, zły KPI, i na podstawie tej sztucznej metryki sądzimy, że mamy prawdziwy obraz rzeczywistości.
Mówiąc wprost, realizacja celów pracownika w dużej firmie ma tyle zmiennych, że to zawsze powinna być osobista ocena. Porównywanie pracowników do siebie i „odcinanie” dolnych 20% jest jak porównywanie różnych samochodów i „odcinanie najwolniejszych”. Tymczasem w życiu przyda Ci się zarówno BMW, jak i traktor czy autobus.
Drugi powód, dla którego często mamy do czynienia z danymi z dupy jest taki, że dane są źle składowane. Być może kojarzysz te Excele, które jak otwierasz, to Was aż Cię boli brzuszek na myśli, ile będzie trzeba się z tym bawić, żeby się dokopać do czegoś sensownego. Masz jakieś powtórzone rzędy, niektóre kolumny są w ogóle bez sensu, niektóre pola są puste itd.
Nie musi być nawet tak źle. Wystarczą dane sprzedażowe agregowane tygodniowo. I raz jest to kalendarz ISO, a raz kalendarz gregoriański. I co? I jesteś w dupie.
Cyfroza a złe dane
Żyjemy w środowisku cyfrowym. Mamy cyfrową rozrywkę. Podejmujemy decyzje na podstawie cyfrowych rzeczy, które widzimy na naszym telefonie, na naszym komputerze. Do tego dochodzi Chat GPT.
Cyfroza podpowiada nam co oglądać, czego nie oglądać, czego słuchać…
Wiesz co zadecydowało o tym, że teraz to czytasz?
DANE.
Zadecydował o tym algorytm, który Ci podpowiedział, że to jest właśnie ta informacja, której ty szukasz. Dlatego tak ważne jest wiedzieć o tym czym mogą być złe dane i zdawać sobie sprawę z tego, że trzeba do nich podchodzić poważnie.
W środowisku technicznym mówi się: GARBAGE IN = GARBAGE OUT
To znaczy – jeżeli damy dane złej jakości, źle zebrane albo źle składowane to, to co będziemy mieli na końcu, to też będzie GARBAGE, to właśnie będą dane z dupy.
Przykładem takich danych z dupy są bańki informacyjne w których żyjemy. Na podstawie wyszukiwanych przez nas informacji i wszystkich klików w świecie cyfrowym, algorytmy są w stanie dosyć nieźle oszacować, w co klikamy chętnie. Więc później my widzimy w większości tylko te rzeczy, w które klikamy chętnie. Wydaje się nam, że to jest obraz świata, bo „sprawdziliśmy w internecie”. Nie, nie sprawdziliśmy. Sprawdziliśmy jedynie w obrębie pewnej bańki. Jak często facebook pokazuje Ci informacje, z którymi się nie zgadzasz? Poglądy odmienne od Twoich? No właśnie. Nie ma się tu co oburzać, natomiast trzeba być tego świadomym.
Mój były manager – Nick – mawiał: „Assuming makes an ass out of you and me.” Bo to idzie tak: jest nasze założenie, później są dane, a później jest nasza decyzja. I niby dane były OK, niby nasza decyzja była logiczna na podstawie tych danych, ale to założenie było bez sensu.
Czy w takim przypadku to też były błędne dane? Moim zdaniem tak. Bo one nie opisywały tego, co sądziliśmy, że opisują.
Jak walczyć z danymi z dupy?
Po pierwsze: świadomość.
To jest świadomość tego, że złe dane są wokół nas i trzeba być bardzo ostrożnym. To jest trochę tak jak z jazdą samochodem. Zasada ograniczonego zaufania. Patrzymy czy te dane pochodzą z wiarygodnego źródła. Czy mówimy o średniej, czy mówimy o medianie, bo to jest duża różnica.
Po drugie: próbujemy w dane wejść.
Jeżeli uda nam się dobrać do tabeli (np. gdzie mamy dane z którymi pracujemy – bo są od innego zespołu / kolegi / szefa), to w dane wchodzimy. Robimy podstawową eksplorację, czyli coś co profesjonalnie się nazywa exploratory data analysis. Sprawdzamy wartości, kolumny, rzędy. Robimy odchylenie standardowe. Porównujemy średnią i medianę. Rysujemy sobie histogram.
Patrzymy jak wygląda dystrybucja: czy to jest taka bardziej wieża Eiffla, czy to jest taka bardziej wysepka?
Patrzymy czy np. nie wychodzą nam tak naprawdę dwa różne zbiory danych, które powinniśmy zmierzyć osobno. Patrzymy, czy są jakieś rzeczy, które, tak jak ten Performance Review. Pola, które są określane cyferką 0 albo 1 albo od 1 do 5, a tak naprawdę to jest coś czego nie do końca się da
cyferką opisać.
A zatem – wchodzimy w dane. Trzeba się nimi ubabrać. Im więcej potu na treningu tym mniej krwi na ringu. Im głębiej wejdziesz, tym mniej będzie bolało
Po trzecie: kontekst i rozmowa z ludźmi
Dane nie biorą się znikąd. Wiem, zazwyczaj biorą się z algorytmów, ale te bliższe nam jednak zazwyczaj mają swoje konkretne źródło. Anegdota teściowej, ankieta stacji telewizyjnej, raport od jakiegoś zespołu, tabela z Internetu. Wiarygodność takiego źródła zawsze należy spróbować ocenić. I nie chodzi mi o takie podejście, że JA TEMU NIE UFAM. Nie, tak nigdzie nie zajdziemy.
Jesteśmy ludźmi i musimy współpracować, a zatem – ufać sobie. Ufać danym. Ale żeby to zrobić potrzebujemy znać kontekst. Kto zebrał te dane? Dlaczego? Czy najpierw były dane, a potem teza, czy na odwrót? Dlaczego taka kolumna jest taka dziwna? Dlaczego tu są duplikaty.
Dlatego… porozmawiajmy z twórcą danych. Co mierzył? Dlaczego tak? Dlaczego tak to zebrał? Bez złości czy chęci wykazania błędu. Raczej… z cierpliwością, ciekawością i ostrożnością. Odpowiedzialnie. I będzie nam lepiej. Błędne dane, złe dane, dane z dupy będą się pojawiać rzadziej, bo lepiej będziemy rozumieli złożoną rzeczywistość wokół nas. I niejeden ból zniknie.
To tyle w tym temacie. Analizujcie w pokoju!
Podobał Ci się ten artykuł?
Podziel się nim w Social Mediach:
>>> udostępnij go na LinkedIn i pokaż, że codziennie uczysz się czegoś nowego
>>> wrzuć go na Facebooka, to się może przydać któremuś z Twoich znajomych
>>> Przypnij sobie tą stronkę to zakładek, może się przydać w przyszłości
Inne ciekawe artykuły o danych:
- Jak zacząć pracę w IT jako Analityk Danych?
- Co to jest CTE | Common Table Expression
- Data Blending Tableau – jak to działa
Wolisz oglądać niż czytać – nie ma problemu
>>> Obserwuj i oglądaj KajoData na YouTube
A jeśli chcesz się dowiedzieć czegoś więcej o statystyce– zajrzyj tutaj.