Data cleaning to podstawa analizy danych. Dlaczego analiza danych jest trudna

12 stycznia 2026

data cleaning analiza danych - czyszczenie danych

Jest takie zdjęcie z kampanii wyborczej, na którym Donald Trump stoi przy śmieciarce. I jakkolwiek absurdalnie to zabrzmi, to analityk danych bywa właśnie kimś takim. Z jednej strony ma dostęp do potężnych narzędzi, systemów i informacji, które realnie wpływają na decyzje biznesowe. Z drugiej strony przez większość czasu grzebie w danych, które są brudne, niekompletne, niespójne i zwyczajnie problematyczne.

I to jest coś, o czym bardzo rzadko mówi się na początku drogi z analizą danych. Wizerunek analityka to często kolorowe dashboardy, sprytne wykresy, zgrabne wnioski i prezentacje dla zarządu. Rzeczywistość jest taka, że to może być 10 procent pracy. Reszta to czyszczenie danych. Żmudne, czasem frustrujące, ale absolutnie kluczowe.

W tym artykule chcę uporządkować temat data cleaningu i pokazać, dlaczego bez niego analiza danych po prostu się nie klei. Opowiem o pięciu podstawowych operacjach, które wykonuję praktycznie zawsze, niezależnie od narzędzia, branży czy skali danych. Jeśli myślisz o pracy jako analityk danych albo już nim jesteś i zastanawiasz się, czemu wszystko ciągle „nie działa”, to bardzo możliwe, że odpowiedź jest właśnie tutaj.


Dlaczego czyszczenie danych zajmuje tyle czasu

Jeżeli ktoś wyobraża sobie analizę danych jako serię sprytnych zapytań SQL i eleganckich wizualizacji, to pierwsze zetknięcie z realnymi danymi bywa bolesne. Dane z systemów produkcyjnych rzadko są idealne. Powstają w wyniku pracy ludzi, aplikacji, integracji, migracji i kompromisów biznesowych.

Każdy z tych elementów jest potencjalnym źródłem błędów. Ktoś coś wpisał ręcznie. Coś się nie zapisało. Jakiś system przez dwa dni nie działał. Ktoś zmienił format daty. Ktoś inny uznał, że „true” można zapisać jako T, 1 albo „tak”.

Efekt jest taki, że zanim zaczniemy cokolwiek liczyć, musimy zrozumieć, z czym w ogóle mamy do czynienia. Data cleaning to nie jest etap techniczny, który można pominąć. To fundament całej analizy. Jeżeli fundament jest krzywy, to każdy wykres i każdy wniosek też będzie krzywy, nawet jeśli wygląda bardzo profesjonalnie.


Dwa oblicza czyszczenia danych

Czyszczenie danych ma dwa wymiary. Pierwszy jest techniczny. To operacje na tabelach, kolumnach, wartościach. SQL, Python, Excel, Power BI, Tableau, cokolwiek. To jest ta część, o której zwykle się mówi.

Drugi wymiar jest miękki i znacznie rzadziej poruszany. To rozmowy z ludźmi. Z osobami, które te dane tworzą, zasilają systemy, korzystają z raportów. Bardzo często coś, co z perspektywy analityka wygląda na błąd, z perspektywy biznesu jest poprawne. Albo odwrotnie.

W tym artykule skupiam się na technicznej stronie czyszczenia danych, ale warto pamiętać, że bez kontekstu biznesowego nawet najlepiej „wyczyszczone” dane mogą prowadzić do złych wniosków.


KajoDataSpace

Punkt 1: identyfikacja i usuwanie duplikatów

Pierwszy krok, który wykonuję niemal zawsze, to sprawdzenie duplikatów. I nie chodzi tu od razu o ich usuwanie. Najpierw trzeba je zidentyfikować i zrozumieć, skąd się biorą.

Duplikat nie zawsze oznacza błąd. Wszystko zależy od struktury danych. Jeżeli mamy tabelę produktów i każdy produkt powinien występować raz, to duplikaty są problemem. Ale jeżeli sprzedajemy międzynarodowo i ten sam produkt występuje w kilku wersjach językowych, to formalnie są to różne rekordy, nawet jeśli identyfikator produktu jest ten sam.

Problem pojawia się wtedy, gdy nieświadomie zaczynamy je zliczać. Suma sprzedaży, liczba zamówień, stany magazynowe nagle zaczynają się nie zgadzać. Najgorszy scenariusz jest wtedy, gdy duplikatów jest niewiele. Nie widać od razu, że coś jest nie tak. Raporty idą w świat, decyzje są podejmowane, a po kilku miesiącach okazuje się, że wszystko było lekko zawyżone.

Dlatego identyfikacja duplikatów to nie jest opcjonalny krok. To absolutna podstawa. Nawet jeśli ostatecznie nic nie usuwasz, musisz wiedzieć, że one tam są i dlaczego.


Punkt 2: radzenie sobie z brakującymi wartościami

Idealny świat danych nie istnieje. W praktyce niemal zawsze trafisz na brakujące wartości. W SQL-u nazywamy je NULL-ami i są one źródłem niekończących się problemów, jeżeli się je zignoruje.

Brakująca wartość może znaczyć bardzo różne rzeczy. Czasem brak jest informacją samą w sobie. Na przykład w tabeli zamówień kolumna „numer zwrotu” jest pusta wtedy, gdy zwrotu nie było. I to jest całkowicie poprawne.

Czasem brak danych wynika z awarii systemu. Aplikacja nie działała przez kilka godzin, czujnik nie wysłał pomiaru, integracja się wysypała. Wtedy pojawia się pytanie, co z tym zrobić. Usunąć te rekordy? Zostawić i raportować braki? A może uzupełnić wartości w jakiś sposób?

W danych liczbowych, szczególnie takich jak pomiary temperatury, zużycia czy czasu, czasem stosuje się uzupełnianie na podstawie sąsiednich wartości. Średnia z poprzedniej i następnej obserwacji bywa rozsądnym kompromisem, ale tylko w bardzo konkretnych warunkach.

Najgorsze, co można zrobić, to zignorować temat. Brakujące wartości potrafią zepsuć agregacje, średnie, percentyle i całe modele analityczne. Dlatego sprawdzanie NULL-i jest równie ważne jak sprawdzanie duplikatów.


Punkt 3: normalizacja i standaryzacja danych

Normalizacja brzmi jak teoria baz danych i faktycznie, często kojarzy się z projektowaniem systemów. Ale z perspektywy analityka ma bardzo praktyczny wymiar.

Chodzi o to, żeby dane były uporządkowane logicznie. Jeżeli w tabeli zamówień mamy numer klienta, imię, nazwisko i adres email, to bardzo możliwe, że coś tu jest nie tak. Dane klienta powinny być w osobnej tabeli, a w zamówieniach powinniśmy trzymać tylko identyfikator.

Drugi aspekt standaryzacji to formaty i jednostki. Jeżeli raportujemy sprzedaż, to nie może być tak, że raz jest w złotówkach, raz w dolarach. Jeżeli raportujemy wagę, to nie mieszamy kilogramów z gramami. Daty muszą mieć jeden format, a nie dziesięć różnych sposobów zapisu.

To są rzeczy, które bardzo łatwo przeoczyć, szczególnie gdy dane pochodzą z wielu źródeł. A potem okazuje się, że wykres niby wygląda dobrze, ale liczby kompletnie się nie zgadzają z rzeczywistością.


Punkt 4: sprawdzanie spójności i sensowności danych

To jest moment, w którym analityk musi włączyć zdrowy rozsądek. Dane mogą być technicznie poprawne, ale kompletnie bez sensu.

Klasyczny przykład to pola tekstowe, w które użytkownicy wpisują, co chcą. Miasta, kraje, nazwy produktów. Warszawa potrafi występować jako „Warszawa”, „warszawa”, „Wawa”, „stolica Polski” i w dziesiątkach innych wariantów. Formalnie wszystko jest poprawne. Analitycznie to koszmar.

Podobnie jest z flagami logicznymi. Jeżeli nie wymusimy jednego formatu, to bardzo szybko pojawią się wartości typu T, F, true, false, 1, 0, tak, nie. A potem każda analiza wymaga dodatkowej logiki, żeby to wszystko sprowadzić do jednego mianownika.

Spójność danych to też sprawdzanie, czy wartości mieszczą się w rozsądnych zakresach. Jeżeli ktoś ma datę urodzenia w 2099 roku albo sprzedaż ujemną bez zwrotu, to coś tu ewidentnie nie gra.


Punkt 5: wykrywanie i ewentualne usuwanie anomalii

To najbardziej niebezpieczny etap czyszczenia danych. Anomalie, czyli outliery, potrafią być zarówno błędem systemu, jak i bardzo ważną informacją.

Jeżeli przez dwa dni stan magazynowy wynosi zero, to może oznaczać, że nie było dostawy. Ale może też oznaczać awarię systemu. Jeżeli jednego dnia sprzedaż jest pięć razy wyższa niż zwykle, to może być błąd zliczania, ale może też być efekt promocji.

Usuwanie anomalii bywa kuszące, bo „psują wykresy” i „rozjeżdżają średnią”. Problem w tym, że bardzo łatwo usunąć coś, co jest realnym sygnałem biznesowym. Dlatego zanim cokolwiek wytniesz, musisz wiedzieć, dlaczego to robisz i jakie będą konsekwencje.

Statystycy powiedzą, że anomalii się nie usuwa. Biznes często potrzebuje decyzji tu i teraz. Rolą analityka jest znaleźć balans między metodologią a praktyką.


Data cleaning jako praca detektywistyczna

Wbrew pozorom czyszczenie danych nie musi być nudne. Dla mnie to często najbardziej satysfakcjonująca część pracy. Szukanie zależności, wyłapywanie błędów, dochodzenie do tego, co poszło nie tak i dlaczego.

Jeżeli patrzysz na tabelę i „czujesz”, że coś się nie zgadza, to bardzo dobra cecha analityka. Nie chodzi o perfekcję, tylko o ciekawość i czujność. O to, żeby nie brać danych na wiarę tylko dlatego, że przyszły z systemu.

To jest też moment, w którym bardzo szybko widać różnicę między osobą, która tylko zna narzędzia, a osobą, która rozumie dane.


Dlaczego bez data cleaningu analiza nie ma sensu

Każdy wykres, każda metryka i każdy wniosek opiera się na danych wejściowych. Jeżeli te dane są złej jakości, to nawet najbardziej zaawansowana analiza nic nie pomoże.

Czyszczenie danych trwa długo, bo musi trwać długo. To nie jest etap, który da się zautomatyzować w stu procentach. Zawsze będzie wymagał myślenia, kontekstu i decyzji.

Jeżeli uczysz się analizy danych albo myślisz o przebranżowieniu, to warto mieć świadomość, w co się pakujesz. Ta praca to nie tylko efektowne wizualizacje. To przede wszystkim solidna robota u podstaw.


Zapisz się do
newslettera

🎁 i zgarnij darmowe bonusy:

Poradnik Początkującego Analityka

Video - jak szukać pracy w IT

Regularne dawki darmowej wiedzy, bez spamu

Zakończenie

Data cleaning to fundament analizy danych. Bez niego wszystko, co robimy później, jest obarczone ryzykiem błędu. Duplikaty, braki, niespójności, złe formaty i anomalie to codzienność, a nie wyjątek.

Jeżeli polubisz ten etap pracy, to bardzo możliwe, że analiza danych jest dla Ciebie. Jeżeli nie, to prędzej czy później i tak będziesz musiał się z nim zmierzyć.

Jeśli uważasz, że ten artykuł może komuś pomóc zrozumieć, jak naprawdę wygląda praca z danymi, udostępnij go dalej w mediach społecznościowych. To najlepszy sposób, żeby ta wiedza dotarła do osób, które właśnie stoją na początku swojej drogi z analizą danych.

Autorem artykułu jest Kajo Rudziński – analytical data architect, uznany ekspert w analizie danych, twórca KajoData oraz społeczności dla analityków KajoDataSpace.

To tyle w tym temacie. Analizujcie w pokoju!  

Podobał Ci się ten artykuł 🙂?
Podziel się nim w Social Mediach 📱
>>> udostępnij go na LinkedIn i pokaż, że codziennie uczysz się czegoś nowego 
>>> wrzuć go na Facebooka, to się może przydać któremuś z Twoich znajomych 
>>> Przypnij sobie tą stronkę to zakładek, może się przydać w przyszłości

Wolisz oglądać 📺 niż czytać – nie ma problemu
>>> Obserwuj i oglądaj KajoData na YouTube

Wolisz czytać po angielsku? No problem.

Inne ciekawe artykuły:

Ja Ci ją z przyjemnością wyślę. Za darmo. Bez spamu.

Poradnik Początkującego Analityka

Video - jak szukać pracy w IT

Regularne dawki darmowej wiedzy, bez spamu.