EDA w SQL

27 maja 2023

O co chodzi z procesem EDA w SQL?

Kiedy otrzymujemy nowy zestaw danych do analizy, może to być ekscytujące, ale też nieco przytłaczające. Niezależnie od tego, czy jesteśmy doświadczonymi analitykami danych, czy dopiero zaczynamy, kluczowe jest rozpoczęcie od sprawdzenia podstawowych cech naszych danych. Eksploracyjna analiza danych, czyli Exploratory Data Analysis (EDA), jest tutaj niezwykle pomocna.

EDA to proces, który pozwala nam zrozumieć nasze dane, ocenić założenia statystyczne, rozpoznać wzorce, wykryć anomalie i testować hipotezy. Ta technika ma na celu dostarczenie analitykowi jak najwięcej informacji o danych, które przygotowuje do dalszych kroków, takich jak pre-processing, feature engineering, modelowanie czy wizualizacja.

W tym artykule przedstawię kroki, które można podjąć podczas EDA z wykorzystaniem SQL, uniwersalnego języka do manipulowania danymi.

EDA w SQL – kolejność działań

1. Zrozumienie Struktury Danych

Pierwszym krokiem jest zrozumienie struktury naszych danych. Chcemy wiedzieć, jakie mamy tabele, jakie są relacje między nimi i jakie kolumny są dostępne.

W SQL, możemy to zrobić za pomocą polecenia DESCRIBE lub SHOW COLUMNS.

DESCRIBE nazwa_tabeli;

Lub:

SHOW COLUMNS FROM nazwa_tabeli;

2. Analiza Pojedynczych Zmiennych

Następnie chcemy zrozumieć rozkład naszych zmiennych. Możemy to zrobić za pomocą funkcji agregujących SQL, takich jak COUNT, SUM, AVG, MIN i MAX.

SELECT 
    COUNT(*) as total_rows,
    COUNT(DISTINCT nazwa_kolumny) as unique_values,
    AVG(nazwa_kolumny) as mean,
    MIN(nazwa_kolumny) as min,
    MAX(nazwa_kolumny) as max
FROM 
    nazwa_tabeli;

3. Analiza Brakujących Danych

Brakujące dane mogą wpływać na jakość naszych analiz i modeli. Możemy użyć SQL do zidentyfikowania, które kolumny mają brakujące wartości.

SELECT 
    COUNT(*) - COUNT(nazwa_kolumny) as missing_values
FROM 
    nazwa_tabeli;

4. Analiza Korelacji i Zależności

Chcemy zrozumieć, jak nasze zmienne są ze sobą powiązane. SQL pozwala nam to zrobić za pomocą funkcji takich jak CORR dla korelacji

lub poprzez zastosowanie operatorów takich jak GROUP BY, aby zobaczyć, jak różne grupy wpływają na nasze zmienne.

SELECT 
    CORR(kolumna1, kolumna2) as correlation
FROM 
    nazwa_tabeli;

5. Wykrywanie Anomalii

Anomalie mogą wpływać na jakość naszych analiz i modeli. Możemy użyć SQL do wykrywania potencjalnych anomalii, na przykład przez identyfikację wartości odstających.

SELECT 
    *
FROM 
    nazwa_tabeli
WHERE 
    kolumna > (SELECT AVG(kolumna) + 3 * STDDEV(kolumna) FROM nazwa_tabeli) 
    OR 
    kolumna < (SELECT AVG(kolumna) - 3 * STDDEV(kolumna) FROM nazwa_tabeli);

Podsumowanie

EDA jest niezwykle ważnym krokiem w procesie analizy danych. Umożliwia ona lepsze zrozumienie naszych danych i pozwala podjąć decyzje o następnych krokach. Wykorzystanie SQL w procesie EDA umożliwia efektywne manipulowanie danymi oraz uzyskiwanie cennych informacji, które pomagają w podejmowaniu decyzji i budowaniu modeli. Pamiętaj jednak, że to tylko punkt wyjścia – dalsza analiza zależy od charakterystyki twojego zestawu danych i twoich specyficznych celów.

Autorem artykułu jest Kajo Rudziński – analytical data architect, uznany ekspert w analizie danych, twórca KajoData oraz społeczności dla analityków KajoDataSpace.

To tyle w tym temacie. Analizujcie w pokoju!

Podobał Ci się ten artykuł 🙂?
Podziel się nim w Social Mediach 📱
>>> udostępnij go na LinkedIn i pokaż, że codziennie uczysz się czegoś nowego
>>> wrzuć go na Facebooka, to się może przydać któremuś z Twoich znajomych
>>> Przypnij sobie tą stronkę to zakładek, może się przydać w przyszłości

Wolisz oglądać 📺 niż czytać – nie ma problemu
>>> Obserwuj i oglądaj KajoData na YouTube

Inne ciekawe artykuły: