Jak działa pandas describe w języku Python? Przykład zastosowania

Jak działa pandas describe w języku Python? Przykład zastosowania
„`html

Jeśli pracujesz z danymi w języku Python, to prawdopodobnie znasz bibliotekę pandas. Jest to jedno z najpotężniejszych narzędzi do analizy danych, a jedną z jego najbardziej użytecznych funkcji jest describe(). Jak działa pandas describe w języku Python? Przykład zastosowania wyjaśni wszystko krok po kroku.

Co to jest pandas.describe()?

Funkcja describe() w bibliotece pandas służy do wygenerowania podstawowych statystyk opisowych dla różnych typów danych w zbiorze. Możemy ją wywołać zarówno na obiektach typu DataFrame, jak i Series, co daje nam szybki podgląd rozkładu danych w tabeli lub kolumnie.

Podstawowe użycie pandas.describe()

Najprostszy sposób użycia describe() wygląda następująco:

import pandas as pd

# Tworzymy przykładowy DataFrame
df = pd.DataFrame({
    'wiek': [23, 45, 31, 35, 40, 29, 50, 38],
    'pensja': [4000, 12000, 8000, 11000, 9500, 7300, 15000, 8700]
})

# Wywołujemy describe()
print(df.describe())

Po uruchomieniu otrzymamy zestaw podstawowych statystyk dla każdej kolumny zawierającej wartości liczbowe:

Statystyka wiek pensja
count 8 8
mean 36.375 9700.0
std 8.89 3440.85
min 23 4000
25% 30.5 7925
50% 36.5 9100
75% 40.75 11375
max 50 15000

Jakie statystyki zwraca pandas.describe()?

Domyślnie ta funkcja zwraca:

  • count – liczba niepustych wartości w danej kolumnie.
  • mean – średnia arytmetyczna.
  • std – odchylenie standardowe.
  • min – najmniejsza wartość.
  • 25% – pierwszy kwartyl.
  • 50% – mediana (drugi kwartyl).
  • 75% – trzeci kwartyl.
  • max – największa wartość.

Używanie pandas.describe() z danymi tekstowymi

Jeśli zastosujemy describe() do kolumn zawierających dane tekstowe lub kategoryczne, wyniki będą inne:

df_text = pd.DataFrame({
    'kraj': ['PL', 'DE', 'PL', 'FR', 'DE', 'PL', 'FR', 'ES'],
    'miasto': ['Warszawa', 'Berlin', 'Kraków', 'Paryż', 'Monachium', 'Gdańsk', 'Lyon', 'Madryt']
})

print(df_text.describe())

Wynik otrzymany dla danych tekstowych:

Statystyka kraj miasto
count 8 8
unique 4 8
top PL Warszawa
freq 3 1

Opis kategorii tekstowych obejmuje:

  • count – liczba niepustych wartości.
  • unique – liczba unikalnych wartości.
  • top – najczęściej występująca wartość.
  • freq – liczba wystąpień najczęstszej wartości.

Filtrowanie wyników pandas.describe()

Możemy ograniczyć zwracane statystyki, np. wyświetlić tylko średnią i odchylenie standardowe:

df.describe()[['mean', 'std']]

Podsumowanie

Funkcja pandas.describe() to potężne narzędzie do szybkiej analizy danych. Świetnie nadaje się do analizy zarówno wartości liczbowych, jak i kategorii tekstowych. Dzięki niej możemy w kilka sekund sprawdzić rozkład danych, wykryć nietypowe wartości czy przygotować je do dalszej analizy.

„` Inny ciekawy artykuł: Jak działa pandas itertuples w języku Python? Przykład zastosowania
KajoDataSpace