
Jeśli pracujesz z danymi w języku Python, to prawdopodobnie znasz bibliotekę pandas
. Jest to jedno z najpotężniejszych narzędzi do analizy danych, a jedną z jego najbardziej użytecznych funkcji jest describe()
. Jak działa pandas describe w języku Python? Przykład zastosowania wyjaśni wszystko krok po kroku.
Co to jest pandas.describe()?
Funkcja describe()
w bibliotece pandas
służy do wygenerowania podstawowych statystyk opisowych dla różnych typów danych w zbiorze. Możemy ją wywołać zarówno na obiektach typu DataFrame
, jak i Series
, co daje nam szybki podgląd rozkładu danych w tabeli lub kolumnie.
Podstawowe użycie pandas.describe()
Najprostszy sposób użycia describe()
wygląda następująco:
import pandas as pd
# Tworzymy przykładowy DataFrame
df = pd.DataFrame({
'wiek': [23, 45, 31, 35, 40, 29, 50, 38],
'pensja': [4000, 12000, 8000, 11000, 9500, 7300, 15000, 8700]
})
# Wywołujemy describe()
print(df.describe())
Po uruchomieniu otrzymamy zestaw podstawowych statystyk dla każdej kolumny zawierającej wartości liczbowe:
Statystyka | wiek | pensja |
---|---|---|
count | 8 | 8 |
mean | 36.375 | 9700.0 |
std | 8.89 | 3440.85 |
min | 23 | 4000 |
25% | 30.5 | 7925 |
50% | 36.5 | 9100 |
75% | 40.75 | 11375 |
max | 50 | 15000 |
Jakie statystyki zwraca pandas.describe()?
Domyślnie ta funkcja zwraca:
- count – liczba niepustych wartości w danej kolumnie.
- mean – średnia arytmetyczna.
- std – odchylenie standardowe.
- min – najmniejsza wartość.
- 25% – pierwszy kwartyl.
- 50% – mediana (drugi kwartyl).
- 75% – trzeci kwartyl.
- max – największa wartość.
Używanie pandas.describe() z danymi tekstowymi
Jeśli zastosujemy describe()
do kolumn zawierających dane tekstowe lub kategoryczne, wyniki będą inne:
df_text = pd.DataFrame({
'kraj': ['PL', 'DE', 'PL', 'FR', 'DE', 'PL', 'FR', 'ES'],
'miasto': ['Warszawa', 'Berlin', 'Kraków', 'Paryż', 'Monachium', 'Gdańsk', 'Lyon', 'Madryt']
})
print(df_text.describe())
Wynik otrzymany dla danych tekstowych:
Statystyka | kraj | miasto |
---|---|---|
count | 8 | 8 |
unique | 4 | 8 |
top | PL | Warszawa |
freq | 3 | 1 |
Opis kategorii tekstowych obejmuje:
- count – liczba niepustych wartości.
- unique – liczba unikalnych wartości.
- top – najczęściej występująca wartość.
- freq – liczba wystąpień najczęstszej wartości.
Filtrowanie wyników pandas.describe()
Możemy ograniczyć zwracane statystyki, np. wyświetlić tylko średnią i odchylenie standardowe:
df.describe()[['mean', 'std']]
Podsumowanie
Funkcja pandas.describe()
to potężne narzędzie do szybkiej analizy danych. Świetnie nadaje się do analizy zarówno wartości liczbowych, jak i kategorii tekstowych. Dzięki niej możemy w kilka sekund sprawdzić rozkład danych, wykryć nietypowe wartości czy przygotować je do dalszej analizy.
Opanuj analizę danych w Pythonie z moim kursem!
Opanujesz podstawy programowania w Pythonie, w tym typy danych, zmienne, listy, słowniki, funkcje oraz obsługę błędów. Nauczysz się korzystać z biblioteki pandas do zaawansowanej analizy danych i pracy z różnymi rodzajami danych. Zrozumiesz proces analizy, eksploracji (EDA) i wizualizacji. Tworzenie własnych funkcji przygotuje Cię do rozmów kwalifikacyjnych i rozwiązywania rzeczywistych problemów biznesowych.
Zostań analitykiem danych – dołącz do KajoDataSpace!
Najlepsza ścieżka do zawodu analityka danych. Dostęp do pełnych wersji kursów online z Excela, SQLa, Tableau i Pythona z certyfikatami + specjalistycznych webinarów z PowerBI.
Ekskluzywana ale pomagająca sobie społeczność.
Ponad 61 godzin materiałów video.
Spotkania LIVE co miesiąc.
Mój osobisty mentoring.