
Pracując z biblioteką pandas w języku Python, często muszę szybko sprawdzić podstawowe informacje o moim DataFrame. Właśnie do tego służy metoda pandas.info()
. Jest to jedno z najważniejszych narzędzi diagnostycznych, które pozwala mi na błyskawiczną analizę struktury danych. W tym artykule pokazuję, jak dokładnie działa pandas.info()
, jak go używać i jakie informacje dostarcza.
Czym jest pandas.info()
i dlaczego warto go używać?
Metoda pandas.info()
służy do wyświetlania podstawowych informacji o obiekcie DataFrame
. Dzięki niej mogę szybko ocenić:
- liczbę wierszy i kolumn,
- nazwy kolumn,
- liczbę niepustych wartości w każdej kolumnie,
- typy danych dla każdej kolumny,
- ilość pamięci zajmowaną przez
DataFrame
.
Jest to bardzo przydatne przy eksploracyjnej analizie danych (EDA), ponieważ pozwala mi w prosty sposób sprawdzić, czy w zbiorze danych występują braki albo czy typy kolumn zgadzają się z moimi oczekiwaniami.
Przykład zastosowania pandas.info()
Najlepiej zrozumieć działanie metody pandas.info()
na przykładzie. Załóżmy, że mam poniższy zbiór danych:
import pandas as pd
# Tworzenie przykładowego DataFrame
data = {
"Imię": ["Anna", "Jan", "Katarzyna", "Marek", "Monika"],
"Wiek": [25, 30, 35, None, 40],
"Miasto": ["Warszawa", "Kraków", "Gdańsk", "Wrocław", "Łódź"],
"Zarobki": [5000, 6000, None, 7000, 8000]
}
df = pd.DataFrame(data)
# Wywołanie metody info()
df.info()
Po uruchomieniu tego kodu otrzymuję następujący wynik:
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Imię 5 non-null object
1 Wiek 4 non-null float64
2 Miasto 5 non-null object
3 Zarobki 4 non-null float64
dtypes: float64(2), object(2)
memory usage: 288.0 bytes
Omówienie wyników pandas.info()
Na podstawie powyższego wyniku mogę wyciągnąć kilka wniosków:
- Obiekt DataFrame posiada 5 wierszy i 4 kolumny.
- Dwie kolumny zawierają wartości typu string (
object
). - Dwie kolumny mają wartości liczbowie (typ
float64
). - Kolumny „Wiek” i „Zarobki” mają brakujące wartości (4 wypełnione pola zamiast 5).
- DataFrame zajmuje 288 bajtów pamięci.
Opcje konfiguracyjne metody info()
Metoda info()
przyjmuje kilka parametrów, które mogą ułatwić analizę danych:
Parametr | Opis | Przykład użycia |
---|---|---|
verbose |
Jeśli True , pokazuje pełne informacje, jeśli False , podsumowanie. |
df.info(verbose=False) |
null_counts |
Pokazuje liczbę brakujących danych w każdej kolumnie (wersje starsze od pandas 1.2.0). | df.info(null_counts=True) |
memory_usage |
Pozwala wyłączyć informacje o pamięci lub podać tylko część (np. „deep”). | df.info(memory_usage='deep') |
Dzięki tym opcjom mogę dostosować sposób wyświetlania wyników tak, aby odpowiadał moim potrzebom.
Podsumowanie
pandas.info()
to jedno z najczęściej używanych narzędzi przy pracy z danymi w Pythonie. Pomaga mi błyskawicznie uzyskać kluczowe informacje o strukturze DataFrame
: liczbie wierszy, kolumnach, brakujących wartościach, typach danych i pamięci zajmowanej przez zbiór danych. Dzięki kilku dostępnym parametrom mogę dostosować sposób wyświetlania wyników, co czyni tę funkcję niezwykle uniwersalnym narzędziem dla każdego analityka danych.
Opanuj analizę danych w Pythonie z moim kursem!
Opanujesz podstawy programowania w Pythonie, w tym typy danych, zmienne, listy, słowniki, funkcje oraz obsługę błędów. Nauczysz się korzystać z biblioteki pandas do zaawansowanej analizy danych i pracy z różnymi rodzajami danych. Zrozumiesz proces analizy, eksploracji (EDA) i wizualizacji. Tworzenie własnych funkcji przygotuje Cię do rozmów kwalifikacyjnych i rozwiązywania rzeczywistych problemów biznesowych.
Zostań analitykiem danych – dołącz do KajoDataSpace!
Najlepsza ścieżka do zawodu analityka danych. Dostęp do pełnych wersji kursów online z Excela, SQLa, Tableau i Pythona z certyfikatami + specjalistycznych webinarów z PowerBI.
Ekskluzywana ale pomagająca sobie społeczność.
Ponad 61 godzin materiałów video.
Spotkania LIVE co miesiąc.
Mój osobisty mentoring.