Jak działa pandas info w języku Python? Przykład zastosowania

Jak działa pandas info w języku Python? Przykład zastosowania
„`html

Pracując z biblioteką pandas w języku Python, często muszę szybko sprawdzić podstawowe informacje o moim DataFrame. Właśnie do tego służy metoda pandas.info(). Jest to jedno z najważniejszych narzędzi diagnostycznych, które pozwala mi na błyskawiczną analizę struktury danych. W tym artykule pokazuję, jak dokładnie działa pandas.info(), jak go używać i jakie informacje dostarcza.

Czym jest pandas.info() i dlaczego warto go używać?

Metoda pandas.info() służy do wyświetlania podstawowych informacji o obiekcie DataFrame. Dzięki niej mogę szybko ocenić:

  • liczbę wierszy i kolumn,
  • nazwy kolumn,
  • liczbę niepustych wartości w każdej kolumnie,
  • typy danych dla każdej kolumny,
  • ilość pamięci zajmowaną przez DataFrame.

Jest to bardzo przydatne przy eksploracyjnej analizie danych (EDA), ponieważ pozwala mi w prosty sposób sprawdzić, czy w zbiorze danych występują braki albo czy typy kolumn zgadzają się z moimi oczekiwaniami.

Przykład zastosowania pandas.info()

Najlepiej zrozumieć działanie metody pandas.info() na przykładzie. Załóżmy, że mam poniższy zbiór danych:

import pandas as pd

# Tworzenie przykładowego DataFrame
data = {
    "Imię": ["Anna", "Jan", "Katarzyna", "Marek", "Monika"],
    "Wiek": [25, 30, 35, None, 40],
    "Miasto": ["Warszawa", "Kraków", "Gdańsk", "Wrocław", "Łódź"],
    "Zarobki": [5000, 6000, None, 7000, 8000]
}

df = pd.DataFrame(data)

# Wywołanie metody info()
df.info()

Po uruchomieniu tego kodu otrzymuję następujący wynik:

 

RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Imię    5 non-null      object 
 1   Wiek    4 non-null      float64
 2   Miasto  5 non-null      object 
 3   Zarobki 4 non-null      float64
dtypes: float64(2), object(2)
memory usage: 288.0 bytes

Omówienie wyników pandas.info()

Na podstawie powyższego wyniku mogę wyciągnąć kilka wniosków:

  1. Obiekt DataFrame posiada 5 wierszy i 4 kolumny.
  2. Dwie kolumny zawierają wartości typu string (object).
  3. Dwie kolumny mają wartości liczbowie (typ float64).
  4. Kolumny „Wiek” i „Zarobki” mają brakujące wartości (4 wypełnione pola zamiast 5).
  5. DataFrame zajmuje 288 bajtów pamięci.

Opcje konfiguracyjne metody info()

Metoda info() przyjmuje kilka parametrów, które mogą ułatwić analizę danych:

Parametr Opis Przykład użycia
verbose Jeśli True, pokazuje pełne informacje, jeśli False, podsumowanie. df.info(verbose=False)
null_counts Pokazuje liczbę brakujących danych w każdej kolumnie (wersje starsze od pandas 1.2.0). df.info(null_counts=True)
memory_usage Pozwala wyłączyć informacje o pamięci lub podać tylko część (np. „deep”). df.info(memory_usage='deep')

Dzięki tym opcjom mogę dostosować sposób wyświetlania wyników tak, aby odpowiadał moim potrzebom.

Podsumowanie

pandas.info() to jedno z najczęściej używanych narzędzi przy pracy z danymi w Pythonie. Pomaga mi błyskawicznie uzyskać kluczowe informacje o strukturze DataFrame: liczbie wierszy, kolumnach, brakujących wartościach, typach danych i pamięci zajmowanej przez zbiór danych. Dzięki kilku dostępnym parametrom mogę dostosować sposób wyświetlania wyników, co czyni tę funkcję niezwykle uniwersalnym narzędziem dla każdego analityka danych.

„` Inny ciekawy artykuł: Jak działa pandas describe w języku Python? Przykład zastosowania
KajoDataSpace