Jak działa pandas dataframe w języku Python? Przykład zastosowania

Jak działa pandas dataframe w języku Python? Przykład zastosowania
„`html

Jeśli kiedykolwiek pracowałeś z danymi w Pythonie, to na pewno spotkałeś się z biblioteką pandas. Jednym z jej najważniejszych elementów jest DataFrame, który można traktować jako swego rodzaju tabelę bazodanową lub arkusz kalkulacyjny. Dzisiaj pokażę, jak działa pandas DataFrame w języku Python. Przykład zastosowania również znajdzie się w tym artykule.

Czym jest pandas DataFrame?

Pandas DataFrame to dwuwymiarowa struktura danych składająca się z wierszy i kolumn. Przypomina tabelę znaną z Excela czy SQL. Każda kolumna może zawierać dane różnych typów – liczby, teksty, wartości logiczne czy daty.

Tworzenie DataFrame jest bardzo proste i można to zrobić na kilka sposobów:

  • z listy słowników,
  • z pliku CSV lub Excela,
  • z numpy array,
  • z obiektu słownikowego (dict).

Tworzenie DataFrame w Pythonie

Najprostszy sposób to utworzenie DataFrame z użyciem słownika.

import pandas as pd

# Tworzenie DataFrame z użyciem słownika
dane = {
    "Imię": ["Jan", "Anna", "Piotr"],
    "Wiek": [28, 34, 26],
    "Miasto": ["Warszawa", "Kraków", "Gdańsk"]
}

df = pd.DataFrame(dane)

print(df)

Wynik tego kodu to:

Imię Wiek Miasto
Jan 28 Warszawa
Anna 34 Kraków
Piotr 26 Gdańsk

Podstawowe operacje na DataFrame

Po utworzeniu DataFrame warto wiedzieć, jak pobierać i modyfikować dane.

1. Wyświetlanie pierwszych i ostatnich wierszy

print(df.head())  # Domyślnie zwraca 5 pierwszych wierszy
print(df.tail(2))  # Zwraca 2 ostatnie wiersze

2. Informacje o danych

Aby sprawdzić strukturę DataFrame, można użyć:

print(df.info())

To dostarczy informacji o liczbie wierszy, kolumn, typach zmiennych oraz liczbie brakujących wartości.

3. Pobieranie konkretnej kolumny

Jeśli chcę pobrać wartości z jednej kolumny, mogę zrobić to w ten sposób:

print(df["Imię"])

4. Pobieranie konkretnego wiersza

Jeśli chcę pobrać drugi wiersz (indeks zaczyna się od zera):

print(df.iloc[1])

5. Filtrowanie danych

Załóżmy, że chcę wybrać tylko osoby, które mają więcej niż 30 lat:

df_starsi_niz_30 = df[df["Wiek"] > 30]
print(df_starsi_niz_30)

Modyfikacja DataFrame

Zmiana danych w tabeli to jedna z podstawowych operacji. Na przykład, mogę dodać nową kolumnę:

df["Pensja"] = [5000, 6000, 5500]
print(df)

Mogę także edytować konkretne wartości:

df.at[1, "Miasto"] = "Łódź"

Importowanie i eksportowanie danych

Pliki CSV czy Excel to często stosowane formaty, z których można łatwo załadować dane do DataFrame:

df = pd.read_csv("plik.csv")  # Wczytanie danych z CSV
df.to_csv("nowy_plik.csv", index=False)  # Zapis do pliku CSV

Podobnie możemy pracować z arkuszami Excela:

df = pd.read_excel("plik.xlsx")
df.to_excel("nowy_plik.xlsx", index=False)

Podsumowanie

Biblioteka pandas i jej obiekt DataFrame to potężne narzędzie do analizy i manipulacji danymi. Możemy z łatwością importować dane, filtrować je, edytować, a także eksportować do popularnych formatów. W tym artykule pokazałem, jak działa pandas DataFrame w języku Python. Przykład zastosowania może być dowolnie modyfikowany, aby pasował do Twoich potrzeb.

„` Inny ciekawy artykuł: Jak działa pandas read_json w języku Python? Przykład zastosowania
KajoDataSpace