
Jeśli kiedykolwiek pracowałeś z danymi w Pythonie, to na pewno spotkałeś się z biblioteką pandas
. Jednym z jej najważniejszych elementów jest DataFrame
, który można traktować jako swego rodzaju tabelę bazodanową lub arkusz kalkulacyjny. Dzisiaj pokażę, jak działa pandas DataFrame w języku Python. Przykład zastosowania również znajdzie się w tym artykule.
Czym jest pandas DataFrame?
Pandas DataFrame
to dwuwymiarowa struktura danych składająca się z wierszy i kolumn. Przypomina tabelę znaną z Excela czy SQL. Każda kolumna może zawierać dane różnych typów – liczby, teksty, wartości logiczne czy daty.
Tworzenie DataFrame jest bardzo proste i można to zrobić na kilka sposobów:
- z listy słowników,
- z pliku CSV lub Excela,
- z numpy array,
- z obiektu słownikowego (
dict
).
Tworzenie DataFrame w Pythonie
Najprostszy sposób to utworzenie DataFrame z użyciem słownika.
import pandas as pd
# Tworzenie DataFrame z użyciem słownika
dane = {
"Imię": ["Jan", "Anna", "Piotr"],
"Wiek": [28, 34, 26],
"Miasto": ["Warszawa", "Kraków", "Gdańsk"]
}
df = pd.DataFrame(dane)
print(df)
Wynik tego kodu to:
Imię | Wiek | Miasto |
---|---|---|
Jan | 28 | Warszawa |
Anna | 34 | Kraków |
Piotr | 26 | Gdańsk |
Podstawowe operacje na DataFrame
Po utworzeniu DataFrame warto wiedzieć, jak pobierać i modyfikować dane.
1. Wyświetlanie pierwszych i ostatnich wierszy
print(df.head()) # Domyślnie zwraca 5 pierwszych wierszy
print(df.tail(2)) # Zwraca 2 ostatnie wiersze
2. Informacje o danych
Aby sprawdzić strukturę DataFrame, można użyć:
print(df.info())
To dostarczy informacji o liczbie wierszy, kolumn, typach zmiennych oraz liczbie brakujących wartości.
3. Pobieranie konkretnej kolumny
Jeśli chcę pobrać wartości z jednej kolumny, mogę zrobić to w ten sposób:
print(df["Imię"])
4. Pobieranie konkretnego wiersza
Jeśli chcę pobrać drugi wiersz (indeks zaczyna się od zera):
print(df.iloc[1])
5. Filtrowanie danych
Załóżmy, że chcę wybrać tylko osoby, które mają więcej niż 30 lat:
df_starsi_niz_30 = df[df["Wiek"] > 30]
print(df_starsi_niz_30)
Modyfikacja DataFrame
Zmiana danych w tabeli to jedna z podstawowych operacji. Na przykład, mogę dodać nową kolumnę:
df["Pensja"] = [5000, 6000, 5500]
print(df)
Mogę także edytować konkretne wartości:
df.at[1, "Miasto"] = "Łódź"
Importowanie i eksportowanie danych
Pliki CSV czy Excel to często stosowane formaty, z których można łatwo załadować dane do DataFrame
:
df = pd.read_csv("plik.csv") # Wczytanie danych z CSV
df.to_csv("nowy_plik.csv", index=False) # Zapis do pliku CSV
Podobnie możemy pracować z arkuszami Excela:
df = pd.read_excel("plik.xlsx")
df.to_excel("nowy_plik.xlsx", index=False)
Podsumowanie
Biblioteka pandas
i jej obiekt DataFrame
to potężne narzędzie do analizy i manipulacji danymi. Możemy z łatwością importować dane, filtrować je, edytować, a także eksportować do popularnych formatów. W tym artykule pokazałem, jak działa pandas DataFrame w języku Python. Przykład zastosowania może być dowolnie modyfikowany, aby pasował do Twoich potrzeb.
Opanuj analizę danych w Pythonie z moim kursem!
Opanujesz podstawy programowania w Pythonie, w tym typy danych, zmienne, listy, słowniki, funkcje oraz obsługę błędów. Nauczysz się korzystać z biblioteki pandas do zaawansowanej analizy danych i pracy z różnymi rodzajami danych. Zrozumiesz proces analizy, eksploracji (EDA) i wizualizacji. Tworzenie własnych funkcji przygotuje Cię do rozmów kwalifikacyjnych i rozwiązywania rzeczywistych problemów biznesowych.
Zostań analitykiem danych – dołącz do KajoDataSpace!
Najlepsza ścieżka do zawodu analityka danych. Dostęp do pełnych wersji kursów online z Excela, SQLa, Tableau i Pythona z certyfikatami + specjalistycznych webinarów z PowerBI.
Ekskluzywana ale pomagająca sobie społeczność.
Ponad 61 godzin materiałów video.
Spotkania LIVE co miesiąc.
Mój osobisty mentoring.