
Pracując z biblioteką Pandas w Pythonie, często musimy przekształcać dane w różne formaty, aby lepiej je analizować. Jednym z kluczowych narzędzi dostępnych w Pandas jest funkcja pivot()
, która pozwala na reorganizację tabeli w bardziej czytelny sposób. Jeśli kiedykolwiek zastanawiałeś się, jak działa pandas pivot w języku Python, to ten artykuł szczegółowo to wyjaśni.
Czym jest pandas.pivot()
?
Funkcja pivot()
w Pandas służy do zmiany struktury danych. Pozwala ona na konwersję danych z formatu „długiego” (gdzie każdy wiersz zawiera pojedynczą wartość) do „szerokiego”, gdzie wartości są rozłożone na różne kolumny.
Składnia i parametry pivot()
Funkcja pivot()
ma następującą składnię:
DataFrame.pivot(index, columns, values)
index
– kolumna, która stanie się indeksami w nowej tabeli.columns
– kolumna, której unikalne wartości staną się nagłówkami kolumn.values
– kolumna, której wartości zostaną rozmieszczone w nowej tabeli.
Przykład zastosowania pandas.pivot()
Załóżmy, że mamy następujący zbiór danych w formacie długim:
import pandas as pd
# Tworzymy przykładowy DataFrame
df = pd.DataFrame({
'Data': ['2024-06-01', '2024-06-01', '2024-06-02', '2024-06-02'],
'Produkt': ['A', 'B', 'A', 'B'],
'Sprzedaż': [100, 200, 150, 250]
})
print(df)
Wynikowa tabela wygląda tak:
Data | Produkt | Sprzedaż |
---|---|---|
2024-06-01 | A | 100 |
2024-06-01 | B | 200 |
2024-06-02 | A | 150 |
2024-06-02 | B | 250 |
Teraz użyjmy funkcji pivot()
, aby przekształcić te dane:
df_pivot = df.pivot(index='Data', columns='Produkt', values='Sprzedaż')
print(df_pivot)
Wynik będzie wyglądał następująco:
Produkt A B
Data
2024-06-01 100 200
2024-06-02 150 250
Teraz mamy przejrzystą tabelę, gdzie wartości kolumny Produkt
stały się nagłówkami kolumn.
Potencjalne błędy i sposoby ich rozwiązania
Kiedy używamy pivot()
, możemy napotkać następujące błędy:
- ValueError: Index contains duplicate entries – występuje, gdy w danych są duplikaty dla tej samej kombinacji indeksów i kolumn. Można rozważyć użycie
pivot_table()
, która obsłuży agregację. - KeyError: – błąd ten pojawia się, gdy podana kolumna nie istnieje w DataFrame.
- NaN w wynikach: – jeśli niektóre kombinacje indeksów i kolumn nie mają wartości, Pandas wypełni te miejsca
NaN
.
Kiedy warto używać pivot()
?
Funkcji pivot()
warto używać, gdy:
- Chcesz przekonwertować dane z formatu długiego na szeroki.
- Masz pewność, że nie ma duplikatów dla unikalnych wartości.
- Chcesz lepiej zorganizować dane do analizy wizualnej.
Podsumowanie
Teraz już wiesz, jak działa pandas pivot w języku Python i w jaki sposób można go użyć w praktyce. Jest to narzędzie niezwykle przydatne, gdy chcemy uporządkować dane w czytelny sposób. Pamiętaj jednak, że jeśli napotykasz na błędy związane z duplikatami, warto rozważyć użycie pivot_table()
, które oferuje dodatkowe możliwości agregacji danych.
Opanuj analizę danych w Pythonie z moim kursem!
Opanujesz podstawy programowania w Pythonie, w tym typy danych, zmienne, listy, słowniki, funkcje oraz obsługę błędów. Nauczysz się korzystać z biblioteki pandas do zaawansowanej analizy danych i pracy z różnymi rodzajami danych. Zrozumiesz proces analizy, eksploracji (EDA) i wizualizacji. Tworzenie własnych funkcji przygotuje Cię do rozmów kwalifikacyjnych i rozwiązywania rzeczywistych problemów biznesowych.
Zostań analitykiem danych – dołącz do KajoDataSpace!
Najlepsza ścieżka do zawodu analityka danych. Dostęp do pełnych wersji kursów online z Excela, SQLa, Tableau i Pythona z certyfikatami + specjalistycznych webinarów z PowerBI.
Ekskluzywana ale pomagająca sobie społeczność.
Ponad 61 godzin materiałów video.
Spotkania LIVE co miesiąc.
Mój osobisty mentoring.