Jak działa pandas pivot w języku Python? Przykład zastosowania

Jak działa pandas pivot w języku Python? Przykład zastosowania
„`html

Pracując z biblioteką Pandas w Pythonie, często musimy przekształcać dane w różne formaty, aby lepiej je analizować. Jednym z kluczowych narzędzi dostępnych w Pandas jest funkcja pivot(), która pozwala na reorganizację tabeli w bardziej czytelny sposób. Jeśli kiedykolwiek zastanawiałeś się, jak działa pandas pivot w języku Python, to ten artykuł szczegółowo to wyjaśni.

Czym jest pandas.pivot()?

Funkcja pivot() w Pandas służy do zmiany struktury danych. Pozwala ona na konwersję danych z formatu „długiego” (gdzie każdy wiersz zawiera pojedynczą wartość) do „szerokiego”, gdzie wartości są rozłożone na różne kolumny.

Składnia i parametry pivot()

Funkcja pivot() ma następującą składnię:

DataFrame.pivot(index, columns, values)
  • index – kolumna, która stanie się indeksami w nowej tabeli.
  • columns – kolumna, której unikalne wartości staną się nagłówkami kolumn.
  • values – kolumna, której wartości zostaną rozmieszczone w nowej tabeli.

Przykład zastosowania pandas.pivot()

Załóżmy, że mamy następujący zbiór danych w formacie długim:

import pandas as pd

# Tworzymy przykładowy DataFrame
df = pd.DataFrame({
    'Data': ['2024-06-01', '2024-06-01', '2024-06-02', '2024-06-02'],
    'Produkt': ['A', 'B', 'A', 'B'],
    'Sprzedaż': [100, 200, 150, 250]
})

print(df)

Wynikowa tabela wygląda tak:

Data Produkt Sprzedaż
2024-06-01 A 100
2024-06-01 B 200
2024-06-02 A 150
2024-06-02 B 250

Teraz użyjmy funkcji pivot(), aby przekształcić te dane:

df_pivot = df.pivot(index='Data', columns='Produkt', values='Sprzedaż')
print(df_pivot)

Wynik będzie wyglądał następująco:

Produkt       A    B
Data                
2024-06-01  100  200
2024-06-02  150  250

Teraz mamy przejrzystą tabelę, gdzie wartości kolumny Produkt stały się nagłówkami kolumn.

Potencjalne błędy i sposoby ich rozwiązania

Kiedy używamy pivot(), możemy napotkać następujące błędy:

  1. ValueError: Index contains duplicate entries – występuje, gdy w danych są duplikaty dla tej samej kombinacji indeksów i kolumn. Można rozważyć użycie pivot_table(), która obsłuży agregację.
  2. KeyError: – błąd ten pojawia się, gdy podana kolumna nie istnieje w DataFrame.
  3. NaN w wynikach: – jeśli niektóre kombinacje indeksów i kolumn nie mają wartości, Pandas wypełni te miejsca NaN.

Kiedy warto używać pivot()?

Funkcji pivot() warto używać, gdy:

  • Chcesz przekonwertować dane z formatu długiego na szeroki.
  • Masz pewność, że nie ma duplikatów dla unikalnych wartości.
  • Chcesz lepiej zorganizować dane do analizy wizualnej.

Podsumowanie

Teraz już wiesz, jak działa pandas pivot w języku Python i w jaki sposób można go użyć w praktyce. Jest to narzędzie niezwykle przydatne, gdy chcemy uporządkować dane w czytelny sposób. Pamiętaj jednak, że jeśli napotykasz na błędy związane z duplikatami, warto rozważyć użycie pivot_table(), które oferuje dodatkowe możliwości agregacji danych.

„` Inny ciekawy artykuł: Jak działa pandas crosstab w języku Python? Przykład zastosowania
KajoDataSpace