Jak działa pandas read_excel w języku Python? Przykład zastosowania

Jak działa pandas read_excel w języku Python? Przykład zastosowania
„`html

Pracując z danymi w języku Python, jednym z najpopularniejszych narzędzi do ich analizy i manipulacji jest biblioteka pandas. Wśród jej funkcji wyróżnia się pandas.read_excel(), która pozwala na wygodne odczytywanie arkuszy Excela. W tym artykule dokładnie omówię, jak działa ta funkcja, jakie ma opcje oraz pokażę konkretne przykłady jej zastosowania.

Podstawy działania pandas.read_excel()

Funkcja pandas.read_excel() służy do wczytywania plików Excela do obiektu DataFrame. Dzięki niej możemy z łatwością załadować dane z arkusza kalkulacyjnego i rozpocząć ich analizę.

Podstawowa składnia funkcji wygląda następująco:

import pandas as pd

df = pd.read_excel("plik.xlsx")

W powyższym przykładzie:

  • "plik.xlsx" – nazwa pliku Excela, który chcemy wczytać
  • df – obiekt DataFrame, w którym znajdą się dane

Opcje konfiguracyjne pandas.read_excel()

Funkcja read_excel() oferuje wiele argumentów, które pozwalają dostosować sposób wczytywania danych.

Najważniejsze argumenty

Oto kilka kluczowych parametrów:

Argument Opis Domyślna wartość
io Ścieżka do pliku lub obiekt pliku Brak (obowiązkowy parametr)
sheet_name Określa, który arkusz wczytać 0 (pierwszy arkusz)
header Wiersz, który zawiera nagłówki kolumn 0
usecols Zakres kolumn do wczytania Wszystkie
dtype Określony typ danych dla kolumn Automatyczne wykrywanie
skiprows Liczba pomijanych wierszy od góry 0

Przykłady zastosowania pandas.read_excel()

Aby lepiej zrozumieć sposób działania tej funkcji, zobaczmy kilka praktycznych przypadków.

Wczytywanie konkretnego arkusza

Czasami plik Excel zawiera wiele arkuszy, a nas interesuje tylko jeden z nich. Możemy go załadować, podając jego nazwę:

df = pd.read_excel("plik.xlsx", sheet_name="Dane2024")

Wczytywanie wielu arkuszy jednocześnie

Jeśli chcemy załadować wszystkie arkusze, możemy przypisać wynik do słownika:

sheets = pd.read_excel("plik.xlsx", sheet_name=None)

Wynikiem będzie słownik, gdzie kluczami będą nazwy arkuszy, a wartościami obiekty DataFrame.

Wybór określonych kolumn

Jeżeli nasze dane mają wiele kolumn, ale potrzebujemy tylko kilku z nich, możemy skorzystać z argumentu usecols:

df = pd.read_excel("plik.xlsx", usecols="A:C")

W ten sposób załadujemy tylko kolumny od A do C.

Pomijanie pierwszych wierszy

Niektóre pliki Excel mogą zawierać nagłówki lub metadane na pierwszych wierszach. Możemy je pominąć za pomocą skiprows:

df = pd.read_excel("plik.xlsx", skiprows=3)

Obsługa błędów i problemy

Podczas pracy z read_excel() można napotkać kilka problemów:

  • Brak zainstalowanej biblioteki openpyxl / xlrd – jeśli otrzymasz błąd, sprawdź, czy masz zainstalowaną odpowiednią bibliotekę (pip install openpyxl dla plików .xlsx).
  • Niepoprawny arkusz – jeśli podasz niewłaściwą nazwę arkusza, funkcja zwróci błąd.
  • Błędy związane z kodowaniem – jeśli pojawiają się dziwne znaki w danych, sprawdź, w jakim formacie został zapisany plik.

Podsumowanie

Funkcja pandas.read_excel() to potężne narzędzie, które bardzo ułatwia pracę z plikami Excela w Pythonie. Dzięki szerokiej gamie opcji możemy dostosować sposób importowania danych do naszych potrzeb, od wybierania konkretnych arkuszy po filtrowanie kolumn i pomijanie wierszy. Mam nadzieję, że te przykłady pomogły Ci lepiej zrozumieć działanie tej funkcji i zastosować ją w swoich projektach.

„` Inny ciekawy artykuł: Jak działa pandas read_csv w języku Python? Przykład zastosowania
KajoDataSpace