Jak działa pandas read_csv w języku Python? Przykład zastosowania

Jak działa pandas read_csv w języku Python? Przykład zastosowania
„`html

Jednym z najczęściej używanych narzędzi w bibliotece Pandas jest funkcja read_csv(). Jeśli pracujesz z danymi w formacie CSV, to funkcja ta jest kluczowa w szybkim wczytywaniu danych do struktury DataFrame i ich dalszej analizie. W tym artykule wyjaśnię, jak działa pandas.read_csv() w języku Python oraz podam przykłady jej zastosowania.

Co to jest pandas.read_csv()?

Funkcja read_csv() w Pandas służy do wczytywania danych z plików CSV (Comma Separated Values) do obiektu DataFrame. Jest to jedna z najczęściej używanych funkcji w analizie danych, ponieważ pliki CSV są powszechnym formatem przechowywania danych. Funkcja ta jest bardzo elastyczna i obsługuje różne opcje formatowania.

Podstawowy przykład użycia pandas.read_csv()

Najprostszy sposób na wczytanie pliku CSV za pomocą Pandas wygląda tak:


import pandas as pd

df = pd.read_csv('dane.csv')
print(df.head())

Powyższy kod wczytuje plik o nazwie dane.csv i zapisuje go do obiektu df, a następnie wyświetla pierwsze pięć wierszy.

Najważniejsze argumenty pandas.read_csv()

Funkcja read_csv() ma wiele parametrów, które pozwalają na dostosowanie procesu wczytywania danych. Oto kilka tych najczęściej używanych:

  • filepath_or_buffer – ścieżka do pliku CSV lub jego URL.
  • sep – separator danych, domyślnie przecinek (,), ale można użyć np. średnika (;).
  • header – określa, który wiersz jest nagłówkiem kolumn.
  • names – pozwala określić własne nazwy kolumn.
  • index_col – ustawia określoną kolumnę jako indeks.
  • usecols – wybiera konkretne kolumny do wczytania.
  • dtype – konwertuje kolumny do określonego typu danych.
  • na_values – określa wartości interpretowane jako brakujące (NaN).
  • nrows – wczytuje tylko określoną liczbę wierszy.
  • encoding – pozwala określić kodowanie pliku, np. utf-8 lub latin-1.

Przykłady zastosowania

Wczytywanie pliku z innym separatorem

Jeśli plik CSV używa separatora innego niż przecinek, np. średnika, możemy określić to w parametrze sep:


df = pd.read_csv('dane.csv', sep=';')

Ustawienie kolumny jako indeks

Możemy określić, która kolumna ma być używana jako indeks DataFrame:


df = pd.read_csv('dane.csv', index_col='id')

Wybór konkretnych kolumn

Często nie chcemy wczytywać wszystkich kolumn, dlatego możemy użyć parametru usecols:


df = pd.read_csv('dane.csv', usecols=['imie', 'nazwisko', 'wiek'])

Konwersja typów danych

Jeśli potrzebujemy od razu określić typy danych w kolumnach, używamy parametru dtype:


df = pd.read_csv('dane.csv', dtype={'wiek': int, 'dochód': float})

Podgląd wczytanych danych

Po wczytaniu danych warto sprawdzić ich zawartość i strukturę. Poniżej kilka przydatnych metod:

  • df.head() – wyświetla pierwsze 5 wierszy.
  • df.info() – podaje informacje o strukturze DataFrame.
  • df.describe() – wyświetla statystyki numeryczne.
  • df.shape – zwraca liczbę wierszy i kolumn.

Obsługa brakujących wartości

Brakujące dane to częsty problem. Możemy je oznaczyć jako NaN i obsłużyć w różny sposób:


df = pd.read_csv('dane.csv', na_values=['?', 'brak', 'NA'])
df = df.fillna(0)  # Zamiana braków na 0
df = df.dropna()  # Usunięcie wierszy z brakującymi wartościami

Zapisywanie DataFrame do pliku CSV

Po dokonaniu przekształceń w danych możemy zapisać je z powrotem do pliku CSV:


df.to_csv('nowe_dane.csv', index=False, sep=';')

Podsumowanie

Funkcja pandas.read_csv() w języku Python to niezwykle potężne narzędzie do wczytywania danych z plików CSV. Dzięki licznym parametrom daje pełną kontrolę nad formatowaniem i strukturą danych. W tym artykule pokazałem jej praktyczne zastosowania, które pomogą w efektywnej pracy z danymi. Teraz bez problemu możesz wykorzystać Pandas do analizy dowolnych zbiorów danych zapisanych w formacie CSV.

„` Inny ciekawy artykuł: Jak działa numpy dot w języku Python? Przykład zastosowania
KajoDataSpace