Jak działa pandas read_csv w języku Python? Przykład zastosowania

Jednym z najczęściej używanych narzędzi w bibliotece Pandas jest funkcja read_csv(). Jeśli pracujesz z danymi w formacie CSV, to funkcja ta jest kluczowa w szybkim wczytywaniu danych do struktury DataFrame i ich dalszej analizie. W tym artykule wyjaśnię, jak działa pandas.read_csv() w języku Python oraz podam przykłady jej zastosowania.

Co to jest pandas.read_csv()?

Funkcja read_csv() w Pandas służy do wczytywania danych z plików CSV (Comma Separated Values) do obiektu DataFrame. Jest to jedna z najczęściej używanych funkcji w analizie danych, ponieważ pliki CSV są powszechnym formatem przechowywania danych. Funkcja ta jest bardzo elastyczna i obsługuje różne opcje formatowania.

Podstawowy przykład użycia pandas.read_csv()

Najprostszy sposób na wczytanie pliku CSV za pomocą Pandas wygląda tak:


import pandas as pd

df = pd.read_csv('dane.csv')
print(df.head())

Powyższy kod wczytuje plik o nazwie dane.csv i zapisuje go do obiektu df, a następnie wyświetla pierwsze pięć wierszy.

Najważniejsze argumenty pandas.read_csv()

Funkcja read_csv() ma wiele parametrów, które pozwalają na dostosowanie procesu wczytywania danych. Oto kilka tych najczęściej używanych:

filepath_or_buffer – ścieżka do pliku CSV lub jego URL.
sep – separator danych, domyślnie przecinek (,), ale można użyć np. średnika (;).
header – określa, który wiersz jest nagłówkiem kolumn.
names – pozwala określić własne nazwy kolumn.
index_col – ustawia określoną kolumnę jako indeks.
usecols – wybiera konkretne kolumny do wczytania.
dtype – konwertuje kolumny do określonego typu danych.
na_values – określa wartości interpretowane jako brakujące (NaN).
nrows – wczytuje tylko określoną liczbę wierszy.
encoding – pozwala określić kodowanie pliku, np. utf-8 lub latin-1.

Przykłady zastosowania

Wczytywanie pliku z innym separatorem

Jeśli plik CSV używa separatora innego niż przecinek, np. średnika, możemy określić to w parametrze sep:


df = pd.read_csv('dane.csv', sep=';')

Ustawienie kolumny jako indeks

Możemy określić, która kolumna ma być używana jako indeks DataFrame:


df = pd.read_csv('dane.csv', index_col='id')

Wybór konkretnych kolumn

Często nie chcemy wczytywać wszystkich kolumn, dlatego możemy użyć parametru usecols:


df = pd.read_csv('dane.csv', usecols=['imie', 'nazwisko', 'wiek'])

Konwersja typów danych

Jeśli potrzebujemy od razu określić typy danych w kolumnach, używamy parametru dtype:


df = pd.read_csv('dane.csv', dtype={'wiek': int, 'dochód': float})

Podgląd wczytanych danych

Po wczytaniu danych warto sprawdzić ich zawartość i strukturę. Poniżej kilka przydatnych metod:

df.head() – wyświetla pierwsze 5 wierszy.
df.info() – podaje informacje o strukturze DataFrame.
df.describe() – wyświetla statystyki numeryczne.
df.shape – zwraca liczbę wierszy i kolumn.

Obsługa brakujących wartości

Brakujące dane to częsty problem. Możemy je oznaczyć jako NaN i obsłużyć w różny sposób:


df = pd.read_csv('dane.csv', na_values=['?', 'brak', 'NA'])
df = df.fillna(0)  # Zamiana braków na 0
df = df.dropna()  # Usunięcie wierszy z brakującymi wartościami

Zapisywanie DataFrame do pliku CSV

Po dokonaniu przekształceń w danych możemy zapisać je z powrotem do pliku CSV:


df.to_csv('nowe_dane.csv', index=False, sep=';')

Podsumowanie

Funkcja pandas.read_csv() w języku Python to niezwykle potężne narzędzie do wczytywania danych z plików CSV. Dzięki licznym parametrom daje pełną kontrolę nad formatowaniem i strukturą danych. W tym artykule pokazałem jej praktyczne zastosowania, które pomogą w efektywnej pracy z danymi. Teraz bez problemu możesz wykorzystać Pandas do analizy dowolnych zbiorów danych zapisanych w formacie CSV.

Inny ciekawy artykuł:

Jak działa numpy dot w języku Python? Przykład zastosowania

Opanuj analizę danych w Pythonie z moim kursem!

Opanujesz podstawy programowania w Pythonie, w tym typy danych, zmienne, listy, słowniki, funkcje oraz obsługę błędów. Nauczysz się korzystać z biblioteki pandas do zaawansowanej analizy danych i pracy z różnymi rodzajami danych. Zrozumiesz proces analizy, eksploracji (EDA) i wizualizacji. Tworzenie własnych funkcji przygotuje Cię do rozmów kwalifikacyjnych i rozwiązywania rzeczywistych problemów biznesowych.

Zostań analitykiem danych – dołącz do KajoDataSpace!

Najlepsza ścieżka do zawodu analityka danych. Dostęp do pełnych wersji kursów online z Excela, SQLa, PowerBI, Tableau i Pythona z certyfikatami!

🟨 Ekskluzywana ale pomagająca sobie społeczność.
🟩 Ponad 75 godzin materiałów video.
🟨 Spotkania LIVE co miesiąc.
🟩 Mój osobisty mentoring.