
Jednym z najczęściej używanych narzędzi w bibliotece Pandas jest funkcja read_csv(). Jeśli pracujesz z danymi w formacie CSV, to funkcja ta jest kluczowa w szybkim wczytywaniu danych do struktury DataFrame i ich dalszej analizie. W tym artykule wyjaśnię, jak działa pandas.read_csv() w języku Python oraz podam przykłady jej zastosowania.
Co to jest pandas.read_csv()?
Funkcja read_csv() w Pandas służy do wczytywania danych z plików CSV (Comma Separated Values) do obiektu DataFrame. Jest to jedna z najczęściej używanych funkcji w analizie danych, ponieważ pliki CSV są powszechnym formatem przechowywania danych. Funkcja ta jest bardzo elastyczna i obsługuje różne opcje formatowania.
Podstawowy przykład użycia pandas.read_csv()
Najprostszy sposób na wczytanie pliku CSV za pomocą Pandas wygląda tak:
import pandas as pd
df = pd.read_csv('dane.csv')
print(df.head())
Powyższy kod wczytuje plik o nazwie dane.csv i zapisuje go do obiektu df, a następnie wyświetla pierwsze pięć wierszy.
Najważniejsze argumenty pandas.read_csv()
Funkcja read_csv() ma wiele parametrów, które pozwalają na dostosowanie procesu wczytywania danych. Oto kilka tych najczęściej używanych:
filepath_or_buffer– ścieżka do pliku CSV lub jego URL.sep– separator danych, domyślnie przecinek (,), ale można użyć np. średnika (;).header– określa, który wiersz jest nagłówkiem kolumn.names– pozwala określić własne nazwy kolumn.index_col– ustawia określoną kolumnę jako indeks.usecols– wybiera konkretne kolumny do wczytania.dtype– konwertuje kolumny do określonego typu danych.na_values– określa wartości interpretowane jako brakujące (NaN).nrows– wczytuje tylko określoną liczbę wierszy.encoding– pozwala określić kodowanie pliku, np.utf-8lublatin-1.
Przykłady zastosowania
Wczytywanie pliku z innym separatorem
Jeśli plik CSV używa separatora innego niż przecinek, np. średnika, możemy określić to w parametrze sep:
df = pd.read_csv('dane.csv', sep=';')
Ustawienie kolumny jako indeks
Możemy określić, która kolumna ma być używana jako indeks DataFrame:
df = pd.read_csv('dane.csv', index_col='id')
Wybór konkretnych kolumn
Często nie chcemy wczytywać wszystkich kolumn, dlatego możemy użyć parametru usecols:
df = pd.read_csv('dane.csv', usecols=['imie', 'nazwisko', 'wiek'])
Konwersja typów danych
Jeśli potrzebujemy od razu określić typy danych w kolumnach, używamy parametru dtype:
df = pd.read_csv('dane.csv', dtype={'wiek': int, 'dochód': float})
Podgląd wczytanych danych
Po wczytaniu danych warto sprawdzić ich zawartość i strukturę. Poniżej kilka przydatnych metod:
df.head()– wyświetla pierwsze 5 wierszy.df.info()– podaje informacje o strukturze DataFrame.df.describe()– wyświetla statystyki numeryczne.df.shape– zwraca liczbę wierszy i kolumn.
Obsługa brakujących wartości
Brakujące dane to częsty problem. Możemy je oznaczyć jako NaN i obsłużyć w różny sposób:
df = pd.read_csv('dane.csv', na_values=['?', 'brak', 'NA'])
df = df.fillna(0) # Zamiana braków na 0
df = df.dropna() # Usunięcie wierszy z brakującymi wartościami
Zapisywanie DataFrame do pliku CSV
Po dokonaniu przekształceń w danych możemy zapisać je z powrotem do pliku CSV:
df.to_csv('nowe_dane.csv', index=False, sep=';')
Podsumowanie
Funkcja pandas.read_csv() w języku Python to niezwykle potężne narzędzie do wczytywania danych z plików CSV. Dzięki licznym parametrom daje pełną kontrolę nad formatowaniem i strukturą danych. W tym artykule pokazałem jej praktyczne zastosowania, które pomogą w efektywnej pracy z danymi. Teraz bez problemu możesz wykorzystać Pandas do analizy dowolnych zbiorów danych zapisanych w formacie CSV.
Inny ciekawy artykuł:
Jak działa numpy dot w języku Python? Przykład zastosowania
Opanuj analizę danych w Pythonie z moim kursem!
Opanujesz podstawy programowania w Pythonie, w tym typy danych, zmienne, listy, słowniki, funkcje oraz obsługę błędów. Nauczysz się korzystać z biblioteki pandas do zaawansowanej analizy danych i pracy z różnymi rodzajami danych. Zrozumiesz proces analizy, eksploracji (EDA) i wizualizacji. Tworzenie własnych funkcji przygotuje Cię do rozmów kwalifikacyjnych i rozwiązywania rzeczywistych problemów biznesowych.
Zostań analitykiem danych – dołącz do KajoDataSpace!
Najlepsza ścieżka do zawodu analityka danych. Dostęp do pełnych wersji kursów online z Excela, SQLa, PowerBI, Tableau i Pythona z certyfikatami!
🟨 Ekskluzywana ale pomagająca sobie społeczność.
🟩 Ponad 75 godzin materiałów video.
🟨 Spotkania LIVE co miesiąc.
🟩 Mój osobisty mentoring.

