
Jednym z najczęściej używanych narzędzi w bibliotece Pandas jest funkcja read_csv()
. Jeśli pracujesz z danymi w formacie CSV, to funkcja ta jest kluczowa w szybkim wczytywaniu danych do struktury DataFrame i ich dalszej analizie. W tym artykule wyjaśnię, jak działa pandas.read_csv()
w języku Python oraz podam przykłady jej zastosowania.
Co to jest pandas.read_csv()?
Funkcja read_csv()
w Pandas służy do wczytywania danych z plików CSV (Comma Separated Values) do obiektu DataFrame
. Jest to jedna z najczęściej używanych funkcji w analizie danych, ponieważ pliki CSV są powszechnym formatem przechowywania danych. Funkcja ta jest bardzo elastyczna i obsługuje różne opcje formatowania.
Podstawowy przykład użycia pandas.read_csv()
Najprostszy sposób na wczytanie pliku CSV za pomocą Pandas wygląda tak:
import pandas as pd
df = pd.read_csv('dane.csv')
print(df.head())
Powyższy kod wczytuje plik o nazwie dane.csv
i zapisuje go do obiektu df
, a następnie wyświetla pierwsze pięć wierszy.
Najważniejsze argumenty pandas.read_csv()
Funkcja read_csv()
ma wiele parametrów, które pozwalają na dostosowanie procesu wczytywania danych. Oto kilka tych najczęściej używanych:
filepath_or_buffer
– ścieżka do pliku CSV lub jego URL.sep
– separator danych, domyślnie przecinek (,
), ale można użyć np. średnika (;
).header
– określa, który wiersz jest nagłówkiem kolumn.names
– pozwala określić własne nazwy kolumn.index_col
– ustawia określoną kolumnę jako indeks.usecols
– wybiera konkretne kolumny do wczytania.dtype
– konwertuje kolumny do określonego typu danych.na_values
– określa wartości interpretowane jako brakujące (NaN
).nrows
– wczytuje tylko określoną liczbę wierszy.encoding
– pozwala określić kodowanie pliku, np.utf-8
lublatin-1
.
Przykłady zastosowania
Wczytywanie pliku z innym separatorem
Jeśli plik CSV używa separatora innego niż przecinek, np. średnika, możemy określić to w parametrze sep
:
df = pd.read_csv('dane.csv', sep=';')
Ustawienie kolumny jako indeks
Możemy określić, która kolumna ma być używana jako indeks DataFrame
:
df = pd.read_csv('dane.csv', index_col='id')
Wybór konkretnych kolumn
Często nie chcemy wczytywać wszystkich kolumn, dlatego możemy użyć parametru usecols
:
df = pd.read_csv('dane.csv', usecols=['imie', 'nazwisko', 'wiek'])
Konwersja typów danych
Jeśli potrzebujemy od razu określić typy danych w kolumnach, używamy parametru dtype
:
df = pd.read_csv('dane.csv', dtype={'wiek': int, 'dochód': float})
Podgląd wczytanych danych
Po wczytaniu danych warto sprawdzić ich zawartość i strukturę. Poniżej kilka przydatnych metod:
df.head()
– wyświetla pierwsze 5 wierszy.df.info()
– podaje informacje o strukturze DataFrame.df.describe()
– wyświetla statystyki numeryczne.df.shape
– zwraca liczbę wierszy i kolumn.
Obsługa brakujących wartości
Brakujące dane to częsty problem. Możemy je oznaczyć jako NaN
i obsłużyć w różny sposób:
df = pd.read_csv('dane.csv', na_values=['?', 'brak', 'NA'])
df = df.fillna(0) # Zamiana braków na 0
df = df.dropna() # Usunięcie wierszy z brakującymi wartościami
Zapisywanie DataFrame do pliku CSV
Po dokonaniu przekształceń w danych możemy zapisać je z powrotem do pliku CSV:
df.to_csv('nowe_dane.csv', index=False, sep=';')
Podsumowanie
Funkcja pandas.read_csv()
w języku Python to niezwykle potężne narzędzie do wczytywania danych z plików CSV. Dzięki licznym parametrom daje pełną kontrolę nad formatowaniem i strukturą danych. W tym artykule pokazałem jej praktyczne zastosowania, które pomogą w efektywnej pracy z danymi. Teraz bez problemu możesz wykorzystać Pandas do analizy dowolnych zbiorów danych zapisanych w formacie CSV.
Opanuj analizę danych w Pythonie z moim kursem!
Opanujesz podstawy programowania w Pythonie, w tym typy danych, zmienne, listy, słowniki, funkcje oraz obsługę błędów. Nauczysz się korzystać z biblioteki pandas do zaawansowanej analizy danych i pracy z różnymi rodzajami danych. Zrozumiesz proces analizy, eksploracji (EDA) i wizualizacji. Tworzenie własnych funkcji przygotuje Cię do rozmów kwalifikacyjnych i rozwiązywania rzeczywistych problemów biznesowych.
Zostań analitykiem danych – dołącz do KajoDataSpace!
Najlepsza ścieżka do zawodu analityka danych. Dostęp do pełnych wersji kursów online z Excela, SQLa, Tableau i Pythona z certyfikatami + specjalistycznych webinarów z PowerBI.
Ekskluzywana ale pomagająca sobie społeczność.
Ponad 61 godzin materiałów video.
Spotkania LIVE co miesiąc.
Mój osobisty mentoring.