Jak działa read_csv w pandas w Pythonie?

Jak działa read_csv w pandas w Pythonie?

Ogólny opis

Funkcja pandas.read_csv() jest jedną z najczęściej używanych metod w bibliotece Pandas, która pozwala na odczyt danych z plików CSV (Comma-Separated Values). Dzięki tej funkcji możemy szybko i efektywnie zaimportować dane do DataFrame’a, co jest podstawową strukturą danych w Pandas. Umożliwia to łatwe przetwarzanie, analizowanie i manipulowanie danymi w Pythonie.

Składnia

pandas.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, 
              skiprows=None, skipfooter=0, na_values=None, parse_dates=False, 
              date_parser=None, thousands=None, comment=None, encoding=None, 
              on_bad_lines='error', blocksize=None, **kwargs)

🧑‍💻 Gdzie:

  • filepath_or_buffer – ścieżka do pliku CSV lub obiekt podobny do pliku.
  • sep – separator, domyślnie jest to przecinek (czesto używany w plikach CSV).
  • header – wiersz używany jako nagłówki kolumn; domyślnie 'infer’ automatycznie określa nagłówki.
  • names – lista nazw kolumn, które mają być użyte, jeśli nie są podane w pliku.
  • skiprows – liczba wierszy do pominięcia na początku pliku.
  • na_values – dodatkowe wartości, które mają być traktowane jako NaN (brakujące dane).
  • parse_dates – kolumny, które mają być przetwarzane jako daty.
  • encoding – kodowanie pliku, na przykład 'utf-8′.
  • on_bad_lines – sposób obsługi błędnych linii w pliku CSV.
  • **kwargs – dodatkowe argumenty przekazywane do funkcji.

Przykład

Załóżmy, że mamy plik CSV o nazwie produkty.csv, który zawiera informacje o dostępnych produktach w sklepie. Plik wygląda następująco:

nazwa_produktu, cena, ilość
Jabłko, 2.50, 30
Banan, 1.20, 45
Gruszka, 3.00, 20
Mango, 1.50, 25

Aby załadować te dane do DataFrame’a, możemy użyć funkcji pandas.read_csv() w następujący sposób:

import pandas as pd

df = pd.read_csv('produkty.csv')
print(df)

Wynik, który otrzymamy po wykonaniu powyższego kodu, będzie wyglądać mniej więcej tak:

      nazwa_produktu  cena  ilość
0            Jabłko  2.50     30
1             Banan  1.20     45
2           Gruszka  3.00     20
3             Mango  1.50     25

W ten sposób udało nam się zaimportować dane z pliku CSV i uzyskać strukturę danych, na której możemy wykonywać dalsze analizy lub manipulacje.