
Co to jest DataFrame, czyli podstawy analizy danych w Pandas
DataFrame to jeden z podstawowych elementów Pandas. Innymi słowy – co to jest DataFrame ? To odpowiednik tabeli w Excelu, tylko że w Pythonie. W tym artykule poznasz podstawy DataFrame , a co za tym idzie, podstawy Pandas.
Jak stworzyć DataFrame z listy?
DataFrame możemy stworzyć na wiele sposobów:
- importując plik CSV
- pobierając rezultaty kwerendy SQL
- ze słownika (Python Dictionary)
- z listy list
Ja pokażę Ci poniżej ten ostatni, moim zdaniem najprostszy sposób bez zewnętrznych danych, czyli z listy list.
import pandas as pd
# Create DataFrame from list of lists
people_data = [
['James', 'Smith', 30000, 29],
['Adam', 'Black', 50000, 33],
['Eva', 'Jameson', 47000, 45],
['John', 'Geere', 31000, 29],
['Roger', 'White', 54000, 35],
['Philip', 'Red', 42000, 41],
['Steven', 'Bell', 30000, 29],
['David', 'Gun', 50000, 33],
['Marie', 'Rose', 48000, 45],
['John', 'Wolden', 37000, 29],
['James', 'Cross', 59000, 35],
['Philip', 'Bindle', 62000, 42]
]
df1 = pd.DataFrame(people_data)
Każda lista to osobny rząd w tabeli. Zauważ, że zaczynamy bez nagłówków.
Oczywiście możemy pokazać cały DataFrame przez po prostu print(df1)
, ale częściej do wstępnego rozpoznania przydaje się .head()
, które pokaże kilka pierwszych rzędów. Przydatne jeżeli Twój DataFrame jest spory.
A zatem:
print(df1.head())
Rezultat:

Dodajmy kolumny w innym DataFrame.
people_data_cols = ['name', 'surname', 'salary', 'age']
df2 = pd.DataFrame(people_data, columns=people_data_cols)
print(df2.head())

DataFrame podstawy
Jeżeli chcesz lepiej odpowiedzieć sobie na pytanie co to jest DataFrame, to poniżej podstawowe metody i atrybuty DataFrame, które pozwolą Ci poznać jego zawartość.
info()
Informacja o ilości kolumn, typie danych, nullach.
df2.info()

describe()
Statystyki dla wartości numerycznych – średnia, suma, kwartyle.
print(df2.describe())

shape
Rozmiar, podany jako tuple: ilość wierszy, ilość kolumn.
print(df2.shape)
(12, 4)
columns
Informacja o nazwach kolumn.
print(df2.columns)
Index(['name', 'surname', 'salary', 'age'], dtype='object')
index
Informacja o wierszach.
print(df2.index)
RangeIndex(start=0, stop=12, step=1)
values
Informacja o wartościach DataFrame.
print(df2.values)

Podstawy DataFrame w Pandas
Pandas należy do podstaw języka Python dla każdego analityka, a podstawowym obiektem do ogarnięcia w Pandas jest DataFrame. DataFrame to po prostu dwuwymiarowa struktura danych z oznaczonymi rzędami i kolumnami. W skrócie – tabela Ale taka, która wiele potrafi.
Przydatne metody na początek pracy z DataFrame:
- head()
- info()
- describe()
Przydatne atrybuty na początek pracy z DataFrame:
- shape
- columns
- index
- values
Mam nadzieję, że pytanie co to jest DataFrame nie stanowi już problemu – podstawy znasz
Jeżeli zainteresował Cię ten temat, to może chciałbyś się dowiedzieć jak zamienić tekst na listę w Pythonie, hm? A może wykresy w Pythonie od podstaw?
To tyle w tym temacie!
Analizuj w pokoju i pamiętaj, by zapisać się na newsletter, który pozwoli Ci pracować jak najlepsi!
Wolisz oglądać niż czytać – nie ma problemu! >>> Obserwuj i oglądaj KajoData na YouTube