python dataframe bfn

Co to jest DataFrame, czyli podstawy analizy danych w Pandas

DataFrame to jeden z podstawowych elementów Pandas. Innymi słowy – co to jest DataFrame ? To odpowiednik tabeli w Excelu, tylko że w Pythonie. W tym artykule poznasz podstawy DataFrame , a co za tym idzie, podstawy Pandas.

Jak stworzyć DataFrame z listy?

DataFrame możemy stworzyć na wiele sposobów:

  • importując plik CSV
  • pobierając rezultaty kwerendy SQL
  • ze słownika (Python Dictionary)
  • z listy list

Ja pokażę Ci poniżej ten ostatni, moim zdaniem najprostszy sposób bez zewnętrznych danych, czyli z listy list.

import pandas as pd

# Create DataFrame from list of lists
people_data = [
    ['James', 'Smith', 30000, 29],
    ['Adam', 'Black', 50000, 33],
    ['Eva', 'Jameson', 47000, 45],
    ['John', 'Geere', 31000, 29],
    ['Roger', 'White', 54000, 35],
    ['Philip', 'Red', 42000, 41],
    ['Steven', 'Bell', 30000, 29],
    ['David', 'Gun', 50000, 33],
    ['Marie', 'Rose', 48000, 45],
    ['John', 'Wolden', 37000, 29],
    ['James', 'Cross', 59000, 35],
    ['Philip', 'Bindle', 62000, 42]
    ]

df1 = pd.DataFrame(people_data)

Każda lista to osobny rząd w tabeli. Zauważ, że zaczynamy bez nagłówków.

Oczywiście możemy pokazać cały DataFrame przez po prostu print(df1), ale częściej do wstępnego rozpoznania przydaje się .head(), które pokaże kilka pierwszych rzędów. Przydatne jeżeli Twój DataFrame jest spory.

A zatem:

print(df1.head())

Rezultat:

Co to jest DataFrame rezultat

Dodajmy kolumny w innym DataFrame.

people_data_cols = ['name', 'surname', 'salary', 'age']
df2 = pd.DataFrame(people_data, columns=people_data_cols)
print(df2.head())
podstawy pandas

DataFrame podstawy

Jeżeli chcesz lepiej odpowiedzieć sobie na pytanie co to jest DataFrame, to poniżej podstawowe metody i atrybuty DataFrame, które pozwolą Ci poznać jego zawartość.

info()

Informacja o ilości kolumn, typie danych, nullach.

df2.info()
podstawy dataframe

describe()

Statystyki dla wartości numerycznych – średnia, suma, kwartyle.

print(df2.describe())
co to jest dataframe stats

shape

Rozmiar, podany jako tuple: ilość wierszy, ilość kolumn.

print(df2.shape)
(12, 4)

columns

Informacja o nazwach kolumn.

print(df2.columns)
Index(['name', 'surname', 'salary', 'age'], dtype='object')

index

Informacja o wierszach.

print(df2.index)
RangeIndex(start=0, stop=12, step=1)

values

Informacja o wartościach DataFrame.

print(df2.values)

Podstawy DataFrame w Pandas

Pandas należy do podstaw języka Python dla każdego analityka, a podstawowym obiektem do ogarnięcia w Pandas jest DataFrame. DataFrame to po prostu dwuwymiarowa struktura danych z oznaczonymi rzędami i kolumnami. W skrócie – tabela 😉 Ale taka, która wiele potrafi.

Przydatne metody na początek pracy z DataFrame:

  • head()
  • info()
  • describe()

Przydatne atrybuty na początek pracy z DataFrame:

  • shape
  • columns
  • index
  • values

Mam nadzieję, że pytanie co to jest DataFrame nie stanowi już problemu – podstawy znasz 😉

Jeżeli zainteresował Cię ten temat, to może chciałbyś się dowiedzieć jak zamienić tekst na listę w Pythonie, hm?

To tyle w tym temacie!

Analizuj w pokoju i pamiętaj, by zapisać się na newsletter, który pozwoli Ci pracować jak najlepsi!

Wolisz oglądać 📺 niż czytać – nie ma problemu!  >>> Obserwuj i oglądaj KajoData na YouTube