Rekord Roberta Lewandowskiego – Webscraping + Excel + Tableau

23 maja 2021

Rekord Roberta Lewandowskiego

W tym artykule pokażę Ci projekt do analizy danych, w którym weźmiemy pod lupę rekord Roberta Lewandowskiego. 41 bramek w jednym sezonie Bundesligi. Rekord został przez Roberta pobity, gdy ten strzelił bramkę w 90 minucie meczu z Ausburgiem, a my wykorzystujemy tą okazję by stworzyć projekt analityczny do naszego portfolio. Film, który znajdziesz poniżej, nagrywałem, gdy Robert jedynie wyrównał, poprzedni rekord Gerda Mullera.

Do naszego projektu wykorzystamy do tego manualny webscraping, czyszczenie danych w programie Excel i wizualizacje w Tableau.

Z tak stworzonej analizy danych dowiemy się między innymi, że:

  • W niemalże każdym sezonie Lewandowski strzela więcej bramek
  • Kluczem do uzyskanie rekordu jest umiejętność strzelania wielu bramek w jednym meczu
  • Robert strzela bramki po równo w każdym czasie meczu, średnio tyle samo w każdej minucie

📺 WERSJA DO OGLĄDANIA 📺

➡️ Web scraping

Web scraping polega na zbieraniu danych z sieci WWW. Najczęściej będzie to dotyczyło danych tabelarycznych, choć nierzadkimi przypadkami jest web scraping social mediów (np. wpisów na twitterze), bądź cen ze sklepów online. Co do zasady web scraping jest dokonywany automatycznie. Ja w tym projekcie robię to manualnie, ze względu na stosunkowo niewielką ilość danych.

Korzystając z bazy danych o piłkarzach Transfermarkt, znajdujemy Roberta Lewandowskiego i pobieramy dane dotyczącego jego meczów w Bayern Monachium. Robert strzelił 40 bramek i chcemy wiedzieć jak to się stało. Transfermarkt podaje dane w tabeli, więc będziemy mogli je zanalizować.

Oczywiście takie dane nie będą na początku wyglądać dobrze. Po wrzuceniu danych do Excela zobaczymy wiele scalonych komórek (merged cells), mnóstwo linków, ikonki i puste miejsca

web scraping example

No ale mamy dane. A to już dużo. Wszak chcemy ogarnąć projekt do analizy danych.

➡️Czyszczenie danych w Excelu

Wykorzystamy tabele w Excelu i formuły, które pozwolą nam dzielić tekst, wyciągać fragmenty tekstu, a także manipulować formatem czasu by wyciągnąć wynik.

Np. mamy taki tekst w polu [Przeciwnik].

FC Schalke 04 (14.)

To co chcemy uzyskać to wyciągnięcie miejsca tego zespołu. Główną rolę odegra zatem formuła FIND, na podstawie, której będziemy wiedzieli gdzie zaczyna się nawias. Trzeba się trochę nagłówkować jak to wyciągnąć bo całość jest złożona.

=LEFT(RIGHT([@Przeciwnik];LEN([@Przeciwnik])-FIND("(";[@Przeciwnik]));FIND(".";RIGHT([@Przeciwnik];LEN([@Przeciwnik])-FIND("(";[@Przeciwnik])))-1)

Czasem, ważniejszy od skomplikowanej formuły w Excelu jest pomysł. Na przykład: Excel interpretuje wynik meczu jako godzina (1:01 to dla niego „minuta po pierwszej”). I teraz moglibyśmy się złościć i próbować to przerobić na tekst, bo to przecież nie jest godzina. Ale, możemy też użyć tego formatu w połączeniu z formułami HOUR i MINUTE. Dzięki temu bez trudu wyciągniemy gole gości i gospodarzy.

Jeżeli chcecie zerknąć jak wygląda całość, to poniżej plik do pobrania:

➡️ Wizualizacja danych w Tableau Public

Skoro rekord Roberta Lewandowskiego to nasz projekt do analizy danych, to musimy go jakoś „pokazać”. A jeśli pokazać to użyjemy Tableau. A konkretnie skorzystamy z darmowego Tableau Public, żeby stworzyć wizualizacje. Nasz dashboard w Tableau, będzie zawierał 3 wykresy i, aby szybko było wiadomo o kogo chodzi – zdjęcie Roberta Lewandowskiego.

Pierwszym wykresem będzie heatmap – czyli „mapa” pokazująca kolorem (a tutaj też rozmiarem), określoną wartość. W tym przypadku – ilość bramek strzelonych danemu przeciwnikowi.

projekt do analizy danych - heatmap

Drugi wykres, chyba najciekawszy pokazuje jak rekord Roberta Lewandowskiego wygląda wobec jego poprzednich sezonów Bayernie.

rekord roberta lewandowskiego a poprzednie sezony

Trzeci wykres jest chyba najciekawszy.Dzięki połączeniu w Tableau Running Sum i Percent of Total możemy pokazać, że Robert strzela bramki „po równo” na przestrzeni całego meczu.

Running Sum Percent of Total Tableau

➡️Pochwal się swoim projektem!

Na koniec, należy pamiętać o tym by się po ludzku swoim projektem pochwalić. Najłatwiej zrobić to wrzucając wizualizację na Tableau Public.

Dashboard z Lewandowskim znajdziesz tutaj.

To tyle w tym temacie. Analizujcie w pokoju!  

Podobał Ci się ten artykuł?
Podziel się nim w Social Mediach:
>>> udostępnij go na LinkedIn i pokaż, że codziennie uczysz się czegoś nowego 
>>> wrzuć go na Facebooka, to się może przydać któremuś z Twoich znajomych 
>>> Przypnij sobie tą stronkę to zakładek, może się przydać w przyszłości

Inne ciekawe artykuły:

Wolisz oglądać niż czytać – nie ma problemu
>>> Obserwuj i oglądaj KajoData na YouTube

Ja Ci ją z przyjemnością wyślę. Za darmo. Bez spamu.

Poradnik Początkującego Analityka

Video - jak szukać pracy w IT

Regularne dawki darmowej wiedzy, bez spamu.