Co robi data scientist i co to jest data science

Co robi Data Scentist – fakty i mity

Jeżeli zastanawiasz się co robi data scientist, albo co to w ogóle jest to data science to jesteś w dobrym miejscu. Hype na data science jest wciąż sporo, więc postanowiłem opowiedzieć o tym, że choć nie łatwa, to jest to praca jak każda inna 😊

Z jednej strony nie da się zaprzeczyć, że to jak data scientist jest postrzegany bierze się w dużej mierze z popularnej opinii. Jako społeczeństwo zdajemy sobie pomału sprawę z tego, że produkujemy oceany danych. Tym samym pojawia się zapotrzebowanie na kogoś, kto będzie posiadał niemalże super moce w korzystaniu z tych danych. Tą właśnie osobą ma być data scientist. Większość bootcampów analitycznych stawia data scientista za wzór i punkt dojścia. Za osobę, która w zasadzie przewiduje przyszłość.

W ten sam sposób opisywany samo zajęcie. Co to jest data science – większości z nas trudno jednoznacznie odpowiedzieć na to pytanie, ale wiemy jedno – jest to tylko dla wybranych. Co więcej jest to zajęcie potężne – niczym przewidywanie przyszłości.

Praca data scientista jest bez wątpienia trudna i wymaga wieloletniego szkolenia i praktyki. Łączy w sobie analizę danych, programowanie, i tzw. umiejętności miękkie. Niemniej, istnieje wiele “trudnych” zawodów, które nie potrzebują płaszcza tajemnicy. Pora zatem zrzucić ów płaszcz również z data science.

Wersja do oglądania 🍿 📺

Co to jest data science? Głównie zadawanie pytań.

Jednym z podstawowych problemów w relacji biznes – analityk jest zadawanie pytań. Biznes często chce mierzyć rzeczy, mierzyć wzrost sprzedaży, lojalność klientów etc. Ale gdy przychodzi do postawienia konkretnego pytania, to powstaje problem. Jak konkretnie zmierzyć lojalność? I tu właśnie pojawia się data scientist. Jej / jego zadaniem jest stworzenie konkretnych wskaźników, których monitorowanie da nam prawdziwą wiedzę o rozwoju firmy.

Pracę tą można porównać do tego co robią dzieci – niekończącego się pytania dlaczego. Popularną metodą, którą można stosować jest five whys, czyli drążenia, aż rzeczywiście odnajdziemy sedno sprawy. W tym miejscu bardzo przydają się lata doświadczenia, bo trudno “wystudiować” zadawanie dobrych pytań. Ich trafność jest po prostu rezultatem ilości przepracowanych lat w branży analitycznej i naturalnej ciekawości, która kryje się w zasadzie pod wszystkim, co robi data scientist.

Co robi data scientist? Nie śpi, bo zbiera dane.

Aby pytania stawiać i na nie odpowiadać potrzebne są dane. W idealnym świecie wchodzilibyśmy po prostu do bazy danych i pobierali z tamtąd wszystko czego potrzebujemy. Ale – świat nie jest idealny.

Nasze dane są porozrzucane po różnych kątach w firmie (i nie tylko). Część, i owszem, jest ładnie utrzymywana w bazie danych. Ale jeden zespół ma jeszcze swoją prywatną bazę. Do tego dochodzą setki prywatnych exceli i tabel tam trzymanych. Poza tym, trzeba jeszcze użyć danych, które niekoniecznie są dostępne u nas w firmie. Być może potrzebujemy dostępu do historii pogody. Albo historii giełdy. Najlepiej jednego i drugiego.

Data cleaning / data cleansing

No dobra. Mamy dane. Super. A w zasadzie kompletnie-nie-super, bo prawdziwy problem pojawia się dopiero w tym momencie.

Zebrane do tej pory dane przypominają obecnie stos papierów, które ktoś wziął i po prostu rzucił na nasze biurko. To co my musimy zrobić, to przygotować je do użytku. Co to oznacza? To zależy od danych, ale najczęściej mówimy o takich rzeczach jak:

  • ujednolicanie formatów (dat, liczb)
  • sprawdzenie brakujących wartości (NULL)
  • sprawdzenie duplikatów
  • sprawdzenie outlierów

Celowo piszę o sprawdzeniu, bo usuwanie rzadko kiedy jest dobrym rozwiązaniem. Brakujące, czy zduplikowane dane, też są pewną wiadomością – my musimy po prostu zrozumieć co one mówią. Co ciekawe, wiele wskazuje na to, że czyszczenie danych, jest jedną najczęściej padających odpowiedzi na pytanie: “Co robi data scientist?”.

Data Science

No dobrze, to powiedz w końcu, co to jest data science, na czym to tak konkretnie polega?

Upraszczając – data science pozwala nam wyciągać wnioski z danych, które posiadamy, tak, że opłaca się nam (bądź nie) wykonywać pewne biznesowe działania. Większość analizy danych skupia się na potwierdzeniu tego, co konkretnie się stało. Jak wyglądała przeszłość? Ambicją data science jest próbować, z jako-takim szczęściem przewidywać przyszłość.

Wyobraź sobie taki scenariusz. Masz sklep online. Czy jest sens robić więcej reklam w deszczowe dni? Z jednej strony – ludzie i tak siedzą w domach, to może częściej siedzą przed komputerem, więc nie ma sensu. Z drugiej – pewnie rywalizacja w e-commerce jest większa. No właśnie. No teraz tak:

  • bierzemy sobie dane pogodowe (kiedy pada / może padać)
  • bierzemy sobie dane dot. mobilności (czy ludzie rzeczywiście siedzą w domu)
  • bierzemy statystyki sprzedażowe naszego sklepu
  • bierzemy informacje o tym kim są nasi klienci (np. czy boli ich że zmokną)

I to łączymy. Trudne, nie? No właśnie, nikt nie mówi, że zawód jest prosty. Chodzi mi tylko o to, by powiedzieć, że data science nie jest czarną magią. To, że pojawiają się takie zwroty jak “sieci neuronowe“, “decision tree“, “testy a/b“, to jeszcze nie znaczy, że nie mogą być to pewne powtarzalne procesy… których można się nauczyć. Podobnie jak kardiochirurgii. Choć i jedno i drugie jest dosyć trudne 😀.

Automatyzacja

Jednym z ważnych punktów, o którym nie wspomniałem wcześniej jest automatyzacja. No bo – masz dane, masz nawet jakąś odpowiedź, ale przecież nie będziesz robił tego wszystkiego co tydzień. Trzeba to jakoś zautomatyzować. Trzeba wstawić gdzieś ten model, który stworzyliśmy, który nam podpowiada co robić, by sam sobie brał dane i w jakieś konkretny sposób, regularnie dawał nam podpowiedzi.

I na tym polega automatyzacja. Wymaga to zarządzania serwerami, łączenia różnych baz danych, a przede wszystkim, przygotowania się na sytuacje, gdy surowe dane będą skopane. Żeby model wiedział że coś jest nie tak, a nie proponował nam bzdur.

Wizualizacja danych (prezentacja)

Ważnym aspektem pracy data scientist, jest prezentacja wyników. No dobrze… tylko jak można zaprezentować model. Pamiętaj, że dyrektorzy firm niekoniecznie są nerdami, którzy lubią się wpatrywać w terminal linuxa albo zachwycać się zwięzłością kodu w pythonie.

I tu wchodzi wizualizacja. Stereotyp mówi o tym, że obraz warty jest tyle co tysiąc słów. Prawda jest taka, że obrazek jest więcej wart niż miliard rekordów w tabeli. Bo właśnie dzięki kilku zwięzłym wykresom, jesteśmy w stanie pokazać, że cała ta nasza kosztowna praca miała sens. A ponieważ, robota jest trudna, to nieraz ciężko zlecić komuś jej zwizualizowanie. Tym samym to zadania również leży w rękach data scientist.

Jednym z najlepszych programów do wizualizacji danych jest Tableau. Na moim blogu znajdziesz wiele artykułów, które mówią o tym jak na nim optymalnie pracować. Na moim kanale YouTube, również znajdziesz dedykowaną listę filmików, gdzie będziesz mógł zrobić wizualizacje równocześnie ze mną.

➡️ Podsumowanie

Data scientist to nowy rodzaj eksperta ds. danych, którzy posiadają umiejętności techniczne umożliwiające rozwiązywanie złożonych problemów – oraz ciekawość, aby zbadać, jakie problemy należy rozwiązać.

Do ich zadań należy:

  • Rozmowa z biznesem
  • Zbieranie danych
  • Data cleaning / data cleansing
  • Właściwe Data Science
  • Automatyzacja
  • Wizualizacja danych
  • Przewidywanie przyszłości? 😉

To tyle w tym temacie. Analizujcie w pokoju!  📊📈

Podobał Ci się ten artykuł?
Podziel się nim w Social Mediach:
>>> udostępnij go na LinkedIn i pokaż, że codziennie uczysz się czegoś nowego 💻
>>> wrzuć go na Facebooka, to się może przydać któremuś z Twoich znajomych 💗
>>> Przypnij sobie tą stronkę to zakładek, może się przydać w przyszłości 💡

Wolisz oglądać 📺 niż czytać – nie ma problemu 😉
>>> Obserwuj i oglądaj KajoData na YouTube

A jeśli chcesz się dowiedzieć czegoś więcej o statystyce– zajrzyj tutaj.

Leave a Reply