Wyzwania branży Data Science

W ramach podcastu “Porozmawiajmy o IT” miałem okazję porozmawiać z Marcinem Kosińskim o wyzwaniach branży Data Science.

Posłuchaj naszej rozmowy w wersji audio 🎧 👇

Cześć! Mój gość w Emagine wdraża zastosowania sztucznej inteligencji w projektach wewnętrznych organizacji, magister statystyki matematycznej i analizy danych na Politechnice Warszawskiej. W branży Data Science od prawie 10 lat. Znany na polskiej scenie Data Science z organizacji licznych konferencji oraz wielu prezentacji wygłaszanych w Polsce i w Europie. Moim i Waszym gościem jest Marcin Kosiński.

Cześć, Marcin, bardzo mi miło gościć Cię w podcaście.

Cześć, dzięki za zaproszenie.

A dzisiaj z Marcinem jako ekspertem od Data Science będziemy rozmawiać o wyzwaniach, z jakimi się mierzy ta branża. Dla mnie to też będzie ciekawa okazja do tego, żeby nauczyć się czegoś nowego. Bardzo się cieszę na tę rozmowę, ale zanim do tego przejdziemy, to chciałbym Cię, Marcin, standardowo, jak każdego mojego gościa zapytać, czy słuchasz podcastów. Jeżeli tak, to może masz jakieś, o których chciałbyś tutaj powiedzieć?

Tak, miałem okazję słuchać kilku. Z tego miejsca chciałbym bardzo polecić podcast Biznes myśli, prowadzi go Vladimir Alekseichenko. I jeszcze podcast Data Science po polsku autorstwa Szymona Drejewicza. Więc myślę, że na polskiej scenie Data Science warto śledzić obecnie te dwa podcasty.

Super! Dzięki za te rekomendacje. Nie da się ukryć, że o Data Science mówi się ostatnio coraz więcej w mediach, na branżowych wydarzeniach. Często podkreśla się wartość danych, mówi się, że to jest takie nowe złoto, nowe paliwo, które napędza biznesy. Nie da się ukryć, że większość firm przynajmniej gromadzi te dane, przetwarza, niektóre nawet wyciągają z nich jakieś wnioski.

Zanim przejdziemy do rozmowy o wyzwaniach branży Data Science, to chciałbym Cię poprosić o wyjaśnienie kilku podstawowych pojęć. Czyli powiedz, proszę, czym w ogóle jest Data Science, jak Ty to definiujesz, i czym zajmują się osoby, które mają przed nazwiskiem Data Scientist.

Data Scienist to taki nowy twór na naszym rynku, wcześniej to miało wiele różnych nazw. Myślę, że w przyszłości też wyewoluuje. Wcześniej można było spotkać się z takimi terminami, jak Data Mining. Obecnie często też słyszy się uczenie maszynowe, Artificial Intelligence. Te nazwy będą się wymieniać, ale głównie chodzi o to mniej więcej, że jest to nauka oparta na danych, na rozwiązaniach, które są stworzone po to, żeby wykorzystywać dane, by przyspieszyć automatyzację, stworzyć inteligentne systemy. Jest to cały zakres szeroko pojętego biznesu, który stara się kolekcjonować dane w odpowiedniej formie, przetwarzać je, by były przystępne do wykorzystania, oraz stara się wycisnąć z tych danych jak najwięcej informacji po to, aby biznesy działały prężniej i skuteczniej. I w ostatnich latach również powstają z danych algorytmy uczenia maszynowego, które wspierają procesy decyzyjne.

Data Scienist to taki nowy twór na naszym rynku, wcześniej to miało wiele różnych nazw. Myślę, że w przyszłości też wyewoluuje. Wcześniej można było spotkać się z takimi terminami, jak Data Mining. Obecnie często też słyszy się uczenie maszynowe, Artificial Intelligence. Te nazwy będą się wymieniać, ale głównie chodzi o to mniej więcej, że jest to nauka oparta na danych, na rozwiązaniach, które są stworzone po to, żeby wykorzystywać dane, by przyspieszyć automatyzację, stworzyć inteligentne systemy.

Żeby jeszcze dopełnić ten obraz, to powiedz, czym zajmują się osoby z tytułem Data Scientist.

Data Scientist to jest taki statystyk pierwszego kontaktu — jak lekarz pierwszego kontaktu, gdyby to przyrównać do terminologii medycyny. Data Scientist dość często musi na pierwszej linii frontu sprawdzić, czy firma faktycznie ma dane, na których mogłaby oprzeć jakieś inteligentne systemy. Musi też sprawdzić, czy jest w stanie zbierać i kolekcjonować te dane, oraz czy ma do tego odpowiednie kompetencje. W momencie, gdy dane są odpowiednio zbierane i można z nich skorzystać, Data Scientist przechodzi do takiej innej formy, ma też inne odpowiedzialności, w tym momencie musi od biznesu dowiedzieć się, jakie są wyzwania w tej firmie, aby móc sprawdzić, czy jest w stanie zaproponować jakieś rozwiązania, które pomogą podejmować inteligentne decyzje.

Kiedy już wiadomo, jak zbierać dane, oraz że te dane istnieją i są kompletne, Data Scientist również zajmuje się tworzeniem modeli sztucznej inteligencji oraz modeli produkcyjnych, które na podstawie danych tworzą jakieś decyzje. I często te decyzje są szyte na miarę, różne biznesy mają różne potrzeby, więc ciężko jest generalizować.

Podsumowałbym to jednym zdaniem, że Data Scientist weryfikuje, czy faktycznie dane, na których można pracować, są kompletne i wystarczające oraz tworzy systemy, w których jesteśmy w stanie podejmować decyzje.

Chciałbym Cię jeszcze zapytać o taką jedną rzecz, która dopełni definicji, bo faktycznie, mówiłeś, że Data Science to jest nauka, że mamy tutaj Data Scientist, czyli z angielskiego pewnego rodzaju naukowiec. Jestem ciekawy, na ile faktycznie o Data Science mówi się jak o nauce, a na ile jak o jakiejś gałęzi inżynieryjnej. Bo bardzo często w ramach IT umieszcza się Data Science. Jestem ciekawy, jak Ty na to patrzysz, czy że jest to nauka, czy inżynieria.

Tutaj faktycznie jest to przycięcie wielu kompetencji. Osobiście rozróżniłbym dwa odłamy: inżynieryjny oraz, nazwijmy go chwilowo przez wzgląd na nasze potrzeby — naukowy.

Ten aspekt inżynieryjny faktycznie skupia się na dobrym tworzeniu systemów, które dobrze wydane gromadzą i agregują oraz umożliwiają przeczesywanie lasu danych. Jednak ten aspekt naukowy, z którym mam więcej doświadczenia, powiedziałbym, że jest bardziej statystycznym aspektem. Wymagana jest tutaj wiedza, używajmy tego słowa naukowa, ale taka wiedza dziedzinowa, zastosowań i niuansów modeli uczenia maszynowego. Więc tutaj faktycznie rozróżniłbym podział na dwa typy. Jest praca związana z gromadzeniem, przetrzymywaniem i wyszukiwaniem danych i jest ta część, gdzie faktycznie potrzebnej jest trochę więcej wiedzy, gdzie wykorzystujemy już dane w modelach uczenia maszynowego, gdzie ta wiedza statystyczna czy matematyczna jest wymagana.

Rozumiem. Myślę, że zanim przejdziemy do wyzwań tej branży, to dobrze byłoby też zrozumieć, jak wygląda rynek Data Science. Wiem, że to jest bardzo pojemne pytanie, bo zależy, jak się mierzy i co się mierzy, ale gdybyś może spróbował jakoś właśnie zwymiarować ten rynek Data Science w Polsce, w Europie, to by dało nam pewien obraz sytuacji.

Faktycznie, kiedy mówi się rynek, to jest to dość obszerne pojęcie. Ja, mówiąc rynek, myślę o społeczności oraz o wakatach, o zapotrzebowaniu na takie stanowiska. Mówiąc o społeczności, mogę z dużą dozą pewności stwierdzić, że na naszym rynku dość prężnie działa dużo organizacji, które tworzą wydarzenia, meet-upy, jest dużo konferencji na naszym polskim rynku. Z większych konferencji, które mogę sobie teraz przypomnieć, to Data Science Summiti na te konferencje przychodzi rokrocznie około tysiąc osób, więc są to dość duże wydarzenia.

Jeżeli chodzi o rynek europejski, to te konferencje są jednak większe. Tam skupienie specjalistów jest dużo większe. Może się to wiązać z tym, że rynki zachodnie wcześniej się rozwijały, wcześniej dostrzegły ważność danych oraz wcześniej zaczęły rozwijać takie kompetencje i miejsca pracy.

U nas w Polsce rynek ma się dobrze, wcale nie mamy daleko do Zachodu. Rzekłbym nawet, że nasi specjaliści są dość często lepiej wykwalifikowani, bo jednak renoma polskich specjalistów IT na świecie jest ogromna i my faktycznie na naszych wydarzeniach w kraju oraz na tych za granicą, na których wygłaszamy przemówienia, dbamy o jakość i klasę, co widać.

Więc faktycznie rynek w Polsce jest spory, tych specjalistów nie jest tak dużo, jak za granicą, jednak nasi specjaliści są doceniani i często są wciągani w zagraniczne projekty, przez co widać, że tworzy się luka pracownicza na tym rynku. Zapotrzebowanie na specjalistów z tymi kompetencjami jest na tyle duże, że doszło już do tego, że ciężko jest zatrudnić specjalistę na odpowiednim poziomie i często takich specjalistów trzeba po prostu samoistnie wyszkolić. Firmy też idą trochę w tym kierunku, wiedzą, że osoby na seniorskich stanowiskach jest ciężko zatrudnić, stworzą własne akademie, gdzie osoby z tej firmy, będąc mentorami, szkolą nowe pokolenia pracowników, które potem będą rozwijały systemy danych firmy.

Zapotrzebowanie na specjalistów z tymi kompetencjami jest na tyle duże, że doszło już do tego, że ciężko jest zatrudnić specjalistę na odpowiednim poziomie i często takich specjalistów trzeba po prostu samoistnie wyszkolić. Firmy też idą trochę w tym kierunku, wiedzą, że osoby na seniorskich stanowiskach jest ciężko zatrudnić, stworzą własne akademie, gdzie osoby z tej firmy, będąc mentorami, szkolą nowe pokolenia pracowników, które potem będą rozwijały systemy danych firmy.

Bardzo miło słyszeć, że nie odstajemy mocno od Europy. Sam też jestem fanem tego typu rozwoju, czy też wchodzenia w ogóle do branży, żeby jak najszybciej dotykać realnych problemów.

Chciałbym teraz przejść do innego wątku. Wspomniałeś, że odpowiedzialnością osoby zajmującej się Data Science jest z jednej strony aspekt naukowy, z drugiej strony inżynieryjny, ale jest też, jak to określiłeś, komunikacja z biznesem, z produktem, z marketingiem, po to, żeby tę wiedzę wyciągnąć, żeby np. móc skonstruować modele danych. Data Science pewnie jak każda inna dziedzina działalności ma swój żargon, swój język, ma pewne nawyki. Czy ta komunikacja z biznesem jest jakimś problemem, jest swego rodzaju wyzwaniem dla branży?

To jest bardzo fajne pytanie. Mówiąc o Data Science, faktycznie warto zwrócić uwagę na biznes i na wiedzę dziedzinową. Kiedy się mówi o Data Scientist, człowiek ma obraz osoby, która ma kompetencje inżynieryjne, umie posługiwać się różnymi językami programowania, a dodatkowo ma jakąś wiedzę z zakresu uczenia maszynowego, jeżeli chodzi o tę wiedzę książkową.

Trzecim elementem, który jest niezbędny w pracy Data Scientist, jest wiedza dziedzinowa, czyli wiedza na temat pewnych obszarów biznesu, w których się pracuje, na tematy danych, z którymi się pracuje na co dzień, więc komunikacja z biznesem jest niezbędna, ponieważ analityk, który współpracuje z biznesem, wchodząc w nowy obszar, nie ma jeszcze takiej wiedzy, nie wie, jakie są zachowania na rynku, nie wie, jak zachowują się klienci, nie wie, jakie są wymagania biznesu, dlatego często musi komunikować się z biznesem, żeby zrozumieć dane, zrozumieć strukturę zachowania. Komunikacja z biznesem jest nieoceniona.

Biznes jest także potrzebny w tych zastosowaniach Data Science, ponieważ wyznacza cele, dalekosiężne plany na rozwiązania, więc analityk czy Data Scientist jest w stanie zrobić dużo, ale to mędrcy z biznesu wyznaczają kierunki, w których firma powinna się rozwijać, i wtedy Data Scientist musi odpowiadać na te potrzeby i dostosowywać do nich rozwiązania.

Jeżeli chodzi o żargon, to oczywiście jest mniej lub bardziej zrozumiały, ale po pewnym czasie ta komunikacja z biznesem staje się bardzo płynna. Biznes uczy się trochę od Data Scientists, ci drudzy też często muszą stopować zapędy na wykorzystywanie sztucznej inteligencji, ponieważ często wyobrażenia o tym, co Data Scientist mógłby zrobić, są mocno przesadzone. Więc ten biznes trzeba stopować. Niemniej jednak biznes pokazuje obszary, w których chciałby się rozwijać, pokazuje, gdzie można zdobyć nowych klientów, ew. zwiększyć przychody czy zmaksymalizować popyt na produkt. Więc ta współpraca będzie trwała. Data Scientist będzie uczył się od biznesu, co jest w tym obszarze niezbędne, biznes będzie starał się, mam nadzieję, zrozumieć, co jest wykonalne.

To może zerknijmy na konkretne zastosowania Data Science i zobaczmy, z jakimi wyzwaniami tamta branża musi się mierzyć. A ja przypominam, że moim gościem jest Marcin Kosiński z firmy Emagine. Rozmawiamy właśnie o wyzwaniach branży Data Science.

Marcin, kiedy się czyta Twój profil zawodowy, to widać, że masz duże doświadczenie w analizie badań marketingowych. I zewsząd dociera do nas informacja, że faktycznie nowoczesny marketing z tych danych korzysta, co można powiedzieć, że stanowi o sukcesie tej branży. Jak Data Science wspiera nowoczesny marketing, jakie wyzwania tam spotyka, jak sobie z nimi radzi?

Badania marketingowe są tutaj bardzo obszernym tematem. Istnieje tu bardzo wiele wyzwań i mając już kilkuletnie doświadczenie, bardzo chętnie o tym opowiem. W tej branży badań marketingowych praca Data Scientist wygląda troszeczkę inaczej, ponieważ w niektórych przypadkach nie ma danych do rozwiązania problemu. Wychodzi na rynek nowy produkt, nie jest jeszcze sprzedawany, nie wiadomo, jak klienci na niego zareagują, a wypadałoby stworzyć jakąś analizę, żeby zobaczyć, które cechy produktu są najbardziej pożądane przez klientów, ew. jak ten nowy produkt wycenić.

Są też takie sytuacje, w których polityk rozpoczyna swoją kampanię, załóżmy na jakieś stanowisko prezydenta czy radnego, i też nie wiadomo, jakie są opinie czy poglądy społeczne na temat jego sylwetki, jego poglądów. Więc jeżeli chodzi o obszary analiz badań marketingowych, można wyróżnić takie dwa. Badania opinii, odbioru nowych rzeczy czy produktów. Lub istnieją już produkty, osoby, one są już ugruntowane w rynku i pewne dane na ich temat istnieją. Więc ja mam duże doświadczenie, jeżeli chodzi o zbieranie nowych danych, pracowałem też przy takich systemach, które analizowały zachowania zakupowe, więc jeśli chodzi o e-commerce, też mógłbym dużo opowiedzieć. Ale w tym pytaniu chciałbym się skupić na tej części, w której dane nie istnieją.

Więc jeżeli dane nie istnieją i chcielibyśmy sprawdzić jakiś nowy produkt, jakieś nowe zachowania czy nową narrację polityków, jeżeli chodzi o ich kampanie prezydenckie czy inne, to tutaj bardzo fajnie można mieć wpływ na tworzenie danych. I to jest niecodzienne w pracy Data Scientist, że może mieć wpływ na tworzenie danych, z którymi będzie pracował i to jest bardzo przyjemne. Można się zastanowić, jakie dane będą potrzebne, albo odpowiedzieć na kilka pytań, a następnie można ten model danych stworzyć, przygotować ankietę, a potem do zainteresowanych osób ją rozesłać. W wielu zastosowaniach często jest na odwrót: Data Scientist przychodzi, kiedy dane są gotowe. I tutaj często dochodzi do sytuacji, w których wynika, że pewnych danych nie ma, ew. pewne dane są zbierane źle. I cały proces trzeba powtórzyć. W tych badaniach marketingowych, które sprawdzają nowe trendy czy produkty, Data Scientist często ma wpływ na zbieranie tych danych.

👉 Czytaj dalej na: https://porozmawiajmyoit.pl/poit-170-wyzwania-branzy-data-science/

--

--

Dev and life blog. Thoughts about programming, design patterns, Ruby and life.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
Krzysztof Kempiński

Krzysztof Kempiński

655 Followers

IT expert. Ruby on Rails/iOS/Elixir programmer. Blogger. Podcaster.