Data science a cyberbezpieczeństwo — popularne mity

Grey Wizard
GreyWizard
Published in
3 min readMar 24, 2017

Data science to dziedzina, która obecnie znajduje coraz większe zastosowanie w problemach, które do niedawna były jeszcze bardzo trudne do rozwiązania.
Bez odpowiedniej eksploracji danych i algorytmów uczenia maszynowego niełatwo byłoby sobie wyobrazić zadania takie jak rozpoznawanie obrazów, mowy, pisma odręcznego czy gestów. Poza tymi sztandarowymi przykładami, praca data scientist’ów jest również wykorzystywana coraz częściej do rozwiązywania konkretnych problemów biznesowych, także w dziedzinie cyberbezpieczeństwa. Ze względu jednak na to, że dopiero w ostatnich latach szeroko pojęta analiza danych zyskała na popularności w walce z cyberprzestępcami, narosło wokół tej dyscypliny wiele mitów. Kilka, naszym zdaniem najważniejszych omówimy w tym artykule.

Systemy predykcyjne są w stanie wykryć każdy atak

Wiele firm korzysta z osiągnięć data science do stworzenia systemu predykcyjnego, który jest w stanie wykryć kiedy nastąpi kolejny atak sieciowy. Tego typu systemy pozwalają znacząco zniwelować zagrożenie ataku oraz stanowią ważne ogniwo ochrony. Nie zapewniają jednak stuprocentowej skuteczności działania. Uczą się one bowiem wykrywać ataki, korzystając z danych pochodzących z przeszłości, co powoduje, że w momencie pojawienia się nowego typu ataku istnieje możliwość, że nie zostanie on wykryty. Hakerzy także stale dostosowują i zmieniają swoją strategię działania, aby przechytrzyć zabezpieczenia. Działa to na niekorzyść systemów predykcyjnych, które nie są w stanie tak szybko dostosować się do zmian.

Skuteczność systemu predykcyjnego jest zawsze taka sama

W odróżnieniu od innych dziedzin, w których wykorzystuje się uczenie maszynowe, w cyberbezpieczeństwie jakość modeli predykcyjnych spada stosunkowo szybko. Mają na to wpływ ciągle zmieniające się zagrożenia i wspomniana już aktywność hakerów w dostosowywaniu swojej strategii ataku. W przypadku tradycyjnych zastosowań jak np. rozpoznawanie pisma odręcznego lub twarzy na obrazach problem nie zmienia się w czasie, dlatego jakość systemu pozostaje przez długi czas na tym samym poziomie. W przypadku dziedziny cyberbezpieczeństwa, aby zniwelować spadek skuteczności działania konieczna jest bieżąca praca nad danymi i częste aktualizacje modeli predykcyjnych.

System bezpieczeństwa sieciowego może polegać tylko na modelu predykcyjnym

Algorytmy uczenia maszynowego do uzyskania odpowiedniego stopnia generalizacji problemu potrzebują dużych ilości danych. W przypadku ochrony przed atakami sieciowymi są to dane o prawidłowym ruchu sieciowym oraz o zagrożeniach. Czasem jednak dane zagrożenie występuje bardzo rzadko lub jest je trudno zarejestrować, tak więc nauczony model predykcyjny nie nauczy się go odróżniać od normalnego ruchu sieciowego. W takich sytuacjach lepiej wykorzystać inną metodę, bazującą na przykład na haszach, maskach itp. Metody spoza obszaru uczenia maszynowego mogą być również stosowane jako dodatkowa, wstępna warstwa zabezpieczeń. Takie połączenie przynosi często bardzo dobre rezultaty i nie powinno się rezygnować z tradycyjnych metod na rzecz tylko i wyłącznie modeli predykcyjnych.

Systemy predykcyjne zastąpią pracę analityków sieciowych

Mimo, że obecnie coraz głośniej jest o zastępowaniu pracy ludzi przez algorytmy, nie należy się obawiać, że systemy predykcyjne całkowicie zastąpią analityków sieciowych. Dziedzina cyberbezpieczeństwa jest dynamiczna, prawie codziennie powstają nowe sposoby ataków, które wymagają analizy, odpowiedniego przetworzenia, a następnie wyrażenia ich w postaci reguł decyzyjnych lub modeli predykcyjnych. Zamiast zastępować ludzi, automatyczne systemy bezpieczeństwa będą raczej uzupełniać pracę analityków, pozwalając im skupić się na nowych lub najtrudniejszych przypadkach. W powiązaniu z deficytem wykwalifikowanych specjalistów w dziedzinie cyberbezpieczeństwa strategia współpracy ludzi i maszyn zdecydowanie poprawi ogólną skuteczność ochrony.

Algorytmy są ważniejsze od danych

Ten mit związany jest nie tylko z dziedziną cyberbezpieczeństwa, ale dotyczy każdej dyscypliny gdzie wykorzystywane jest uczenie maszynowe. Często w artykułach dotyczących zastosowań uczenia maszynowego podkreśla się wagę algorytmu, nie wspominając nic o danych. Tymczasem można wykorzystywać najlepsze algorytmy uczenia, lecz bez odpowiedniej ilości dobrych jakościowo danych model nie będzie skuteczny. Skupianie się w głównej mierze na algorytmie zamiast na danych można porównać do kupowania samochodu bez możliwości dostępu do stacji benzynowych. Dlatego podczas wdrażania modelu predykcyjnego należy pamiętać, że zbiór danych używany podczas treningu jest przynajmniej tak samo ważny jak algorytm.

Źródła

https://www.tripwire.com/state-of-security/security-awareness/debunking-the-biggest-cyber-security-myths-for-businesses/
https://www.crowdflower.com/7-myths-ai/
https://securelist.com/blog/opinions/76351/five-myths-about-machine-learning-in-cybersecurity/

Originally published at blog.greywizard.com.

--

--