Data mining — Co? Jak? K čemu?

Martina Růžičková
EDTECH KISK
Published in
2 min readMay 14, 2018

Data mining neboli dolování dat je analytická metoda, jak získat z velkého množství dat užitečné a netriviální informace, které mohou pomoci v rozvoji podniku nebo získat konkurenční výhodu nad ostatními. Tato metoda je jedna z mnoha součástí procesu dobývání znalostí z databází (Knowledge Discovery in Databases, KDD).

Dříve se data mining využíval hlavně v komerční oblasti — v marketingu (segmentace zákazníků, zvyšování efektivity reklamních kampaní, sledování rizika odchodu ke konkurenci nebo analýza nákupního košíku, sledování zákazníkem prohlížené produkty), bankovních společnostech (vyhledávání podvodů s kreditními kartami), ale taky ve vědě a výzkumu (analýza genetické informace). S rostoucí oblibou internetu, a dostupnosti k analytickým nástrojům, je čím dál snazší využívat data mining i v malých podnicích nebo u jednotlivých webových stránek (dataminingoví roboti, kteří nepřetržitě procházejí internet a hledají informace o potencionálních teroristických útocích). Díky dostupnosti testovacích verzí některých softwarových nástrojů nebo volně dostupných nástrojů si tyto metody může vyzkoušet každý. Dostupnost nástrojů však v tomto případě nenahrazuje zkušené odborníky, kteří se touto problematikou dlouhodobě zabývají.

Po obrovském rozšíření využitelnosti této metody se postup stal standardizovaný, bez ohledu na obor, ve kterém je využitý. Celý data mining probíhá v šesti krocích:

  • Definování problému, porozumění požadavků a stanovení cíle projektu. Zde se ještě navrhuje a tvoří plán pro řešení daného problému.
  • Porozumění datům je nezbytná součást procesu. Vytváří se první hypotézy, které se v průběhu celého procesu snažíme potvrdit, vyvrátit nebo najít jiná řešení, jak k problému přistupovat.
  • Příprava dat, integrace datových zdrojů, čištění a úprava dat do podoby, kterou vyžadují analytické nástroje a metody, které později budou na data aplikovány. Špatná integrace dat může vést ke znehodnocení zdrojů dat a ovlivnění celkové kvality řešení.
  • Modelování obsahuje testování vhodných metod a nastavení jejich parametrů pro řešení definovaného problému. Nejlepší získaná řešení postupují do dalšího kroku.
  • Při Hodnocení dochází ke konečnému zhodnocení a selekci získaných modelů podle různých vlastností a ověření správnosti získaných řešení. Dle získaných výsledků je již možno zvážit případnou implementaci celého procesu.
  • Nasazení je posledním krokem v celém procesu. Pokud je rozhodnuto výsledky data miningu implementovat do svých procesů, je nezbytné modely udržovat aktuální. Vztahy v datech se časem mění, a pokud by systém nebyl pravidelně aktualizován, je velmi pravděpodobné, že by časem pozbyl jak kvality, tak i zcela své funkce.

Ze správných dat, použijeme-li správný způsob dobývání, dostaneme správné výsledky. Proto by dobývání dat mělo být založeno na správných datech.

--

--