V predošlom článku sme vysvetlili základné princípy data miningu a naznačili hlavné oblasti jeho aplikácie. Data mining (doslova “dolovanie dát” ale správnejšie označenie je “hĺbková analýza dát”) je teda súbor rôznych metód a postupov na automatizované zisťovanie zaujímavých informácií z veľkého množstva dát. Tieto metódy sa dajú roztriediť do do niekoľkých skupín.
Jednou z aplikácií data miningu, ktorú sme už spomínali sú spamové filtre, ktoré na základe výskytu určitých slov v e-maili a ďalších parametrov e-mailu určia, či danú správu zaradia medzi nevyžiadanú reklamu a presunú ju do spamového koša, alebo ju pustia k užívateľovi. Výsledkom tejto metódy je teda roztriedene (kategorizovanie) e-mailov na spam a nie-spam. Táto metóda sa nazýva klasifikačná.
Kto nakpuoval cez Amazon.com, určite si všimol, že pri výbere nakupovaného produktu server odporúča ďalšie, doplnkové produkty. Na pohľad sa to môže zdať triviálna úloha, ku každému produktu vybrať pár, ktoré sa s ním najčastejšie predávajú. Ak však máte desaťisíce produktov a milóny transakcii, zistíte, že to nie je vôbec jednoduché. Metódy, ktoré sa používajú na nájdenie takto súvisiacich produktov ale iných súvislostí sa označujú ako asociačné respektíve metódy asiociačných pravidiel.
Výrobné spoločnosti, alebo spoločnosti poskytujúce infraštruktúru sú bytostne závislé od bezchybného fungovania strojov a zariadení, ktoré prevádzkujú. Mnohokrát výpadok jedného zariadenia na čas zastaví celú linku a spôsobí veľké straty. Preto je dnes bežné monitorovanie zariadení v reálno čase. Stroje riadené počítačmi neustále zapisujú operácie, ktoré vykonávajú a tie sa priebežne analyzujú. Porovnáva sa čas trvania jednotlivých operácií, či rôzne menšie poruchy. Ak sa zistia väčšie odchýlky v čase trvania operácií nejakého zariadenia alebo zvýšený počet drobných výpadkov, či napríklad zvýšená teplota, ktoré zvyčajne signalizujú blížiacu sa poruchu, zariadenie sa vymení alebo opraví ešte skôr, ako sa pokazí. Metódy na odhaľovanie nezvyčajných údajov sa označujú ako detekcia anomálí (outliers) alebo deviácií.
Táto metóda sa dá použiť napríklad aj na odhalenie zmeny správania u zákazníkov a umožňuje osloviť ich novou ponukou, ktorá lepšie vyhovuje ich potrebám aby sa zamedzilo ich odchodu ku konkurencii.
Niekedy potrebuje telefonický operátor rozdeliť zákazníkov do rôznych segmentov podľa dĺžky, frekvencie a času hovorov, aby mohol ponúknuť optimálne paušály pre hlavné skupiny svojich zákazníkov. Nevie pri tom vopred určiť, koľko má byť tých jednotlivých segmentov, koľko zákazníkov má v nich byť ani aké majú byť hraničné hodnoty medzi nimi. Data miningová metóda zhlukovania (clustering) toto všetko vie urobiť automaticky len na základe analyzovania existujúcich údajov.
Reťazec športových potrieb potrebuje naplánovať koľko tovaru má objednať na nadchádzajúcu zimnú sezónu. Je to veľmi náročná úloha, pretože je potrebné odhadnúť budúci dopyt tisícov položiek v rôznych kategóriách a cenových skupinách. V tomto môžu výrazne pomôcť data minigové programy. Na základe vývoja predaja a skladových zásob z predošlých rokov a ďalších štatistických údajov je možné pomocou regresnej metódy vytvoriť veľmi presný a kvalitný plán predaja.
Dnes je potrebné praovať často so súbormi milónov, či dokonca miliárd záznamov. Preto, aby sa dali tieto dáta napríklad graficky zobraziť, alebo aby sa dali v nich odhaliť rôzne skryté vzory je potrebné ich zhutniť, zjednodušiť. Napríklad spočítať počet výskytov určitých hodnôt alebo určitých kombinácií výrazov, aby sme uviedli len tie najjednoduchšie príklady. Pre rôzne účely existujú aj ďalšie špecializované a sofistikované algoritmy. Všetky tieto postupy spadajú medzi takzvané sumarizačné metódy.
Špeciálnu skupinu tvoria metody simulácie neurónových sietí. Ako napovedá názov, pri týchto metódach sa počítače snažia napodobniť fungovanie ľudského mozgu. Dnes sa tieto metody úspešne používajú napríklad pri rozpoznávaní obrazu.
Ak by sme to chceli zhrnúť tak základné metódy hĺbkovej analýzy dát sú:
- klasifikačná – umožňuje zaradť (klasifikovať) vstupné údaje do určitých skupín (spam, nie-spam)
- metódy asociačných pravidiel – na spájanie údajov (ďalšie produkty, ktoré zákazníci kúpili spolu s vybraným produktom)
- detekcia anomálií – vyhľadáva údaje, ktoré sa vymykajú normálu (zvýšená chybovosť zariadení, zmeny v správaní zákazníka)
- metódy zhlukovania – nachádzajú prirodzené zhluky dát (segmentácia zákaníkov)
- regresné metódy – vytváranie číselných funkcií z jednotlivých dát (predpovedanie dopytu)
- sumarizácia – zhutňovanie (počet výskytov kľúčových slov v dokumentoch)
- neurónové siete – modely napodobňujúce fungovanie ľudského mozgu