Niektorí IT-čkari hovoria, že Big Data sú ako Yeti. Každý o nich hovorí, ale nikto ich ešte nevidel. V skutočnosti sú však k nám bližšie, ako by sme si mohli myslieť.
Google, Facebook, Amazon a Ebay sú len tie najznámejšie prípady, ktoré by bez big data technológií nefungovali vôbec, alebo by nemohli fungovať spôsobom akým pracujú teraz. Banky, telekomunikačné spoločnosti, distribútori energií, obchodné reťazce a mnohé ďalšie spoločnosti tiež bežne využívajú big data na marketingové analýzy, znižovanie odlivu zákazníkov, opimalizáciu skladových zásob, prevenciu technologických výpadkov a mnohé ďalšie účely.
Big Data, teda veľké dáta, sú (v angličtine) charaterizované tromi “V”:
– Volume (objem)
– Velocity (rýchlosť)
– Variety (rôznorodosť).
Niekedy sa k týmto trom “V” pridávajú ešte ďalšie dve:
– Veracity (vierohodnosť)
– Value (hodnota)
Pozrime sa na ne bližšie.
- Volume – objem. Logicky, veľké dáta, znamená veľký objem dát. Čo je to ale dnes veľký objem? Spravidla to znamená také množstvá dát, ktoré sa nedajú spracovať a (hlavne) analyzovať bežnými prostriedkami (teda relačnými databázami) alebo by to bolo neprimerane drahé. Takzvané big data technológie sa využívajú vtedy, keď je efektívnejšie použiť masívne paralalené spracovanie dát na bežných (komoditných) serveroch (rádovo stoviek, či tisícov) ako použiť veľký superpočítač alebo zoskupenie superpočítačov. Veľké dáta teda dnes znamenajú rádovo stovky terabytov, či petabyty a viac.
- Velocity – (rýchlosť). Veľké dáta nemusia znamenať len veľký objem. Pre Big Data je charakteristické aj to, že pribúdajú veľmi rýchym tempom a je potrebné ich priebežne spracovávať.
- Variety – rôznorodosť. Pre Big Data je typická aj veľká rôznosť. Už to nie sú len štruktúrované dáta, na aké sme boli zvyknutí z relačného databázového prostredia, ale aj semi-štrúktúrované, ako napríklad e-maily, textové dokumenty, facebookové statusy, logovacie záznamy a tiež neštruktúrované ako napríklad video záznamy, audio súbory a ďalšie.
- Veracity – vierohodnosť. Veľké dáta pochádzajú z veľmi rôznorodých zdrojov, kde môžu byť veľké rozdiely v ich dôveryhodnosť a výpovednej hodnote. Je to veľká výzva pri spracovaní big data.
- Value – hodnota. Vďaka tomu, že súčasnými technológiami dokážeme zhromaždiť a analyzovať (dokonca v reálnom čase) obrovské objemy dát z desiatok, či dokonca stoviek rôznorodých zdrojov, môžeme z ních vydolovať množstvo veľmi hodnotných informácií.
Čo sa zmenilo oproti minulosti, že vznikol tento fenomén ktorý dostal dokonca samostatné pomenovanie a stal sa takmer zaklínadlom, ktoré musia skloňovať všetci, ktorí chcú v oblasti spracovania dát niečo znamenať bez ohľadu na to, či skutočne robia s big data alebo nie?
Je to kombinácia rôznych faktorov. Okrem rýchle postupujúcej digitalizácie priemyselných a obchodných procesov je to web s obrovským množstvom navzájom prepojených web stránok, databáz a zvlášť sociálnych sietí. Významne k tomu prispela aj neustále sa znižujúca cena procesorov a pamätí spolu s hardvérovou virtualizáciou a tiež vznik algoritmov a techník umožňujúcich masívne paralelené spracovanie dát na bežnom lacnom hardvéri.
V roku 2005 softvéroví inžinieri z Google publikovali vedecký článok, kde opísali metódu paralelného spracovania dát známu ako map-reduce. Táto metóda je zaujímavá preto, že umožňuje relatívne jednoduchým spôsobom paralelizovať veľmi širokú triedu úloh. Vďaka tejto a, samozrejme, aj ďalším metódam bolo možné vytvoriť systémy na paralelné spracovanie dát, ktoré zabezpečili rovnomernú distribúciu úloh a dát medzi jednotlivé zosieťované počítače (uzly) a tiež zbieranie a sumarizáciu jednotlivých čiastkových výsledkov. Programátorovi teda stačí len zadefinovať ako sa majú rozdeliť vstupné dáta na spracovanie medzi jednotlivé uzly, špecifikovať úlohy, ktoré majú vykonať jednotlivé uzly a spôsob, ako sa majú sumarizovať výsledky. Nemusí sa už starať o to, ako efektívne presúvať dáta medzi uzlami, nemusí kontrolovať, či sa niektorý z uzlov práve nepokazil, alebo či nepracuje príliš pomaly ani o to, ako korektne skompletizovať všetky výsledky; toto zabezpečí samotný systém. Tým, že tie najnáročnejšie úlohy prevzal na seba systém a že programátori dostali v podobe map-reduce jednoduchú schému na vytváranie paralelných algoritmov sa veľmi zjednušilo a zlacnilo programovanie paralelného spracovania dát.
Veľmi dôležitým faktorom rozmachu spracovania big data je fenomén open source softvéru. Veľmi rýchlo vznikli rôzne open sourceové platformy na aplikáciu map-reduce a ďalších techník spracovania big data, ktoré umožnili akademickej obci i komerčnej sfére začať spracovávať tieto údaje s minimálnymi vstupnými nákladmi. Dnes najpoužívanejšími sú Hadoop, Hive, Spark, MongoDb a ďalšie. Tieto open source technológie sa stali aj základom a východiskom pre komerčné big data riešenia ako napríklad Cloudera Impala, Pivotal HDB či Hortonworks Data Platform.
Ďalšie zlacnenie umožnil vznik veľkých cloudových dátových centier, kde je možné podľa potreby si prenajať aj stovky, či tisíce lacných virutálnych počítačov s predinštalovanými serverovými aplikáciami, takže spracovanie big data je dnes vo finančných možnostiach takmer každej firmy, či organizácie.
Dobry den Vam prajem,
dakujem Vam za Vase canky, rada by som ich (samozrejme s respektovanim autorskeho zakona) vyuzila pre svojich studentov na Vysokej skole manazmentu, ak budete suhlasit.
Ucim predmet Data mining, vyuzivam system Weka, ale nemam skusenosti s praktickym nasadenim v oblasti velkych dat (na FIIT pouzivaju pomenovania ako “rozsiahle korpusy dat”, “rozsiahle data”, “veľke datove subory”…).
AJ ked su nasi studenti “iba” buduci podnikovi manazeri, myslim si, ze musia mat aspon predstavu o tomto fenomene 🙂
Bola by som velmi rada, keby ste sa mohli zucastnit nasho workshopu, ktory bude v oktobri v Bratislave. Urcite sa mame co od Vas ucit 🙂
IWKM 2016: http://goo.gl/forms/ilJZDpaRDopMV3rk2
Renata Janošcová