Výukový program pro velká data: Vše, co potřebujete vědět o velkých datech!



Tento blog o výuce velkých dat vám poskytne kompletní přehled o velkých datech, jejich charakteristikách, aplikacích a výzvách s velkými daty.

Výukový program pro velká data

Big Data, neslyšeli jste tento termín dříve? Jsem si jistý, že ano. Za poslední 4 až 5 let všichni mluví o Big Data. Ale opravdu víte, co přesně je to Big Data, jak ovlivňuje náš život a proč organizace loví profesionály s ? V tomto výukovém programu Big Data vám poskytnu úplný přehled o Big Data.

Níže uvádíme témata, kterým se budu věnovat v tomto výukovém programu Big Data:





  • Příběh velkých dat
  • Faktory řízení velkých dat
  • Co jsou to velká data?
  • Big Data Charakteristiky
  • Druhy velkých dat
  • Příklady velkých dat
  • Aplikace velkých dat
  • Výzvy s velkými daty

Big Data Tutorial - Edureka

Dovolte mi začít tento Big Data Tutorial krátkým příběhem.



Příběh velkých dat

V dávných dobách lidé cestovali z jedné vesnice do druhé vesnice na voze poháněném koňmi, ale jak čas plynul, z vesnic se stávala města a lidé se rozkládali. Rovněž se zvýšila vzdálenost k cestování z jednoho města do druhého. Spolu se zavazadly se tak stal problém cestovat mezi městy. Z čista jasna navrhl jeden chytrý chlapík, abychom tento problém vyřešili, měli bychom koně více krmit a krmit. Když se podívám na toto řešení, není to tak špatné, ale myslíte si, že z koně se může stát slon? Nemyslím si to. Jiný chytrý chlap řekl, že místo toho, aby 1 kůň táhl vozík, nechme 4 koně vytáhnout stejný vozík. Co si myslíte o tomto řešení? Myslím, že je to fantastické řešení. Nyní mohou lidé cestovat na velké vzdálenosti za kratší dobu a dokonce nést více zavazadel.

Stejný koncept platí i pro Big Data. Big Data říká, že do dnešního dne jsme byli v pořádku s ukládáním dat na naše servery, protože objem dat byl docela omezený a doba zpracování těchto dat byla také v pořádku. Ale nyní v tomto současném technologickém světě data rostou příliš rychle a lidé se na data často spoléhají. Také rychlost, s jakou data rostou, je nemožné ukládat data na jakýkoli server.

Prostřednictvím tohoto blogu o Big Data Tutorial prozkoumáme zdroje Big Data, které tradiční systémy nedokáží ukládat a zpracovávat.



Faktory řízení velkých dat

Množství dat na planetě Zemi exponenciálně roste z mnoha důvodů. Různé zdroje a naše každodenní aktivity generují spoustu dat. S vynálezem webu se celý svět stal online a každá jedna věc, kterou děláme, zanechává digitální stopu. S online připojením inteligentních objektů se rychlost růstu dat rychle zvýšila. Hlavními zdroji velkých dat jsou stránky sociálních médií, sítě senzorů, digitální obrázky / videa, mobilní telefony, záznamy transakčních nákupů, webové protokoly, lékařské záznamy, archivy, vojenský dohled, elektronický obchod, komplexní vědecký výzkum atd. Všechny tyto informace dosahují zhruba nějakého Quintillion bajtu dat. Do roku 2020 bude objem dat kolem 40 Zettabytů, což se rovná přidání každého zrnka písku na planetě vynásobenému sedmdesáti pěti.

Co jsou to velká data?

Big Data je termín používaný pro kolekci datových sad, které jsou velké a složité a které je obtížné ukládat a zpracovávat pomocí dostupných nástrojů pro správu databází nebo tradičních aplikací pro zpracování dat. Výzva zahrnuje zachycení, vyřizování, ukládání, vyhledávání, sdílení, přenos, analýzu a vizualizaci těchto dat.

Big Data Charakteristiky

Pět charakteristik, které definují velká data, jsou: objem, rychlost, rozmanitost, pravdivost a hodnota.

  1. HLASITOST

    Objem označuje „množství dat“, které každým dnem roste velmi rychlým tempem. Velikost dat generovaných lidmi, stroji a jejich interakcemi na samotných sociálních médiích je obrovská. Vědci předpovídali, že do roku 2020 bude vygenerováno 40 Zettabytů (40 000 Exabajtů), což je oproti roku 2005 nárůst 300krát.

  2. RYCHLOST

    Rychlost je definována jako tempo, jakým různé zdroje generují data každý den. Tento tok dat je obrovský a nepřetržitý. V současnosti je v mobilních zařízeních 1,03 miliardy denních aktivních uživatelů (Facebook DAU), což je meziroční nárůst o 22%. To ukazuje, jak rychle roste počet uživatelů na sociálních médiích a jak rychle se data denně generují. Pokud jste schopni zvládnout rychlost, budete schopni generovat přehledy a přijímat rozhodnutí na základě dat v reálném čase.

  3. ODRŮDA

    Jelikož existuje mnoho zdrojů, které přispívají k velkým datům, je typ dat, které generují, odlišný. Může být strukturovaný, polostrukturovaný nebo nestrukturovaný. Existuje tedy řada dat, která se generují každý den. Dříve jsme získávali data z aplikace Excel a databází, nyní data přicházejí ve formě obrázků, zvukových záznamů, videí, dat ze senzorů atd., Jak je znázorněno na následujícím obrázku. Tato rozmanitost nestrukturovaných dat proto vytváří problémy při zachycování, ukládání, těžbě a analýze dat.

  4. VERACITA

    Pravdivost se vztahuje k údajům o pochybnostech nebo nejistotě dostupných údajů z důvodu nekonzistence a neúplnosti údajů. Na obrázku níže vidíte, že v tabulce chybí několik hodnot. Několik hodnot je také obtížné přijmout, například - minimální hodnota 15 000 ve 3. řádku, to není možné. Tato nekonzistence a neúplnost je pravdivost.
    Dostupné údaje mohou být někdy nepořádek a může být obtížné jim věřit. S mnoha formami velkých dat je obtížné kontrolovat kvalitu a přesnost, jako jsou příspěvky na Twitteru s hashtagy, zkratkami, překlepy a hovorovou řečí. Objem je často důvodem nedostatečné kvality a přesnosti dat.

    • Kvůli nejistotě údajů nedůvěřuje 1 ze 3 vedoucích pracovníků informacím, které používají při rozhodování.
    • V průzkumu bylo zjištěno, že 27% respondentů si nebylo jistých, kolik jejich údajů je nepřesných.
    • Špatná kvalita dat stojí americkou ekonomiku ročně kolem 3,1 bilionu dolarů.
  5. HODNOTA

    Po diskusi o Volume, Velocity, Variety and Veracity existuje další V, které je třeba vzít v úvahu při pohledu na Big Data, tj. Hodnotu. Je dobré a dobré mít přístup k velkýmdataalepokud to nedokážeme přeměnit na hodnotu, je to k ničemu. Tím, že to přeměňuji na hodnotu, myslím tím, zvyšuje to výhody organizací, které analyzují velká data? Pracuje organizace na velkých datech s vysokou návratností investic (Return On Investment)? Pokud to nepřispívá k jejich zisku prací na Big Data, je to k ničemu.

Projděte si níže naše video Big Data a dozvíte se více o Big Data:

Výukový program pro velká data pro začátečníky Co jsou velká data | Edureka

Jak je popsáno ve Variety, každý den se generují různé typy dat. Pojďme tedy nyní pochopit typy dat:

co je zablokování v Javě

Druhy velkých dat

Big Data mohou být tří typů:

  • Strukturované
  • Polostrukturovaný
  • Nestrukturovaný

  1. Strukturované

    Data, která lze ukládat a zpracovávat v pevném formátu, se nazývají strukturovaná data. Data uložená v systému správy relačních databází (RDBMS) jsou jedním příkladem „strukturovaných“ dat. Je snadné zpracovávat strukturovaná data, protože má pevné schéma. Ke správě tohoto druhu dat se často používá jazyk strukturovaných dotazů (SQL).

  2. Polostrukturovaný

    Semi-Structured Data je typ dat, který nemá formální strukturu datového modelu, tj. Definici tabulky v relačním DBMS, ale přesto má některé organizační vlastnosti, jako jsou tagy a další značky, které oddělují sémantické prvky, což usnadňuje analyzovat. Příkladem polostrukturovaných dat jsou soubory XML nebo dokumenty JSON.

  3. Nestrukturovaný

    Data, která mají neznámou formu a nelze je uložit do RDBMS a nelze je analyzovat, pokud nejsou transformována do strukturovaného formátu, se nazývají nestrukturovaná data. Příkladem nestrukturovaných dat jsou textové soubory a multimediální obsah, jako jsou obrázky, audio a videa. Nestrukturovaná data rostou rychleji než ostatní, odborníci tvrdí, že 80 procent dat v organizaci je nestrukturovaných.

Doposud jsem se zabýval zavedením Big Data. Dále tento Big Data tutoriál hovoří o příkladech, aplikacích a výzvách v Big Data.

Příklady velkých dat

Denně nahráváme miliony bajtů dat. 90% světových dat bylo vytvořeno za poslední dva roky.

  • Walmart zvládá více než 1 milion transakce se zákazníky každou hodinu.
  • Facebook ukládá, přistupuje a analyzuje 30+ petabajtů uživatelů generovaných dat.
  • 230+ milionů tweetů se vytváří každý den.
  • Více než 5 miliard lidé volají, SMS, tweety a procházejí mobilní telefony po celém světě.
  • Uživatelé YouTube nahrávají 48 hodin každou minutu dne nové video.
  • Amazon zpracovává 15 milionů Zákazník klikne na uživatelská data za den, aby doporučil produkty.
  • 294 miliard e-maily jsou zasílány každý den. Služby analyzují tato data, aby našly spam.
  • Moderní auta mají blízko 100 senzorů který sleduje hladinu paliva, tlak v pneumatikách atd., každé vozidlo generuje mnoho dat ze senzorů.

Aplikace velkých dat

Nemůžeme mluvit o datech, aniž bychom nemluvili o lidech, lidech, kteří jsou využíváni aplikacemi Big Data. Téměř všechna průmyslová odvětví dnes využívají aplikace Big Data jedním nebo druhým způsobem.

  • Chytřejší zdravotní péče : S využitím petabajtů dat pacienta může organizace extrahovat smysluplné informace a poté vytvářet aplikace, které mohou předem předpovědět zhoršující se stav pacienta.
  • Telecom : Telekomunikační sektory shromažďují informace, analyzují je a poskytují řešení různých problémů. Pomocí aplikací Big Data byly telekomunikačním společnostem schopny významně snížit ztrátu datových paketů, ke které dochází při přetížení sítí, a tím zajistit bezproblémové připojení k zákazníkům.
  • Maloobchodní : Maloobchod má jedny z nejpřísnějších marží a je jedním z největších příjemců velkých objemů dat. Krása používání velkých dat v maloobchodu spočívá v porozumění chování spotřebitele. Nástroj doporučení společnosti Amazon poskytuje návrhy založené na historii procházení spotřebitele.
  • Kontrola dopravy : Dopravní zácpy jsou hlavní výzvou pro mnoho měst na celém světě. Efektivní využití dat a senzorů bude klíčem k lepší správě provozu, protože města budou stále hustěji osídlena.
  • Výrobní : Analýza velkých dat ve zpracovatelském průmyslu může snížit vady komponent, zlepšit kvalitu produktu, zvýšit efektivitu a ušetřit čas a peníze.
  • Kvalita vyhledávání : Pokaždé, když extrahujeme informace z google, současně pro ně generujeme data. Google tyto údaje ukládá a používá je ke zlepšení kvality vyhledávání.

Někdo správně řekl: 'Ne všechno na zahradě je Rosy!' . Až dosud v tomto tutoriálu Big Data jsem vám právě ukázal růžový obrázek Big Data. Pokud by ale bylo tak snadné využít Big data, nemyslíte si, že by do toho investovaly všechny organizace? Řeknu vám to předem, není tomu tak. Při práci s Big Data se objevuje několik výzev.

Nyní, když jste obeznámeni s Big Data a jeho různými funkcemi, vám další část tohoto blogu o Big Data Tutorial osvětlí některé z hlavních výzev, kterým Big Data čelí.

Výzvy s velkými daty

Řeknu vám několik výzev, které přicházejí spolu s Big Data:

  1. Kvalita dat - Problém je zde 4thV tj. Pravdivost. Data zde jsou velmi chaotická, nekonzistentní a neúplná. Špinavé údaje stojí společnosti ve Spojených státech každý rok 600 miliard dolarů.
  1. Objev - Hledání poznatků o Big Data je jako hledání jehly v kupce sena. Analýza petabajtů dat pomocí extrémně výkonných algoritmů k nalezení vzorů a poznatků je velmi obtížná.
  1. Úložný prostor - Čím více dat organizace má, tím složitější problémy s její správou mohou být. Zde vyvstává otázka „Kam to uložit?“. Potřebujeme úložný systém, který lze snadno škálovat nahoru nebo dolů na vyžádání.
  1. Analytics - V případě velkých dat si většinou neuvědomujeme, jaký druh dat zpracováváme, takže analýza těchto dat je ještě obtížnější.
  1. Bezpečnostní - Vzhledem k tomu, že data mají obrovskou velikost, je jejich zabezpečení další výzvou. Zahrnuje ověřování uživatelů, omezení přístupu na základě uživatele, zaznamenávání historie přístupu k datům, správné používání šifrování dat atd.
  1. Nedostatek talentu - Ve velkých organizacích existuje mnoho projektů Big Data, ale sofistikovaný tým vývojářů, datových vědců a analytiků, kteří mají také dostatečné množství znalostí o doméně, je stále výzvou.

Hadoop na záchranu

Máme zachránce, který se bude zabývat výzvami Big Data - jeho Hadoop . Hadoop je otevřený programovací rámec založený na prostředí Java, který podporuje ukládání a zpracování extrémně velkých datových sad v prostředí distribuovaných výpočtů. Je součástí projektu Apache sponzorovaného Apache Software Foundation.

Hadoop se svým distribuovaným zpracováním zpracovává velké objemy strukturovaných a nestrukturovaných dat efektivněji než tradiční podnikový datový sklad. Hadoop umožňuje spouštět aplikace na systémech s tisíci komoditních hardwarových uzlů a zpracovávat tisíce terabajtů dat. Organizace přijímají Hadoop, protože se jedná o software s otevřeným zdrojovým kódem a může běžet na komoditním hardwaru (váš osobní počítač).Počáteční úspora nákladů je dramatická, protože komoditní hardware je velmi levný. Jak se organizační data zvyšují, musíte za chodu přidat další a další komoditní hardware, abyste je mohli ukládat, a proto se Hadoop ukazuje jako ekonomický.Kromě toho má Hadoop za sebou robustní komunitu Apache, která nadále přispívá k jejímu pokroku.

Jak jsem slíbil dříve, prostřednictvím tohoto blogu o Big Data Tutorial jsem vám poskytl maximální přehled o Big Data. Tímto končí Big Data Tutorial. Dalším krokem vpřed je poznat a naučit se Hadoop. Máme série výukových programů Hadoop blogy, které poskytnou podrobné znalosti o úplném ekosystému Hadoop.

Všechno nejlepší, Happy Hadooping!

Nyní, když jste pochopili, co jsou Big Data, podívejte se na Edureka, důvěryhodná online vzdělávací společnost se sítí více než 250 000 spokojených studentů po celém světě. Kurz certifikace Edureka Big Data Hadoop Certification Training pomáhá studentům stát se odborníky na HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocí případů použití v reálném čase v oblasti maloobchodu, sociálních médií, letectví, cestovního ruchu, financí.

Máte na nás dotaz? Uveďte to prosím v sekci komentáře a my se vám ozveme.

Související příspěvky:

jak na to v Javě