Big Data In AWS - Chytré řešení pro Big Data



Tento článek vám pomůže pochopit, jak AWS chytře pracuje s Big Data. Ukazuje také, jak AWS může snadno vyřešit problémy s Big Data.

Myšlenka Big Data prostě není nová, je všude. Účinek velkých dat je všude, od podnikání po vědu, od vlády po umění atd. Neexistuje lepší společník než zpracovávat a analyzovat velká data. V tomto článku ukážu, jak AWS řeší výzvy Big Data a ukazatele, kterým se budu věnovat, jsou následující:

Co jsou to velká data?

charakteristiky velkých dat





Big data můžete považovat za velkoobjemové, vysokorychlostní a / nebo rozmanité informační prostředky, které vyžadují nákladově efektivní a inovativní formy zpracování informací, které umožňují lepší přehled, rozhodování a automatizaci procesů.

Big Data se skládá z 5 důležitých V, které definují vlastnosti Big Data. Pojďme o nich diskutovat, než přejdeme na AWS.



Co je AWS?

zahrnuje mnoho různých produktů a služeb cloud computingu. Vysoce zisková divize Amazon poskytuje servery, úložiště, sítě, vzdálené výpočty, e-mail, mobilní vývoj spolu se zabezpečením. Dále. AWS se skládá ze dvou hlavních produktů: EC2, služba virtuálních strojů Amazonu, a S3, úložný systém od Amazonu. Je tak velká a přítomná ve výpočetním světě, že je nyní minimálně desetkrát větší než její nejbližší konkurent a hostí oblíbené webové stránky jako Netflix a Instagram.

.

AWS je rozdělena do 12 globálních oblastí po celém světě, z nichž každá má několik zón dostupnosti, ve kterých jsou umístěny její servery.Tyto obsluhované oblasti jsou rozděleny, aby uživatelé mohli nastavit geografické limity svých služeb, ale také zajistit bezpečnost diverzifikací fyzických umístění, ve kterých jsou data uchovávána.



Proč velká data v AWS?

Vědci, vývojáři a další technologičtí nadšenci z mnoha různých domén využívají AWS k provádění analýzy velkých dat a řešení kritických výzev rostoucí Vs digitálních informací. AWS vám nabízí portfolio cloudových výpočetních služeb, které vám pomohou spravovat velká data výrazným snížením nákladů, škálováním podle poptávky a zvýšením rychlosti inovací.

Amazon Web Services poskytuje a plně integrované portfolio služeb cloud computingu. Kromě toho vám pomůže vytvořit, zabezpečit a nasadit vaše aplikace pro velká data. U AWS také nepotřebujete hardware k obstarání a infrastrukturu pro údržbu a rozšiřování. Z tohoto důvodu můžete své zdroje zaměřit na odhalování nových poznatků.Protože jsou neustále přidávány nové funkce, budete vždy schopni využívat nejnovější technologie, aniž byste museli přijímat dlouhodobé investiční závazky.

Jak může AWS vyřešit velké datové výzvy?

Řešení AWS pro velká data

AWS má řadu řešení pro všechny účely vývoje a nasazení. V oblasti datové vědy a velkých dat také AWS přišla s nedávným vývojem v různých aspektech zpracování velkých dat. Než přejdeme k nástrojům, pochopme různé aspekty Big Data, pro které může AWS poskytnout řešení.

  1. Příjem dat
    Shromažďování nezpracovaných dat - transakce, protokoly, mobilní zařízení a další - je první výzvou, které mnoho organizací čelí při práci s velkými daty. Dobrá platforma pro velká data tento krok usnadňuje, protože umožňuje vývojářům přijímat širokou škálu dat - od strukturovaných po nestrukturovaná - jakoukoli rychlostí - od reálného času po dávky.

  2. Ukládání dat
    Jakákoli platforma pro velká data potřebuje zabezpečené, škálovatelné a trvanlivé úložiště pro ukládání dat před nebo dokonce po zpracování úloh. V závislosti na vašich konkrétních požadavcích možná budete potřebovat dočasná úložiště pro přenos dat.

  3. Zpracování dat
    Jedná se o krok, kdy k transformaci dat dochází ze surového stavu do spotřebního formátu - obvykle pomocí třídění, agregace, spojování a dokonce i provádění pokročilejších funkcí a algoritmů. Výsledné datové sady procházejí úložištěm pro další zpracování nebo jsou k dispozici ke spotřebě prostřednictvím nástrojů business intelligence a vizualizace dat.

  4. Vizualizace

    Big data je o získávání vysoce hodnotných a využitelných poznatků z vašich datových aktiv. V ideálním případě jsou data k dispozici zúčastněným stranám prostřednictvím samoobslužných obchodních informací a agilních nástrojů pro vizualizaci dat, které umožňují rychlý a snadný průzkum datových sad.

    instalace php na Windows 10

Nástroje AWS pro velká data

V předchozích částech jsme se podívali na pole v Big Data, kde AWS může poskytovat řešení. AWS má navíc ve svém arzenálu několik nástrojů a služeb, které zákazníkům umožňují využívat funkce Big Data.

Podívejme se na různá řešení poskytovaná AWS pro zpracování různých fází zpracování velkých dat

Požití

  1. Kinesis

    Amazon Kinesis Firehose je plně spravovaná služba pro doručování datových proudů v reálném čase přímo do Amazonu S3. Kinesis Firehose se automaticky přizpůsobuje objemu a propustnosti streamovaných dat a nevyžaduje žádnou průběžnou správu. Kinesis Firehose můžete nakonfigurovat tak, aby transformoval streamovaná data, než je uložíte do Amazonu S3.

  2. Sněhová koule
    Můžeš použít AWS sněhová koule bezpečně a efektivně migrovat hromadná data z místních úložných platforem a clusterů Hadoop do segmentů S3. Jakmile vytvoříte úlohu v konzole pro správu AWS, automaticky získáte zařízení Snowball. Jakmile dorazí Snowball, připojte jej k místní síti, nainstalujte klienta Snowball do místního zdroje dat a pomocí klienta Snowball vyberte a přeneste adresáře souborů do zařízení Snowball.

Úložný prostor

  1. Amazon S3

Amazon S3 je bezpečné, vysoce škálovatelné a trvanlivé úložiště objektů s latencí milisekund pro přístup k datům. S3 může ukládat jakýkoli typ dat odkudkoli - webové stránky a mobilní aplikace, podnikové aplikace a data ze senzorů nebo zařízení IoT. Může také ukládat a načítat libovolné množství dat s bezkonkurenční dostupností a sestavené od základu, aby poskytlo 99,999999999% (11 devíti) trvanlivosti.

2. AWS lepidlo

Glue je plně spravovaná služba, která poskytuje katalog dat, díky kterému jsou data v datovém jezeře zjistitelná. Kromě toho má schopnost provádět extrakci, transformaci a načítání (ETL) za účelem přípravy dat pro analýzu. Integrovaný katalog dat je také jako trvalé úložiště metadat pro všechna datová aktiva, díky čemuž lze všechna data prohledávat a dotazovat v jednom zobrazení.

zpracovává se

  1. EMR
    Pro zpracování velkých dat pomocí Spark a Hadoop, Amazon EMR poskytuje spravovanou službu, která umožňuje snadné, rychlé a nákladově efektivní zpracování obrovského množství dat. Kromě toho EMR podporuje 19 různých open-source projektů včetně Hadoop , Jiskra , a Dodává se také se spravovanými notebooky EMR pro datové inženýrství, vývoj datových věd a spolupráci.

  2. Rudý posuv
    U datových skladů Amazonka Redshift poskytuje schopnost spouštět složité analytické dotazy proti petabajtům strukturovaných dat. Zahrnuje také Spektrum rudého posuvu který spouští dotazy SQL přímo proti Exabajtům strukturovaných nebo nestrukturovaných dat v S3 bez nutnosti zbytečného pohybu dat.

Vizualizace

  1. Amazon QuickSight

    V případě řídicích panelů a vizualizací vám Amazon Quicksight poskytuje rychlou cloudovou obchodní analytickou službu. Usnadňuje vytváření ohromujících vizualizací a bohatých řídicích panelů. Navíc k nim můžete přistupovat z libovolného prohlížeče nebo mobilního zařízení.

Demo - Analýza dat ohrožených druhů rostlin a zvířat v Austrálii.

V této ukázce použijeme ukázková data ohrožených rostlinných a živočišných druhů ze států a území Austrálie. Zde vytvoříme cluster EMR a nakonfigurujeme jej tak, aby spouštěl vícestupňové úlohy Apache Hive. V clusteru EMR bude nainstalován Apache Hive. Tento klastr bude používat EMRFS jako souborový systém, takže jeho umístění pro vstup a výstup dat jsou mapována na kbelík S3. Klastr bude také používat stejný segment S3 pro ukládání souborů protokolu.

Nyní v clusteru vytvoříme řadu kroků EMR ke zpracování ukázkové sady dat. Zde každý z těchto kroků spustí skript Hive a konečný výstup se uloží do kbelíku S3. Tyto kroky vygenerují protokoly MapReduce, a to proto, že příkazy Hive jsou za běhu přeloženy do úloh MapReduce. Soubory protokolu pro každý krok jsou agregovány z kontejnerů, které se objeví.

Vzorek dat

Ukázková sada dat pro tento případ použití je veřejně dostupná z Otevřený datový web australské vlády . Tato sada dat je o ohrožených živočišných a rostlinných druzích z různých států a teritorií v Austrálii. Je možné zobrazit a stáhnout popis polí této datové sady a souboru CSV tady .

Kroky zpracování

První krok úlohy EMR zahrnuje vytvoření tabulky Hive jako schématu pro podkladový zdrojový soubor v S3. Ve druhém kroku úlohy nyní spustíme úspěšný dotaz na data. Podobně potom spustíme třetí a čtvrtý dotaz.

Budeme opakovat tyto čtyři kroky několikrát za hodinu, simulující po sobě jdoucí běhy vícestupňové dávkové úlohy. Ve scénáři z reálného života však může být časový rozdíl mezi každou dávkovou sérií normálně mnohem vyšší. Malý časový odstup mezi po sobě jdoucími běhy má urychlit naše testování.

S3 vědro a složky

Před vytvořením našeho EMR klastru jsme zde museli vytvořit kbelík S3, který by hostoval jeho soubory. V našem příkladu pojmenujeme tento segment „arvind1-bucket“. Složky v tomto segmentu jsou uvedeny níže v AWS Console pro S3:

periodická tabulka nástrojů devops

  • Vstupní složka obsahuje ukázková data

  • Složka skriptů obsahuje soubory skriptů Hive pro kroky úlohy EMR

  • Výstupní složka bude zjevně obsahovat výstup programu Hive

  • Klastr EMR používá složku protokolů k uložení svých souborů protokolu.

Skripty úlu pro pracovní kroky EMR

1. V tomto kroku úlohy se spustí skript Hivek vytvoření externí tabulky Úlu. Tato tabulka popisuje tabulkové schéma podkladového datového souboru CSV. Skript je následující:

VYTVOŘIT VNĚJŠÍ TABULKU `threatened_species` (řetězec` `vědeckého názvu`, řetězec` běžného názvu`, řetězec `aktuálního vědeckého názvu`, řetězec` ohroženého stavu`, řetězec `act`, řetězec` nsw`, řetězec `nt`,` qld` řetězec, řetězec `sa`, řetězec` tas`, řetězec `vic`, řetězec` wa`, řetězec `aci`, řetězec` cki`, řetězec `ci`, řetězec` csi`, řetězec `jbt`,` nfi` řetězec, řetězec `hmi`, řetězec` aat`, řetězec `cma`,` uvedený šprota taxonid` bigint, `aktuální šprota taxonid` bigint, řetězec` království`, řetězec `třídy`,` profil` řetězec, `datum extrahované` řetězec, řetězec `nsl name` řetězec, řetězec rodiny, řetězec rodu, řetězec druhu, řetězec infraspecifického pořadí, řetězec infraspecies, řetězec typu autora, řetězec autora typu infraspecies) ŘÁDEK FORMÁT ODDĚLENÝCH POLÍ UKONČENO ',' ULOŽENO JAKO INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket

2. V tomto kroku úlohy je spuštěn dotaz k výpočtu pěti nejlepších ohrožených druhů ve státě New South Wales (NSW). Název souboru dotazu Hive je endangeredSpeciesNSW.q a je zobrazeno níže:

C ++ Fibonacciho rekurzivní
VÝBĚR druhů, POČET (nsw) JAKO_počet_zahájených_druhů FROM threatened_species WHERE (nsw = 'Ano' NEBO nsw = 'Ohrožený') AND 'ohrožený stav' = 'Ohrožený' SKUPINA PODLE druhů HAVING COUNT (nsw)> 1 OBJEDNAT PODLE počtu_z_závazných_druhů POPIS LIMIT 5

3.V tomto kroku úlohy je spuštěn dotaz pro výpočet celkového počtu ohrožených druhů rostlin pro každou rodinu rostlin v Austrálii. Název souboru dotazu Hive jeendangeredPlantSpecies.qa je zobrazen níže

VYBRAT rodinu, COUNT (druh) JAKO POČET_z_nebezpečných_druhů FROM ohrožených_druhů2 KDE království = 'Plantae' A 'ohrožený stav' = 'Ohrožený' SKUPINA PODLE rodin

4. Tento krok uvádí vědecké názvy vyhynulých druhů zvířat ve státě Queensland v Austrálii. Soubor skriptu se nazývá extinctAnimalsQLD.q a je zobrazen níže:

VYBERTE 'obecný název', 'vědecký název' FROM threatened_species WHERE království = 'Animalia' AND (qld = 'Yes' OR qld = 'Zaniklý') AND 'ohrožený stav' = 'Zaniklý'

Agregace protokolů

Zde jsme také nahráli soubor JSON s názvem logAggregation.json ve složce skriptů kbelíku S3. Tento soubor používáme pro agregaci souborů protokolu PŘÍZE. Agregace protokolů se konfiguruje v konfiguračním souboru yarn-site.xml při spuštění clusteru. Obsah souboru logAggregation.json je následující:

[{„Klasifikace“: „yarn-site“, „Vlastnosti“: {„yarn.log-aggregation-enable“: „true“, „yarn.log-aggregation.retain-seconds“: „-1“, „yarn .nodemanager.remote-app-log-dir ”:“ s3: // arvind1-bucket / logs ”}}]

Poté, co vytvoříte kbelík S3 a zkopírujete soubory dat a skriptů do příslušných složek, je čas nastavit cluster EMR. Následující snímky popisují postup při vytváření clusteru s většinou výchozím nastavením.

Nastavení clusteru EMR

Na prvním obrázku jsme pro konfiguraci clusteru v konzole AWS ponechali všechny aplikace doporučené EMR, včetně Hive. Pro ukládání metadat Hive nepotřebujeme používat AWS Glue, ani v tuto chvíli nepřidáváme žádný krok úlohy. Musíme však přidat softwarové nastavení pro Hive. Zde musíte pečlivě sledovat, jak v tomto poli zadáváme cestu k souboru JSON agregace protokolů.

V dalším kroku jsme zachovali všechna výchozí nastavení. Kvůli našemu testu bude mít cluster jeden hlavní uzel a dva hlavní uzly. Každý uzel je zde instance m3.xlarge a má 10 GB kořenového svazku. Pojmenujeme cluster clusteru arvind1 v dalším kroku a určíme vlastní umístění s3 pro jeho soubory protokolu.

Nakonec jsme určili pár klíčů EC2 pro účely přístupu k hlavnímu uzlu clusteru. Ve výchozích rolích IAM pro možnosti EMR, profil instance EC2 a možnosti automatického škálování nedojde ke změně. Hlavní a hlavní uzly také ve výchozím nastavení používají dostupné skupiny zabezpečení. Normálně se jedná o výchozí nastavení pro EMR cluster. Jakmile je vše připraveno, je cluster ve stavu „čekání“, jak je znázorněno níže:

Odeslat kroky úlu

Poté musíme povolit přístup SSH.

  1. Otevřete konzolu Amazon EMR na adrese https://console.aws.amazon.com/elasticmapreduce/ .
  2. Vybrat Klastry .
  3. Vyber název klastru.
  4. Pod Zabezpečení a přístup vyber Skupiny zabezpečení pro Master odkaz.
  5. Vybrat ElasticMapReduce-master ze seznamu.
  6. Vybrat Příchozí , Upravit .
  7. Najděte pravidlo s následujícím nastavením a vyberte X ikona pro její odstranění:
    • Typ SSH
    • Přístav 22
    • Zdroj Vlastní 0.0.0.0/0
  8. Přejděte na konec seznamu pravidel a vyberte Přidat pravidlo .
  9. Pro Typ , vyberte SSH .To automaticky vstoupí TCP pro Protokol a 22 pro Rozsah portů .
  10. Jako zdroj vyberte Moje IP Tím se automaticky přidá IP adresa vašeho klientského počítače jako zdrojová adresa. Alternativně můžete přidat řadu Zvyk IP adresy důvěryhodného klienta a zvolte přidat pravidlo vytvořit další pravidla pro ostatní klienty. V mnoha síťových prostředích přidělujete adresy IP dynamicky, takže budete možná muset pravidelně upravovat pravidla skupiny zabezpečení, abyste aktualizovali adresu IP důvěryhodných klientů.
  11. Vybrat Uložit .
  12. Volitelně vyberte ElasticMapReduce-slave ze seznamu a opakováním výše uvedených kroků povolte klientovi SSH přístup k základním uzlům a uzlům úloh z důvěryhodných klientů.

Vzhledem k tomu, že cluster EMR je funkční, přidali jsme čtyři kroky úlohy. Toto jsou kroky, které by EMR probíhaly jeden po druhém. Následující obrázek ukazuje kroky z konzoly AWS EMR:

Jakmile přidáme čtyři kroky, můžeme zkontrolovat stav těchto kroků jako dokončený. I když se při provádění těchto kroků vyskytne nějaký problém, lze jej v takových případech vyřešit pomocí souborů protokolu těchto kroků.

Takže to je z mé strany v tomto článku o Big Data v AWS. Doufám, že jste pochopili vše, co jsem zde vysvětlil.

Pokud jste zjistili, že tato velká data v AWS jsou relevantní, můžete se podívat na živý kurz Edureky a na kurz vedený instruktorem , společně vytvořené odborníky z oboru.

Máte na nás dotaz? Uveďte to prosím v sekci komentářů v této části Jak nasadit webovou aplikaci Java do AWS a my se vám ozveme.