V tomto článku o tom, jak vytvořit Cluster S Amazon EMR bychom viděli, jak snadno spouštět a škálovat aplikace Hadoop a Big Data. V tomto článku se budeme zabývat následujícími ukazateli,
Pokračování v tomto Jak vytvořit cluster Hadoop s Amazon EMR?
Jak vytvořit cluster Hadoop s Amazon EMR?
Když něco hledáme na Google nebo Yahoo, dostaneme odpověď za zlomek sekundy. Jak je možné, že Google, Yahoo a další vyhledávače tak rychle vracejí výsledky ze stále rostoucího webu? Vyhledávače procházejí internetem, stahují webové stránky a vytvářejí index, jak je uvedeno níže. U jakéhokoli dotazu od nás pomocí indexu zjistí, jaké jsou všechny webové stránky obsahující text, který jsme hledali. Při pohledu na níže uvedený index na pravé straně můžeme jasně vědět, že Hadoop existuje webová stránka 1, 2 a 3.
Poté Algoritmus PageRanking se používá na základě toho, jak jsou stránky propojeny, aby se zjistilo, která stránka se má zobrazit nahoře a která dole. V níže uvedeném scénáři je W1 „nejpopulárnější“, protože na ni všichni odkazují a W4 je „nejméně populární“, protože na ni nikdo neodkazuje. W1 se tedy zobrazuje ve výsledcích vyhledávání nahoře a W4 dole.
S explozí webových stránek tyto vyhledávače hledaly výzvy k vytvoření indexu a provádění výpočtů PageRanking. To je místo, kde došlo ke zrodu Hadoopu v Yahoo a později se stalo FOSS (Free and Open Source Software) pod ASF (Apache Software Foundation). Poté, co byla pod ASF, se o společnost Hadoop začalo zajímat mnoho společností a začaly přispívat k jejímu zlepšování. Hadoop byl tím, kdo zahájil revoluci Big Data, ale řada dalších softwarů, jako je Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume, se začala vyvíjet, aby řešila omezení a mezery v Hadoopu.
Webové vyhledávače byly první, které používaly Hadoop, ale později se začala vyvíjet spousta případů použití, protože se generovalo stále více dat. Vezměme si příklad aplikace eCommerce používaná k doporučování knih uživatelům. Podle níže uvedeného diagramu uživatel1 koupil book1, book2 a book3, user2 koupil některé knihy atd. Podíváme-li se blíže, můžeme pozorovat, že uživatel1 a uživatel2 mají podobný vkus, jako kdyby si koupili book1 a book2. Book3 lze tedy doporučit uživateli2 a book4 lze doporučit uživateli1. Toto se nazývá Collaborative Filtering, typ algoritmu Machine Learning. Níže uvedený diagram můžeme převrátit a získat podobné knihy.
Ve výše uvedeném případě jsme vytvořili index, PageRanked a doporučujeme uživateli, velikost dat byla malá, a tak jsme byli schopni data vizualizovat a odvodit z nich některé výsledky. Jelikož se velikost dat den za dnem a mimo kontrolu zvětšuje, přicházejí do obrazu Big Data nástroje jako Hadoop.
Hadoop řeší spoustu problémů, ale instalace Hadoopu a dalšího softwaru Big Data nikdy nebyla snadný úkol. Existuje mnoho konfiguračních parametrů k vyladění, jako jsou problémy s integrací, instalací a konfigurací, se kterými lze pracovat. To je místo, kde společnosti jako Cloudera, a Nápověda Databricks. Usnadňují instalaci softwaru Big Data a poskytují komerční podporu, například řekněme, že se něco stalo ve výrobě. Amazon EMR (Elastic MapReduce) usnadňuje používání Hadoopu atd. Název Elastic MapReduce je trochu nesprávné pojmenování, protože EMR také podporuje další modely distribuovaných výpočtů, jako jsou Resilient Distributed Datasets a nejen MapReduce.
V tomto kurzu prozkoumáme, jak nastavit EMR cluster na cloudu AWS a v nadcházejícím kurzu prozkoumáme, jak na něm spustit programy Spark, Hive a další.
Pokračování v tomto Jak vytvořit cluster Hadoop s Amazon EMR?
Demo: Vytvoření EMR klastru v AWS
Krok 1: Přejděte do konzoly EMR Management Console a klikněte na „Vytvořit klastr“. V konzole jsou metadata pro ukončený klastr je také uložen na dva měsíce zdarma. To umožňuje, aby byl ukončený klastr klonován a znovu vytvořen.
co je volná vazba v Javě
Krok 2 : Na obrazovce rychlých možností klikněte na „Přejít na pokročilé možnosti“ a zadejte mnohem více podrobností o klastru.
Krok 3: Na kartě Rozšířené možnosti můžeme vybrat jiný software, který se má nainstalovat do clusteru EMR. Pro rozhraní SQL lze vybrat Hive. Pro jazykové rozhraní toku dat lze vybrat Pig. Pro koordinaci distribuovaných aplikací lze vybrat ZooKeeper atd. Tato karta nám také umožňuje přidat kroky, což je volitelný úkol. Kroky jsou úlohy zpracování velkých dat pomocí MapReduce, Pig, Hive atd. Lze je přidat na tuto kartu nebo později, jakmile bude klastr vytvořen. Kliknutím na „Další“ vyberte hardware požadovaný pro EMR cluster.
Krok 4: Hadoop sleduje architekturu master-worker, kde master provádí veškerou koordinaci, jako je plánování a přiřazování práce a kontrola jejich postupu, zatímco pracovníci provádějí skutečnou práci se zpracováním a ukládáním dat. Jeden master je Single-Point-Of-Failure (SPOF). Amazon EMR podporuje multi-master pro vysokou dostupnost (HA). Předchozí krok umožňuje nastavit multimaster cluster v EMR.
EMR umožňuje dva typy uzlů, Core a Task. Uzel jádra se používá jak pro zpracování, tak pro ukládání dat, uzel úlohy se používá pouze pro zpracování dat. V tomto kurzu můžeme vybrat pouze jedno jádro a žádné uzly úloh, protože to pro nás znamená nižší náklady. Také si vyberte Přímé instance přes Na požádání protože spotové instance jsou levnější. Úlovkem instancí Spot je, že je lze automaticky ukončit AWS pomocí a dvouminutové upozornění . To je v pořádku kvůli praxi a v některých skutečných scénářích také. Bodové instance jsou automaticky ukončeny, protože mají nízkou prioritu před jinými typy instancí. Klikněte na „Další“.
Krok 5: Zadejte název klastru. a klikněte na „Další“. Všimněte si, že „Ochrana před ukončením“ je ve výchozím nastavení zapnutá. Tím se zajistí, že cluster EMR nebude omylem odstraněn zavedením několika kroků při ukončení clusteru.
Krok 6: Na kartě jsou specifikovány různé možnosti zabezpečení pro EMR cluster. Pro přihlášení do instance EC2 je třeba vybrat KeyPair. EMR automaticky vytvoří příslušné role a skupiny zabezpečení a připojí je k hlavním a pracovním uzlům EC2. Klikněte na „Vytvořit klastr“.
Vytvoření klastru trvá několik minut, protože je nutné dokoupit instance EC2 a nainstalovat a nakonfigurovat různé softwarové soubory Big Data. Zpočátku by stav klastru byl ve stavu „Spouštění“ a přesunul by se do stavu „Čekání“. Ve stavu „Čekání“ klastr EMR jednoduše čeká na to, abychom odeslali různé úlohy zpracování velkých dat, jako jsou MR, Spark, Hive atd.
Všimněte si také z EC2 Management Console a všimněte si, že hlavní a pracovní instance EC2 by měly být v běžícím stavu. Jedná se o instance Spot, které byly vytvořeny jako součást vytvoření clusteru EMR. Stejný EC2 lze pozorovat také na kartě Hardware v konzole EMR Management Console. Upozorňujeme, že na kartě Hardware je cena instancí Spot EC2 uvedena jako 0,032 $ / hod. Cena instancí Spot se neustále mění a je mnohem nižší než u cen EC2 na vyžádání.
Krok 7: Nyní, když byl úspěšně přidán klastr EMR, lze přidat kroky nebo úlohy zpracování velkých dat. Přejděte na kartu Kroky a klikněte na „Přidat krok“ a vyberte typ kroku (MR, Hive, Spark atd.). To samé prozkoumáme v nadcházejícím tutoriálu. Prozatím klikněte na Storno.
java, jak ukončit program
Krok 8: Nyní, když jsme viděli, jak spustit EMR, pojďme se podívat, jak to zastavit.
c ++ třída úložiště
Krok 8.1: Klikněte na Ukončit.
Krok 8.2: Jak již bylo zmíněno v předchozích krocích, „Ochrana ukončení“ je pro cluster EMR zapnutá a tlačítko Ukončit bylo deaktivováno. Klikněte na Změnit.
Krok 8.3: Vyberte přepínač „Vypnuto“ a klikněte na značku zaškrtnutí. Nyní by mělo být povoleno tlačítko Ukončit. Toto je další krok, který EMR zavedlo, jen abychom se ujistili, že náhodou nevymažeme EMR cluster.
Všimněte si, že klastr EMR bude ve stavu Ukončení a EC2 budou ukončeny. Nakonec bude klastr EMR přesunut do stavu Ukončeno, odtud se zastaví naše fakturace s AWS. Nezapomeňte ukončit cluster, aby nevznikly další náklady AWS.
Závěr
V tomto tutoriálu jsme viděli, jak spustit EMR cluster během několika minut z webové konzoly (prohlížeče), totéž lze automatizovat pomocí , AWS SDK nebo pomocí AWS CloudFormation . Jak je možné si všimnout, nastavení clusteru EMR lze provést, je otázkou minut a zpracování velkých dat lze zahájit okamžitě, jakmile je zpracování dokončeno, výstup lze uložit do S3 nebo DynamoDB a tak vypnutí clusteru k zastavení fakturace. Díky tomuto cenovému modelu a snadnému použití je EMR velkým hitem u těch, kteří zpracovávají velká data. Není třeba kupovat server ve velkém počtu, získávat licence na software Big Data a udržovat je. “
Takže to je to, lidi, to nás přivádí na konec tohoto článku o tom, jak vytvořit cluster Hadoop pomocí Amazon EMR?V případě, že chcete získat odborné znalosti v tomto předmětu, Edureka přišla s učebním plánem, který přesně pokrývá to, co byste potřebovali ke zkoušce Solution Architect! Můžete se podívat na podrobnosti kurzu pro výcvik.
V případě jakýchkoli dotazů souvisejících s tímto blogem, neváhejte se zeptat v sekci komentáře níže a my vám rádi zodpovíme co nejdříve.