Výukový program Hadoop YARN - Naučte se základy architektury YARN



Tento blog se zaměřuje na Apache Hadoop YARN, který byl představen v Hadoop verze 2.0 pro správu zdrojů a plánování úloh. Vysvětluje architekturu YARN s jejími komponenty a povinnostmi, které každá z nich vykonává. Popisuje odeslání aplikace a pracovní postup v Apache Hadoop YARN.

Hadoop YARN plete paměťovou jednotku Hadoop, tj. HDFS (Hadoop Distributed File System) pomocí různých nástrojů pro zpracování. Pro ty z vás, kteří jsou v tomto tématu úplně noví, YARN znamená „ Y a NA další R zdroj N egoista “. Navrhoval bych také, abyste prošli naším a než se pustíte do učení Apache Hadoop YARN. Zde vysvětlím následující témata, abych se ujistil, že na konci tohoto blogu je vaše chápání Hadoop YARN jasné.

Proč YARN?

V Hadoopu verze 1.0, která se také označuje jako MRV1 (MapReduce verze 1), MapReduce provedl funkce zpracování i správy zdrojů. Skládal se z Job Tracker, který byl jediným pánem. Sledovač úloh přidělil zdroje, provedl plánování a sledoval zpracování úloh. Přiřadil mapování a snižování úkolů u řady podřízených procesů zvaných Sledovače úloh. Sledovatelé úloh pravidelně hlásili svůj pokrok nástroji Job Tracker.





MapReduce verze 1.0 - Hadoop YARN - Edureka

Tento design vyústil v úzké místo škálovatelnosti díky jedinému sledovači úloh.IBM ve svém článku zmínila, že podle Yahoo! Je praktických limitů takového designu dosaženo s klastrem 5 000 uzlů a 40 000 úloh běžících současně.Kromě tohoto omezení je využití výpočetních zdrojů v MRV1 neefektivní. Rámec Hadoop se také omezil pouze na paradigma zpracování MapReduce.



K překonání všech těchto problémů byla společnost YARN představena v Hadoop verze 2.0 v roce 2012 společnostmi Yahoo a Hortonworks. Základní myšlenkou YARN je ulehčit MapReduce převzetím odpovědnosti za správu zdrojů a plánování úloh. YARN začal dávat Hadoopu schopnost spouštět úlohy, které nejsou MapReduce v rámci Hadoop.

Můžete se také podívat na níže uvedené video, kde je naše expert podrobně diskutuje o konceptech YARN a jejich architektuře.

Výukový program pro příze Hadoop | Architektura příze Hadoop Edureka

Se zavedením YARN byl zcela revoluční. Stala se mnohem flexibilnější, efektivnější a škálovatelnější. Když společnost Yahoo v prvním čtvrtletí roku 2013 začala fungovat s YARN, pomohla společnosti zmenšit velikost jejího klastru Hadoop ze 40 000 uzlů na 32 000 uzlů. Počet pracovních míst se ale zdvojnásobil na 26 milionů za měsíc.



Úvod do Hadoop YARN

Nyní, když jsem vás osvítil potřebou PŘÍZE, dovolte mi, abych vám představil základní komponentu Hadoop v2.0, PŘÍZE . YARN umožňuje spouštět a zpracovávat data uložená v HDFS různé metody zpracování dat, jako je zpracování grafů, interaktivní zpracování, zpracování proudu i dávkové zpracování. Proto YARN otevírá Hadoop dalším typům distribuovaných aplikací nad rámec MapReduce.

YARN umožnilo uživatelům provádět operace podle požadavků pomocí různých nástrojů, jako je pro zpracování v reálném čase, Úl pro SQL, HBase pro NoSQL a další.

Kromě správy zdrojů provádí YARN také plánování úloh. YARN provádí všechny vaše činnosti zpracování přidělením zdrojů a plánováním úkolů. Apache Hadoop YARN Architecture se skládá z následujících hlavních komponent:

  1. Správce zdrojů : Běží na hlavním démonovi a spravuje přidělení prostředků v klastru.
  2. Správce uzlů: Běží na otrokářských démonech a jsou zodpovědní za provedení úkolu v každém datovém uzlu.
  3. Hlavní aplikace: Spravuje životní cyklus úlohy uživatele a potřeby zdrojů jednotlivých aplikací. Funguje spolu s Správcem uzlů a sleduje provádění úkolů.
  4. Kontejner: Balíček zdrojů včetně RAM, CPU, sítě, HDD atd. Na jednom uzlu.

Součásti příze

Přízi můžete považovat za mozek svého ekosystému Hadoop. Obrázek níže představuje YARN Architecture.

The první komponenta of YARN Architecture is,

Správce zdrojů

  • Jedná se o nejvyšší autoritu v alokaci zdrojů .
  • Po obdržení požadavků na zpracování příslušným způsobem předá části požadavků příslušným správcům uzlů, kde dojde ke skutečnému zpracování.
  • Je arbitrem prostředků klastru a rozhoduje o alokaci dostupných zdrojů pro konkurenční aplikace.
  • Optimalizuje využití klastru, jako je udržování všech zdrojů v provozu po celou dobu proti různým omezením, jako jsou záruky kapacity, spravedlnost a smlouvy SLA.
  • Má dvě hlavní součásti:a) Plánovačb)Správce aplikací

a) Plánovač

typ casting v Javě s příkladem
  • Plánovač je zodpovědný za přidělování zdrojů různým spuštěným aplikacím podléhajícím omezením kapacit, frontám atd.
  • V ResourceManageru se tomu říká čistý plánovač, což znamená, že neprovádí žádné monitorování ani sledování stavu aplikací.
  • Pokud dojde k selhání aplikace nebo hardwaru, plánovač nezaručuje restartování neúspěšných úloh.
  • Provádí plánování na základě požadavků na zdroje aplikací.
  • Má zásuvný modul plug-in policy, který je zodpovědný za rozdělení prostředků klastru mezi různé aplikace. Existují dva takové plug-iny: Plánovač kapacity a Fair Scheduler , které se aktuálně používají jako plánovače v ResourceManageru.

b) Správce aplikací

  • Je odpovědný za přijímání nabídek práce.
  • Vyjednává první kontejner ze Správce prostředků pro provádění hlavního serveru aplikace pro konkrétní aplikaci.
  • Spravuje spuštění Application Masters v klastru a poskytuje službu pro restartování kontejneru Application Master při selhání.

Přichází do druhá složka který je:

Správce uzlů

  • Postará se o jednotlivé uzly v clusteru Hadoop aspravuje uživatelské úlohy a pracovní tok v daném uzlu.
  • Zaregistruje se u správce prostředků a odešle prezenční signály se stavem uzlu.
  • Jeho primárním cílem je správa aplikačních kontejnerů, které mu byly přiřazeny správcem prostředků.
  • Udržuje to aktuální s Správcem zdrojů.
  • Master aplikace požaduje přiřazený kontejner od Node Manager zasláním Contexter Launch Context (CLC), který obsahuje vše, co aplikace potřebuje ke spuštění. Správce uzlů vytvoří požadovaný proces kontejneru a spustí jej.
  • Monitoruje využití prostředků (paměť, CPU) jednotlivých kontejnerů.
  • Provádí správu protokolů.
  • Zabíjí také kontejner podle pokynů správce prostředků.

The třetí složka Apache Hadoop YARN je,

Hlavní aplikace
  • An application is a single job submission to the framework. Ke každé takové aplikaci je přidružen jedinečný Master aplikace, což je entita specifická pro framework.
  • Jedná se o proces, který koordinuje spuštění aplikace v klastru a také spravuje chyby.
  • Jeho úkolem je vyjednat prostředky z Resource Manageru a spolupracovat s Node Managerem na provádění a monitorování úkolů komponent.
  • Je zodpovědný za vyjednávání příslušných kontejnerů prostředků z ResourceManageru, sledování jejich stavu a sledování pokroku.
  • Po spuštění pravidelně odesílá prezenční signály do Správce prostředků, aby potvrdily své zdraví a aktualizovaly záznam svých požadavků na zdroje.

The čtvrtá složka je:

Kontejner
  • Jedná se o kolekci fyzických zdrojů, jako je RAM, jádra CPU a disky v jednom uzlu.
  • Kontejnery YARN jsou spravovány kontextem spuštění kontejneru, což je životní cyklus kontejneru (CLC). Tento záznam obsahuje mapu proměnných prostředí, závislostí uložených ve vzdáleně přístupném úložišti, tokeny zabezpečení, užitečné zatížení pro služby Node Manager a příkaz nezbytný k vytvoření procesu.
  • Poskytuje aplikaci oprávnění k použití konkrétního množství zdrojů (paměť, CPU atd.) Na konkrétním hostiteli.

Podání žádosti v PŘÍZE

Podívejte se na obrázek a podívejte se na kroky spojené s odesláním aplikace Hadoop YARN:

1) Odeslat úlohu

2)Získejte ID aplikace

3) Kontext odeslání žádosti

4 a) Spusťte kontejnerZahájení

b) Spusťte aplikaci Application Master

5) Přidělte zdroje

6 a) Kontejner

b) Spusťte

7) Provést

jak nainstalovat php na okno

Pracovní postup aplikace v Hadoop YARN

Podívejte se na daný obrázek a podívejte se na následující kroky zahrnuté do pracovního postupu aplikace Apache Hadoop YARN:

  1. Klient podá žádost
  2. Správce prostředků přiděluje kontejner ke spuštění Správce aplikací
  3. Application Manager se registruje u správce prostředků
  4. Správce aplikací požádá kontejnery ze Správce prostředků
  5. Správce aplikací upozorní Správce uzlů na spuštění kontejnerů
  6. Kód aplikace je spuštěn v kontejneru
  7. Klient kontaktuje Správce zdrojů / Správce aplikací, aby sledoval stav aplikace
  8. Application Manager zruší registraci pomocí Správce prostředků

Nyní, když znáte Apache Hadoop YARN, podívejte se na Edureka, důvěryhodná online vzdělávací společnost se sítí více než 250 000 spokojených studentů po celém světě. Kurz certifikace Edureka Big Data Hadoop Certification Training pomáhá studentům stát se odborníky na HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocí případů použití v reálném čase v oblasti maloobchodu, sociálních médií, letectví, cestovního ruchu, financí.

Máte na nás dotaz? Uveďte to prosím v sekci komentáře a my se vám ozveme.