Přehled federace klastrové architektury Hadoop 2.0

Apache Hadoop 2.x se skládá z významných vylepšení oproti Hadoop 1.x. Tento blog hovoří o federaci klastrové architektury Hadoop 2.0 a jejích komponentách.

Federace klastrové architektury Hadoop 2.0

Úvod:

V tomto blogu se ponořím do Hadoop 2.0 Cluster Architecture Federation. Apache Hadoop se od vydání Apache Hadoop 1.x hodně vyvinul. Jak víte z mého předchozího blogu, že následuje topologii Master / Slave, kde NameNode funguje jako hlavní démon a je zodpovědný za správu dalších podřízených uzlů nazývaných DataNodes. V tomto ekosystému se tento jediný hlavní démon nebo NameNode stává překážkou a naopak, společnosti musí mít NameNode, který je vysoce dostupný. Právě tento důvod se stal základem HDFS Federation Architecture a Architektura HA (vysoká dostupnost) .

Témata, kterým se v tomto blogu věnuji, jsou následující:





  • Současná architektura HDFS
  • Omezení současné architektury HDFS
  • Architektura federace HDFS

Přehled současné architektury HDFS:

Single Namespace HDFS Architecture - Overview of Hadoop 2.0 Cluster Architecture Federation - Edureka

Jak vidíte na obrázku výše, aktuální HDFS má dvě vrstvy:



Začínáme s vizuálním studiem
  • Obor názvů HDFS (NS): Tato vrstva je zodpovědná za správu adresářů, souborů a bloků. Poskytuje veškerou operaci systému souborů související s oborem jmen, jako je vytváření, mazání nebo úpravy souborů nebo adresářů souborů.
  • Skladovací vrstva: Skládá se ze dvou základních komponent.
    1. Správa bloků : Provádí následující operace:
      • Pravidelně kontroluje prezenční signály DataNodes a spravuje členství DataNode v klastru.
      • Spravuje zprávy o blocích a udržuje jejich umístění.
      • Podporuje operace bloku, jako je vytváření, úpravy, mazání a přidělování umístění bloku.
      • Udržuje faktor replikace konzistentní v celém klastru.

2. Fyzické úložiště : Je spravován DataNodes, kteří jsou zodpovědní za ukládání dat, a tím poskytuje přístup ke čtení / zápisu k datům uloženým v HDFS.

Takže současná architektura HDFS vám umožňuje mít pro cluster jeden jmenný prostor. V této architektuře je za správu oboru názvů zodpovědný jeden NameNode. Tato architektura je velmi pohodlná a snadno implementovatelná. Poskytuje také dostatečnou kapacitu pro uspokojení potřeb malého produkčního klastru.

Omezení aktuálního HDFS:

Jak již bylo zmíněno dříve, aktuální HDFS stačil potřebám a případům použití malého produkčního klastru. Velké organizace jako Yahoo, Facebook však našly určitá omezení, protože klastr HDFS rostl exponenciálně. Pojďme se rychle podívat na některá omezení:



  1. Obor názvů je ne škálovatelné jako DataNodes. Proto můžeme mít v clusteru pouze ten počet DataNodes, který zvládne jeden NameNode.
  2. Jsou to dvě vrstvy, tj. Vrstva jmenného prostoru a vrstva úložiště úzce spojeno což velmi ztěžuje alternativní implementaci NameNode.
  3. Výkon celého systému Hadoop závisí na propustnost NameNode. Proto celý výkon všech operací HDFS závisí na tom, kolik úkolů zvládne NameNode v určitém čase.
  4. NameNode ukládá celý jmenný prostor do RAM pro rychlý přístup. To vede k omezením, pokud jde o velikost paměti tj. Počet objektů oboru názvů (souborů a bloků), se kterými se dokáže vyrovnat jeden server oboru názvů.
  5. Mnoho organizací (dodavatelů), které mají nasazení HDFS, umožňuje více organizacím (tenantům) používat jejich obor názvů klastrů. Neexistuje tedy oddělení prostoru jmen, a proto ano žádná izolace mezi organizacemi nájemců, kteří používají klastr.

Architektura federace HDFS:

  • V architektuře HDFS Federation Architecture máme horizontální škálovatelnost jmenné služby. Proto máme několik NameNodes, které jsou federované, tj. Nezávislé na sobě navzájem.
  • DataNodes jsou přítomny ve spodní části, tj. Podkladová vrstva úložiště.
  • Každý DataNode se registruje se všemi NameNodes v klastru.
  • DataNodes přenášejí periodické prezenční signály, blokují zprávy a zpracovávají příkazy z NameNodes.

Obrázkové znázornění architektury federace HDFS je uvedeno níže:

Než budu pokračovat, dovolte mi krátce promluvit o výše uvedeném architektonickém obrazu:

výukový program mysql pro začátečníky s příklady
  • Existuje několik jmenných prostorů (NS1, NS2,…, NSn) a každý z nich je spravován příslušným NameNode.
  • Každý jmenný prostor má svůj vlastní fond bloků (NS1 má fond 1, NSk má fond k atd.).
  • Jak je znázorněno na obrázku, bloky z fondu 1 (nebesky modré) jsou uloženy na DataNode 1, DataNode 2 atd. Podobně budou všechny bloky z každého fondu bloků umístěny na všech DataNodes.

Pojďme se nyní podrobně seznámit s komponentami architektury HDFS Federation Architecture:

Pool Block:

Fond bloků není nic jiného než sada bloků patřících ke konkrétnímu jmennému prostoru. Takže máme kolekci fondů bloků, kde je každý fond bloků spravován nezávisle na sobě. Tato nezávislost, kde je každý fond bloků spravován samostatně, umožňuje oboru názvů vytvářet ID bloků pro nové bloky bez koordinace s jinými obory názvů. Datové bloky přítomné ve všech fondech bloků jsou uloženy ve všech DataNodes. V zásadě fond bloků poskytuje takovou abstrakci, že datové bloky umístěné v DataNodes (jako v architektuře Single Namespace Architecture) lze seskupit podle konkrétního oboru jmen.

Objem jmenného prostoru:

Svazek jmenného prostoru není nic jiného než jmenný prostor spolu s jeho fondem bloků. Proto v HDFS Federation máme několik svazků oboru názvů. Jedná se o samostatnou jednotku správy, tj. Každý svazek jmenného prostoru může fungovat samostatně. Pokud je odstraněn NameNode nebo jmenný prostor, bude odstraněn také odpovídající blok bloků, který se nachází na DataNodes.

Demo na federaci klastrové architektury Hadoop 2.0 | Edureka

Myslím, že teď máte docela dobrou představu o architektuře HDFS Federation. Jde spíše o teoretický koncept a lidé jej obecně nepoužívají v praktickém produkčním systému. U HDFS Federation existují problémy s implementací, které ztěžují nasazení. Proto Architektura HA (vysoká dostupnost) se dává přednost řešení problému Single Point of Failure. Pokryl jsem HDFS HA ​​architektura v mém dalším blogu.

Nyní, když jste porozuměli architektuře Hadoop HDFS Federation Architecture, podívejte se na Edureka, důvěryhodná online vzdělávací společnost se sítí více než 250 000 spokojených studentů rozložených po celém světě. Kurz certifikace Edureka Big Data Hadoop Certification Training pomáhá studentům stát se odborníky na HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocí případů použití v reálném čase v oblasti maloobchodu, sociálních médií, letectví, cestovního ruchu, financí.

Máte na nás dotaz? Uveďte to prosím v sekci komentáře a my se vám ozveme.