Nainstalujte Hadoop: Nastavení clusteru Hadoop s jedním uzlem



Tento kurz je krok za krokem instalací clusteru Hadoop a jeho konfigurací na jednom uzlu. Všechny kroky instalace Hadoop jsou pro stroj CentOS.

Nainstalujte Hadoop: Nastavení clusteru Hadoop s jedním uzlem

Z našich předchozích blogů na , musíte mít teoretickou představu o Hadoopu, HDFS a jeho architektuře.Ale dostat potřebujete dobré praktické znalosti.Doufám, že by se vám líbil náš předchozí blog na , nyní vás provedu praktickými znalostmi o Hadoopu a HDFS. Prvním krokem vpřed je instalace Hadoop.

Existují dva způsoby instalace Hadoop, tj. Jeden uzel a Více uzlů .





Klastr s jedním uzlem znamená pouze jeden DataNode spuštěný a nastavující všechny NameNode, DataNode, ResourceManager a NodeManager na jednom počítači. Používá se pro účely studia a testování. Podívejme se například na ukázkovou sadu dat uvnitř zdravotnického průmyslu. Pro testování, zda úlohy Oozie naplánovaly všechny procesy, jako je shromažďování, agregace, ukládání a zpracování dat ve správném pořadí, používáme cluster s jedním uzlem. Může snadno a efektivně testovat sekvenční pracovní tok v menším prostředí ve srovnání s velkými prostředími, která obsahují terabajty dat distribuovaných na stovkách strojů.

Zatímco v Víceuzlový klastr , běží více než jeden DataNode a každý DataNode běží na různých počítačích. Víceuzlový klastr se v organizacích prakticky používá k analýze velkých dat. Vezmeme-li v úvahu výše uvedený příklad, v reálném čase, když pracujeme s petabajty dat, je třeba jej rozdělit mezi stovky strojů, které mají být zpracovány. Tady tedy používáme víceuzlový klastr.



V tomto blogu vám ukážu, jak nainstalovat Hadoop na cluster s jedním uzlem.

Předpoklady

  • VIRTUÁLNÍ BOX : používá se k instalaci operačního systému.
  • OPERAČNÍ SYSTÉM : Hadoop můžete nainstalovat na operační systémy založené na Linuxu. Ubuntu a CentOS se používají velmi často. V tomto kurzu používáme CentOS.
  • JÁVA : Musíte si do svého systému nainstalovat balíček Java 8.
  • HADOOP : Vyžadujete balíček Hadoop 2.7.3.

Nainstalujte si Hadoop

Krok 1: Klikněte zde stáhněte balíček Java 8. Uložte tento soubor do domovského adresáře.

Krok 2: Extrahujte soubor Java Tar.

Příkaz : tar -xvf jdk-8u101-linux-i586.tar.gz

Smear Java - Nainstalujte Hadoop - Edureka



Obr: Instalace Hadoop - extrakce souborů Java

Krok 3: Stáhněte si balíček Hadoop 2.7.3.

Příkaz : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Obr: Instalace Hadoop - stahování Hadoop

Krok 4: Extrahujte soubor tar Hadoop.

Příkaz : tar -xvf hadoop-2.7.3.tar.gz

Obr: Instalace Hadoop - extrahování souborů Hadoop

Krok 5: Přidejte cesty Hadoop a Java do souboru bash (.bashrc).

Otevřeno . bashrc soubor. Nyní přidejte Hadoop a Java Path, jak je znázorněno níže.

Příkaz : vi. bashrc

Obr: Instalace Hadoop - nastavení proměnné prostředí

Poté uložte soubor bash a zavřete jej.

příklady java appletových programů s výstupem

Chcete-li použít všechny tyto změny na aktuální terminál, proveďte příkaz source.

Příkaz : zdroj .bashrc

Obr: Instalace Hadoop - osvěžující proměnné prostředí

Abyste se ujistili, že Java a Hadoop byly ve vašem systému správně nainstalovány a lze k nim přistupovat prostřednictvím terminálu, napřxecute java -version a hadoop verze příkazů.

Příkaz : Jáva-verze

Obr: Instalace Hadoop - kontrola verze Java

Příkaz : hadoopverze

Obr: Instalace Hadoop - kontrola verze Hadoop

Krok 6 : Upravte .

Příkaz: cd hadoop-2.7.3 / etc / hadoop /

Příkaz: je

Všechny konfigurační soubory Hadoop jsou umístěny v hadoop-2.7.3 / etc / hadoop adresář, jak vidíte na snímku níže:

Obr: Instalace Hadoop - konfigurační soubory Hadoop

Krok 7 : Otevřeno core-site.xml a upravte vlastnost uvedenou níže uvnitř konfigurační značky:

core-site.xml informuje démona Hadoop, kde NameNode běží v klastru. Obsahuje konfigurační nastavení jádra Hadoop, jako jsou nastavení I / O, která jsou společná pro HDFS a MapReduce.

Příkaz : vi core-site.xml

Obr: Instalace Hadoop - Konfigurace core-site.xml

fs.default.name hdfs: // localhost: 9000

Krok 8: Upravit hdfs-site.xml a upravte vlastnost uvedenou níže uvnitř konfigurační značky:

hdfs-site.xml obsahuje nastavení konfigurace démonů HDFS (tj. NameNode, DataNode, Secondary NameNode). Zahrnuje také faktor replikace a velikost bloku HDFS.

Příkaz : vi hdfs-site.xml

Obr: Instalace Hadoop - konfigurace hdfs-site.xml

dfs.replication 1 dfs.permission false

Krok 9 : Upravte mapred-site.xml soubor a upravte vlastnost uvedenou níže uvnitř konfigurační značky:

mapred-site.xml obsahuje nastavení konfigurace aplikace MapReduce, jako je počet JVM, které mohou běžet paralelně, velikost mapovače a redukčního procesu, jádra CPU dostupná pro proces atd.

V některých případech není soubor mapred-site.xml k dispozici. Musíme tedy vytvořit soubor mapred-site.xmlpomocí šablony mapred-site.xml.

Příkaz : cp mapred-site.xml.template mapred-site.xml

Příkaz : my mapovaný-stránky.xml.

Obr: Instalace Hadoop - konfigurace mapred-site.xml

mapreduce.framework.name příze

Krok 10: Upravit yarn-site.xml a upravte vlastnost uvedenou níže uvnitř konfigurační značky:

yarn-site.xml obsahuje nastavení konfigurace ResourceManageru a NodeManageru, jako je velikost správy paměti aplikace, operace potřebná pro program a algoritmus atd.

Příkaz : vi yarn-site.xml

Obr: Instalace Hadoop - konfigurace yarn-site.xml

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

Krok 11: Upravit hadoop-env.sh a přidejte cestu Java, jak je uvedeno níže:

hadoop-env.sh obsahuje proměnné prostředí, které jsou ve skriptu použity ke spuštění Hadoop jako domovská cesta Java atd.

Příkaz : my hadoop-env.sh

Obr: Instalace Hadoop - konfigurace hadoop-env.sh

Krok 12: Přejděte do domovského adresáře Hadoop a naformátujte NameNode.

Příkaz : CD

Příkaz : cd hadoop-2.7.3

Příkaz : bin / hadoop účel -formát

Obr: Instalace Hadoop - formátování NameNode

Toto naformátuje HDFS prostřednictvím NameNode. Tento příkaz je proveden pouze poprvé. Formátování systému souborů znamená inicializaci adresáře určeného proměnnou dfs.name.dir.

Nikdy neformátujte, nezapínejte a nespouštějte souborový systém Hadoop. Ztratíte všechna svá data uložená v HDFS.

Krok 13: Jakmile je NameNode naformátován, přejděte do adresáře hadoop-2.7.3 / sbin a spusťte všechny démony.

Příkaz: cd hadoop-2.7.3 / sbin

Buď můžete spustit všechny démony jediným příkazem, nebo to udělat jednotlivě.

Příkaz: ./ start-all.sh

Výše uvedený příkaz je kombinací start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

Nebo můžete spustit všechny služby jednotlivě, jak je uvedeno níže:

Počáteční jméno Uzel:

NameNode je středobodem systému souborů HDFS. Udržuje adresářový strom všech souborů uložených v HDFS a sleduje všechny soubory uložené v klastru.

Příkaz: ./hadoop-daemon.sh počáteční účel

Obr: Instalace Hadoop - počáteční názevNode

Spustit DataNode:

Při spuštění se DataNode připojí k Namenode a odpovídá na požadavky Namenode pro různé operace.

Příkaz: ./hadoop-daemon.sh start datanode

Obr: Instalace Hadoop - spuštění DataNode

Spustit ResourceManager:

ResourceManager je hlavní server, který rozhoduje o všech dostupných prostředcích klastru, a tím pomáhá při správě distribuovaných aplikací spuštěných v systému YARN. Jeho úkolem je spravovat každý NodeManagers a ApplicationMaster každé aplikace.

Příkaz: ./příze-daemon.sh spustit správce prostředků

Obr: Instalace Hadoop - spuštění ResourceManageru

Spustit NodeManager:

NodeManager v každé architektuře stroje je agent, který je zodpovědný za správu kontejnerů, sledování jejich využití zdrojů a jejich hlášení do ResourceManageru.

Příkaz: ./příze-daemon.sh spustit nodemanager

Obr: Instalace Hadoop - spuštění NodeManageru

Spustit JobHistoryServer:

JobHistoryServer je zodpovědný za obsluhu všech požadavků týkajících se historie úloh od klienta.

Příkaz : ./mr-jobhistory-daemon.sh spustit server historie

Krok 14: Chcete-li zkontrolovat, zda jsou všechny služby Hadoop funkční, spusťte níže uvedený příkaz.

Příkaz: jps

ukončete program v Javě

Obr: Instalace Hadoop - kontrola démonů

Krok 15: Nyní otevřete prohlížeč Mozilla a přejděte na localhost : 50070 / dfshealth.html zkontrolovat rozhraní NameNode.

Obr: Instalace Hadoop - spuštění webového rozhraní

Gratulujeme, úspěšně jste nainstalovali jeden uzel clusteru Hadoop najednou.V našem dalším blogu , budeme se zabývat tím, jak nainstalovat Hadoop také na víceuzlový klastr.

Nyní, když jste pochopili, jak nainstalovat Hadoop, podívejte se na Edureka, důvěryhodná online vzdělávací společnost se sítí více než 250 000 spokojených studentů po celém světě. Kurz certifikace Edureka Big Data Hadoop Certification Training pomáhá studentům stát se odborníky na HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocí případů použití v reálném čase v oblasti maloobchodu, sociálních médií, letectví, cestovního ruchu, financí.

Máte na nás dotaz? Uveďte to prosím v sekci komentáře a my se vám ozveme.