Cloudera Hadoop: Začínáme s distribucí CDH



Tento blog Edureka o výukovém programu Cloudera Hadoop vám poskytne kompletní přehled o různých komponentách Cloudera, jako je Cloudera Manager, Parcels, Hue atd.

S rostoucí poptávkou po Big Data je Apache Hadoopnasrdce revoluce, změnilo to způsob, jakým organizujeme a počítáme data. Potřeba organizací sladit Hadoop s jejich obchodními potřebami podpořila vznik komerčních distribucí. Komerční distribuce Hadoop jsou obvykle vybaveny funkcemi, které mají za cíl zjednodušit nasazení Hadoop. Cloudera Hadoop Distribution poskytuje škálovatelnou, flexibilní a integrovanou platformu, která usnadňuje správu rychle rostoucího objemu a rozmanitosti dat ve vašem podniku.

V tomto blogu o distribuci Cloudera Hadoop se budeme zabývat následujícími tématy:





Cloudera Hadoop: Úvod do Hadoop

Hadoop je open-source framework Apache, který ukládá a zpracovává velká data v distribuovaném prostředípřescluster pomocí jednoduchých programovacích modelů. Hadoop poskytuje paralelní výpočet nad distribuovaným úložištěm.Chcete-li se dozvědět více o Hadoopu podrobně od můžete se na to odvolat

Po tomto krátkém úvodu do Hadoopu mi dovolte nyní vysvětlit různé typy distribuce Hadoop.



Cloudera Hadoop: Distribuce Hadoop

Protože Apache Hadoop je open source, mnoho společností vyvinulo distribuce, které jdou nad rámec původního open source kódu. To je velmi podobné linuxovým distribucím, jako jsou RedHat, Fedora a Ubuntu. Každá z linuxových distribucí podporuje své vlastní funkce a funkce, jako je uživatelsky přívětivé grafické uživatelské rozhraní v Ubuntu. Podobně, červená čepice je v podnicích populární, protože nabízí podporu a poskytuje ideologii pro provádění změn v libovolné části systému podle libosti. Red Hat vás zbaví problémů s kompatibilitou softwaru. To je obvykle velký problém pro uživatelekteří přecházejí z Windows.

Stejně tak existují 3 hlavní typy distribucí Hadoop, které mají vlastní sadu funkcí a funkcí a jsou postaveny pod základním HDFS.

Cloudera vs MapR vs Hortonworks

Obr: MapR vs Hortonworks vs Cloudera

Obr: MapR vs Hortonworks vs Cloudera



Cloudera Hadoop distribuce

Cloudera je tržní trend v prostoru Hadoop a je první, kdo vydává komerční distribuci Hadoop. Nabízí poradenské služby k překlenutí propasti mezi „co poskytuje Apache Hadoop“ a „co organizace potřebují“.

Cloudera Distribution je:

  • Rychle pro podnikání : Od analytiky po vědu o datech a vše mezi tím, Cloudera poskytuje výkon, který potřebujete k odemčení potenciálu neomezeného množství dat.
  • Usnadňuje správu Hadoopu : S Cloudera Manager vám automatizovaní průvodci umožní rychle nasadit váš cluster bez ohledu na rozsah nebo prostředí nasazení.
  • Zabezpečení bez kompromisů: Splňuje přísné požadavky na zabezpečení dat a dodržování předpisů, aniž by byla obětována obchodní agilita. Cloudera poskytuje integrovaný přístup k zabezpečení a správě dat.

Horton-Works Rozdělení

Horton-Works Data Platform (HDP) je zcela otevřená platforma určená k manévrování s daty z mnoha zdrojů a formátů. Platforma zahrnuje různé nástroje Hadoop, jako je Hadoop Distributed File System (HDFS), MapReduce, Zookeeper, HBase, Pig, Hive a další komponenty.

Podporuje také funkce jako:

  • HDP dělá úl rychlejší prostřednictvím svého nového projektu Stinger.
  • HDP vyhýbá se zablokování dodavatele tím, že se zaváže k vidlicové verzi Hadoop.
  • HDP se zaměřuje na posílení použitelnost platformy Hadoop.

Distribuce MapR

MapR je poskytovatel řešení Hadoop zaměřený na platformu, stejně jako HortonWorks a Cloudera. MapR integruje svůj vlastní databázový systém známý jako MapR-DB a nabízí distribuční služby Hadoop. MapR-DB se tvrdí, že je čtyřikrát až sedmkrát rychlejší než základní databáze Hadoop, tj. HBase, která se provádí na jiných distribucích.

Má své zajímavé funkce, jako jsou:

  • Je to jediná distribuce Hadoop, která zahrnuje Pig, Hive a Sqoop bez jakýchkoli závislostí Java - protože se spoléhá na systém souborů MapR.
  • MapR je nejprodukčnější distribuce Hadoop s mnoha vylepšeními, díky nimž je uživatelsky přívětivější, rychlejší a spolehlivější.

Nyní pojďme do hloubky probrat distribuci Cloudera Hadoop.

Přihlaste se k odběru našeho kanálu YouTube a získejte nové aktualizace ...

Cloudera Hadoop: Distribuce cloudera

Cloudera je nejznámější hráč v prostoru Hadoop, který vydal první komerční distribuci Hadoop.

Obr: Distribuce cloudera Hadoop

Cloudera Hadoop Distribution podporuje následující sadu funkcí:

  1. Disk CDH společnosti Cloudera zahrnuje všechny komponenty open source, je zaměřen na nasazení na podnikové úrovni a je jednou z nejpopulárnějších komerčních distribucí Hadoop.
  2. Cloudera, známá svými inovacemi, byla první, kdo nabídl SQL pro Hadoop s jeho Impala dotazovací modul.
  3. Konzola pro správu - Správce cloudera , je snadno použitelný a implementovatelný díky bohatému uživatelskému rozhraní, které zobrazuje všechny informace o clusteru organizovaným a čistým způsobem.
  4. V CDH můžete přidávat služby do běžícího clusteru bez jakéhokoli narušení.
  5. Mezi další přírůstky Cloudera patří zabezpečení, uživatelské rozhraní a rozhraní pro integraci s aplikacemi třetích stran.
  6. CDH poskytuje Šablony uzlů tj. umožňuje vytvoření skupiny uzlů v clusteru Hadoop s různou konfigurací. Odstraňuje použití stejné konfigurace v celém clusteru Hadoop.
  7. Podporuje také:
    • Spolehlivost
      Prodejci Hadoop pohotově reagují vždy, když je zjištěna chyba. Se záměrem zvýšit stabilitu komerčních řešení jsou opravy a opravy implementovány okamžitě.
    • Podpěra, podpora
      Dodavatelé Cloudera Hadoop poskytují technické pokyny a pomoc, která zákazníkům usnadňuje přijetí Hadoopu pro úkoly na podnikové úrovni a pro aplikace kritické z hlediska poslání.

    • Úplnost
      Prodejci Hadoop spojují své distribuce s různými dalšími doplňkovými nástroji, které zákazníkům pomáhají přizpůsobit aplikaci Hadoop tak, aby řešily jejich konkrétní úkoly.

Distribuce Cloudera přicházejí se 2 různými typy vydání.

  1. Cloudera Express Edition
  2. Cloudera Enterprise Edition

Nyní se podívejme na rozdíly mezi nimi.

Funkce Cloudera-Express Cloudera-Enterprise
Správa klastrů
1. Správa více clusterůAnoAno
2. Správa zdrojůAnoAno
Rozvinutí
1. Podpora pro CDH 4 a 5AnoAno
2. Postupná aktualizace CDHNeAno
Správa služeb a konfigurace
1. Správa služeb HDFS, MapReduce, YARN, Impala, HBase, Hive, Hue, Oozie, Zookeeper, Solr, Spark a AccumuloAnoAno
2. Postupný restart služebNeAno
Bezpečnostní
1. Ověření LDAPNeAno
2. Ověření SAMLNeAno
Monitorování a diagnostika
1. Zdravotní historieAnoAno
Správa výstrah
1. Upozornění prostřednictvím e-mailuAnoAno
2. Výstraha přes SNMPNeAno
Pokročilé funkce správy
1. Automatické zálohování a obnoveníNeAno
2. Procházení souborů a vyhledáváníNeAno
3. MapReduce, Impala, HBase, zprávy o použití přízeNeAno

Cloudera Hadoop: Správce cloudera

Podle Cloudery je Cloudera Manager nejlepší způsob Nainstalujte , konfigurovat , spravovat , a monitor zásobník Hadoop.

Poskytuje:

  1. Automatizované nasazení a konfigurace
  2. Přizpůsobitelné monitorování a podávání zpráv
  3. Bezproblémové robustní řešení problémů
  4. Nula - údržba prostojů

Získejte podrobné znalosti o Cloudera Hadoop a jeho různých nástrojích

Demonstrace správce Cloudera

Pojďme prozkoumat správce cloudera.

1. Níže uvedený obrázek ukazuje počet služeb, které aktuálně běží ve správci Cloudera. Můžete si také prohlédnout grafy o využití CPU clusteru, využití IO disku atd.

Obr: Domovská stránka správce cloudera

2. Níže uvedený obrázek ukazuje klastr HBase. Poskytuje grafy a grafy o zdravotním stavu aktuálně spuštěného serveru HBase REST.

Obr: Zdravotní podmínky serveru HBase

3. Nyní se podívejme na kartu Instance clusteru HBase, kde můžete zkontrolovat stav a konfiguraci IP.

Obrázek: Stav a adresa IP hostitelského serveru klastru HBase

4. Dále máte kartu Konfigurace. Zde můžete vidět všechny konfigurační parametry a měnit jejich hodnoty.

Obr: Konfigurace clusteru HBase

výukový program vizuálního studia pro začátečníky

Pojďme si nyní uvědomit, co jsou balíčky v Cloudera.

Cloudera Hadoop: Balíky

Balík je binární distribuční formát obsahující soubory programu spolu s dalšími metadaty používanými správcem Cloudera.

Balíky jsou samostatné a instalují se do adresáře opatřeného verzí, což znamená, že lze instalovat více verzí dané služby vedle sebe.

Níže jsou uvedeny výhody používání aplikace Parcel:

  • Poskytuje distribuci CDH jako jeden objekt, tj. Místo toho, aby měl samostatný balíček pro každou část CDH, mají balíky pouze jeden objekt k instalaci.

  • Nabízí vnitřní konzistenci (protože kompletní CDH je distribuován jako jeden balík, všechny komponenty CDH jsou spárovány a nebude zde žádné riziko, že různé části pocházejí z různých verzí CDH).

  • Balíky v CDH můžete nainstalovat, upgradovat, downgradovat, distribuovat a aktivovat pomocí několika kliknutí.

Nyní se podívejme, jak nainstalovat a aktivovat službu Kafka v CDH pomocí balíčků.

  1. Přejít na domovskou stránku správce Cloudera >> Hostitelé >> Balíky, jak je uvedeno níže

    Obr: Výběr balíků z hostitelů

2. Pokud nevidíte Kafku v seznamu balíků, můžete balíček přidat do seznamu.

  1. Najděte balíček verze Kafka, kterou chcete použít. Pokud ji nevidíte, můžete do seznamu přidat úložiště balíků.
  2. Najděte balíček pro verzi Kafky, kterou chcete nainstalovat - Cloudera Distribuce verzí Apache Kafka .
    Níže uvedený obrázek ukazuje totéž.

Obr: Cesta úložiště pro pozemek.

3. Zkopírujte odkaz, jak je znázorněno na výše uvedeném obrázku, a přidejte jej do vzdáleného úložiště balíků, jak je znázorněno níže.

Obr: Přidání cesty Kafka z úložiště

Čtyři.Po přidání cesty bude Kafka připraven ke stažení. Stačí kliknout na tlačítko pro stažení a stáhnout si Kafku.

Obr: Stahování Kafky

5. Jakmile je Kafka stažena, musíte ji pouze distribuovat a aktivovat.

Obr: Aktivace Kafky

Jakmile je aktivován, můžete pokračovat a zobrazit Kafku na kartě služeb ve správci Cloudera.

Obr: Služba Kafka

Cloudera Hadoop: Vytvoření pracovního postupu Oozie

Vytvoření pracovního postupu ručním napsáním kódu XML a následným provedením je komplikované. Můžete to odkázat Naplánování úlohy Oozie blog, dozvědět se o tradičním přístupu.

Můžete vidět následující obrázek, kde jsme vytvořili soubor XML, abychom vytvořili jednoduchý pracovní postup Oozie. Obr: Vytvoření pracovního postupu Oozie pomocí tradičního přístupu

Jak vidíte, dokonce i při vytváření jednoduchého plánovače Oozie jsme museli napsat obrovský XML kód, který je časově náročný a ladění každého řádku se stává těžkopádným. Abychom to překonali, představil Cloudera Manager novou funkci nazvanou Odstín který poskytuje grafické uživatelské rozhraní a jednoduché funkce drag and drop pro vytváření a provádění pracovních toků Oozie.

Nyní se podívejme, jak Hue zjednodušuje stejný úkol.

Před vytvořením pracovního postupu nejprve vytvořme vstupní soubory, tj. Clickstream.txt a user.txt.
V souboru user.txt máme ID uživatele, Jméno, Věk, Země, Pohlaví, jak je uvedeno níže. Tento uživatelský soubor potřebujeme, abychom věděli, kolik uživatelů počítá a kliká na adresu URL (uvedenou v souboru clickstream) na základě ID uživatele.

Obr: Vytvoření textového souboru

Abychom zjistili počet kliknutí uživatele na každou adresu URL, máme klikací tok obsahující ID uživatele a adresu URL.

Obr: Soubor Clickstream

Napište dotazy do souboru skriptu.

Obr: Soubor skriptu

Po vytvoření souboru uživatele, souboru clickstream a souboru skriptu můžeme pokračovat a vytvořit pracovní postup Oozie.

1. Pracovní postup Oozie můžete jednoduše přetáhnout, jak je znázorněno na obrázku.

Obr: Funkce přetažení vytváření pracovního postupu Oozie

2. Brzy po zrušení akce musíte určit cesty k souboru skriptu a přidat parametry uvedené v souboru skriptu. Zde je třeba přidat parametry OUTPUT, CLICKSTREAM a USER a zadat cestu ke každému z parametrů.

Obr: Přidání souboru skriptu a požadovaných parametrů k provedení akce

3. Jakmile zadáte cesty a přidáte parametry, nyní jednoduše uložte a odešlete pracovní postup, jak je znázorněno na následujícím obrázku.

Obr: Uložení a odeslání akce Oozie

4. Jakmile zadáte úkol, vaše úloha je dokončena. O provedení a další kroky se postará Hue.

Obr: Stav provádění úlohy Oozie

5.Nyní, když jsme provedli úlohu Oozie, se podívejme na kartu Akce. Obsahuje ID uživatele a stav pracovního postupu. Zobrazuje také chybové kódy, pokud existují, počáteční a koncový čas položky akce.

Obr: Prvky přítomné na kartě akce pracovního postupu Oozie

6. Vedle karty akcí je karta podrobností. V tomto můžeme vidět čas zahájení a čas poslední úpravy úlohy.

Obr: Podrobnosti pracovního postupu Oozie.

7. Vedle karty Podrobnosti máme v pracovním postupu kartu Konfigurace.

Obr: Nastavení konfigurace pracovního postupu Oozie

7. Pokud během provádění akce dojde k nějakým chybám, bude uvedena na kartě Protokol. Můžete odkazovat na chybové zprávy a podle toho je ladit.

Obr: Soubor protokolu, který obsahuje chybové kódy a chybové zprávy

8. Zde je kód XML pracovního postupu, který automaticky generuje Hue.

Obr: XML kód pracovního postupu Oozie

9.1. Jelikož jste již v kroku 2 zadali cestu pro výstupní adresář, zde máte výstupní adresář v prohlížeči HDFS, jak je uvedeno níže.

co vše může nagios sledovat

Obr: Výstupní adresář prohlížeče HDFS

9.2 Jakmile kliknete na výstupní adresář, najdete textový soubor s názvem jako output.txt a tento textový soubor obsahuje skutečný výstup, jak je znázorněno na následujícím obrázku.

Obr: Konečný výstupní text

Takto nám Hue usnadňuje práci tím, že poskytuje možnosti přetažení a vytvoření pracovního postupu Oozie.

Doufám, že tento blog byl užitečný pro pochopení distribuce Cloudera a různých komponent Cloudera.

Chcete se zúčastnit revoluce Big Data?

Nyní, když jste pochopili Cloudera Hadoop Distribution, podívejte se na Edureka, důvěryhodná online vzdělávací společnost se sítí více než 250 000 spokojených studentů rozložených po celém světě. Kurz certifikace Edureka Big Data Hadoop Certification Training pomáhá studentům stát se odborníky na HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocí případů použití v reálném čase v oblasti maloobchodu, sociálních médií, letectví, cestovního ruchu, financí.

Máte na nás dotaz? Uveďte to prosím v sekci komentáře a my se vám ozveme.