Výukový program HDFS
Než se v tomto výukovém blogu o HDFS posunete kupředu, dovolím vám provést několik šílených statistik týkajících se HDFS:
- V roce 2010, Facebook tvrdil, že má jeden z největších úložišť clusteru HDFS 21 petabajtů dat.
- V roce 2012, Facebook prohlásili, že mají největší jediný klastr HDFS s více než 100 PB dat .
- A Yahoo ! má více než 100 000 CPU přes 40 000 serverů běží Hadoop s největším spuštěným klastrem Hadoop 4 500 uzlů . Všichni řekli, Yahoo! obchody 455 petabajtů dat v HDFS.
- Ve skutečnosti začala do roku 2013 většina velkých jmen v žebříčku Fortune 50 používat Hadoop.
Příliš těžké na trávení? Že jo. Jak je uvedeno v , Hadoop má dvě základní jednotky - S zuřit a zpracovává se . Když řeknu skladovací část Hadoop, mám na mysli HDFS což znamená Systém distribuovaných souborů Hadoop . V tomto blogu vás tedy představím HDFS .
Zde budu hovořit o:
- Co je HDFS?
- Výhody HDFS
- Vlastnosti HDFS
Než začneme hovořit o HDFS, řeknu vám, co je to systém distribuovaných souborů?
DFS nebo systém distribuovaných souborů:
Distribuovaný souborový systém hovoří o řízení data , tj. soubory nebo složky na více počítačích nebo serverech. Jinými slovy, DFS je souborový systém, který nám umožňuje ukládat data přes více uzlů nebo strojů v klastru a umožňuje více uživatelům přístup k datům. V zásadě tedy slouží stejnému účelu jako souborový systém, který je k dispozici ve vašem počítači, například pro Windows máte NTFS (New Technology File System) nebo pro Mac máte HFS (Hierarchical File System). Jediným rozdílem je, že v případě systému distribuovaného souboru ukládáte data do více počítačů než do jednoho počítače. I když jsou soubory uloženy v síti, DFS organizuje a zobrazuje data takovým způsobem, že uživatel sedící na stroji bude mít pocit, že všechna data jsou uložena v tomto stroji.
Co je HDFS?
Distribuovaný souborový systém Hadoop nebo HDFS je distribuovaný souborový systém založený na prostředí Java, který umožňuje ukládat velká data mezi více uzly v clusteru Hadoop. Pokud tedy nainstalujete Hadoop, získáte HDFS jako podkladový úložný systém pro ukládání dat v distribuovaném prostředí.
Vezměme si příklad, abychom tomu porozuměli. Představte si, že na každém počítači máte deset počítačů nebo deset počítačů s pevným diskem o kapacitě 1 TB. Nyní HDFS říká, že pokud si nainstalujete Hadoop jako platformu na vrchol těchto deseti strojů, získáte HDFS jako službu úložiště. Distribuovaný systém souborů Hadoop je distribuován takovým způsobem, že každý stroj přispívá svým vlastním úložištěm pro ukládání jakéhokoli druhu dat.
Výukový program HDFS: Výhody HDFS
1. Distribuované úložiště:
Při přístupu k distribuovanému systému souborů Hadoop z kteréhokoli z deseti počítačů v clusteru Hadoop budete mít pocit, jako byste se přihlásili k jednomu velkému počítači, který má kapacitu úložiště 10 TB (celkové úložiště přes deset počítačů). Co to znamená? To znamená, že můžete uložit jeden velký soubor 10 TB, který bude distribuován na deset počítačů (každý 1 TB).Takže to je neomezuje se pouze na fyzické hranice každého jednotlivého stroje.
2. Distribuovaný a paralelní výpočet:
Protože jsou data rozdělena napříč stroji, umožňuje nám to využívat Distribuovaný a paralelní výpočet . Pojďme pochopit tento koncept na výše uvedeném příkladu. Předpokládejme, že zpracování 1 TB souboru na jednom počítači trvá 43 minut. Takže teď mi řekněte, kolik času bude trvat zpracování stejného 1 TB souboru, když máte 10 strojů v clusteru Hadoop s podobnou konfigurací - 43 minut nebo 4,3 minuty? 4,3 minuty, správně! Co se tu stalo? Každý z uzlů pracuje s částí souboru 1 TB paralelně. Proto práce, která dříve trvala 43 minut, je nyní hotová za pouhých 4,3 minuty, protože práce byla rozdělena na deset strojů.
3. Horizontální škálovatelnost:
V neposlední řadě pojďme hovořit o horizontální změna měřítka nebo škálování v Hadoopu. Existují dva typy škálování: vertikální a horizontální . Ve vertikálním měřítku (zvětšení) zvýšíte kapacitu hardwaru vašeho systému. Jinými slovy si pořídíte více RAM nebo CPU a přidáte je do svého stávajícího systému, aby byl robustnější a výkonnější. S vertikálním škálováním nebo škálováním však souvisejí problémy:
- Vždy existuje limit, do kterého můžete zvýšit kapacitu hardwaru. Takže nemůžete pokračovat ve zvyšování RAM nebo CPU stroje.
- Při vertikálním měřítku nejprve zastavíte zařízení. Poté zvětšíte RAM nebo CPU, abyste z něj udělali robustnější hardware. Po zvýšení kapacity hardwaru restartujte počítač. Tato doba, kdy zastavujete systém, se stává výzvou.
V případě horizontální změna měřítka (měřítko) , místo existujícího klastru přidáte více uzlů místo zvýšení kapacity hardwaru jednotlivých strojů. A co je nejdůležitější, můžete přidejte další stroje na cestách tj. bez zastavení systému . I když tedy škálování nemáme, nemáme žádnou odstávku ani zelenou zónu, nic takového. Na konci dne budete mít více strojů, které budou paralelně pracovat, aby splnily vaše požadavky.
převést z double na int java
Výukové video HDFS:
Můžete se podívat na níže uvedené video, kde byly podrobně probrány všechny koncepty související s HDFS:
Výukový program HDFS: Vlastnosti HDFS
Tyto funkce podrobně pochopíme, když prozkoumáme architekturu HDFS v našem dalším blogu tutoriálů HDFS. Ale prozatím si přečtěte přehled funkcí HDFS:
- Náklady: HDFS je obecně nasazen na komoditním hardwaru, jako je váš stolní počítač / notebook, který používáte každý den. Je to tedy velmi ekonomické, pokud jde o náklady na vlastnictví projektu. Protože používáme nízkonákladový komoditní hardware, nemusíte utrácet obrovské množství peněz za rozšíření svého klastru Hadoop. Jinými slovy, přidání více uzlů do vašeho HDFS je nákladově efektivní.
- Rozmanitost a objem dat: Když mluvíme o HDFS, pak mluvíme o ukládání obrovských dat, tj. Terabajtů a petabajtů dat a různých druhů dat. Takže můžete do HDFS ukládat jakýkoli typ dat, ať už strukturovaný, nestrukturovaný nebo polostrukturovaný.
- Spolehlivost a tolerance chyb: Když ukládáte data na HDFS, interně rozděluje daná data do datových bloků a ukládá je distribuovaným způsobem ve vašem clusteru Hadoop. Informace o tom, který datový blok je umístěn na kterém z datových uzlů je zaznamenán v metadatech. NameNode spravuje meta data a DataNodes jsou zodpovědní za ukládání dat.
Uzel názvu také replikuje data, tj. Udržuje více kopií dat. Díky této replikaci dat je HDFS velmi spolehlivý a odolný vůči chybám. Takže i když některý z uzlů selže, můžeme načíst data z replik umístěných na jiných datových uzlech. Ve výchozím nastavení je faktor replikace 3. Proto pokud uložíte 1 GB souboru do HDFS, nakonec zabere 3 GB místa. Uzel názvu pravidelně aktualizuje metadata a udržuje konzistentní faktor replikace.
- Integrita dat: Data Integrity hovoří o tom, zda jsou data uložená v mém HDFS správná nebo ne. HDFS neustále kontroluje integritu uložených dat oproti kontrolnímu součtu. Pokud zjistí jakoukoli poruchu, ohlásí to uzlu názvu. Poté uzel názvu vytvoří další nové repliky, a proto odstraní poškozené kopie.
- Vysoká propustnost: Propustnost je množství práce odvedené za jednotku času. Mluví o tom, jak rychle máte přístup k datům ze systému souborů. V zásadě vám poskytuje přehled o výkonu systému. Jak jste viděli ve výše uvedeném příkladu, kde jsme společně použili deset strojů pro vylepšení výpočtu. Tam jsme byli schopni zkrátit dobu zpracování z 43 minut na pouhou 4,3 minuty protože všechny stroje fungovaly paralelně. Proto jsme paralelním zpracováním dat ohromně snížili dobu zpracování a dosáhli tak vysoké propustnosti.
- Lokalita dat: Datová lokalita hovoří spíše o přesunu zpracovatelské jednotky na data než o data do zpracovatelské jednotky. V našem tradičním systému jsme přenesli data do aplikační vrstvy a poté je zpracovali. Ale teď, vzhledem k architektuře a obrovskému objemu dat, přenesení dat do aplikační vrstvy budevýrazně snížit výkon sítě.Takže v HDFS přinášíme výpočetní část do datových uzlů, kde jsou data uložena. Data tedy nepohybujete, přinášíte program nebo procesčást k datům.
Takže teď máte krátkou představu o HDFS a jeho funkcích. Ale věřte mi, lidi, to je jen špička ledovce. V mém dalším , Hluboce se ponořím do Architektura HDFS a odhalím tajemství úspěchu HDFS. Společně zodpovíme všechny otázky, které se vám honí hlavou, například:
- Co se děje v zákulisí, když čtete nebo zapisujete data v systému distribuovaných souborů Hadoop?
- Jaké jsou algoritmy, jako je povědomí o stojanu, díky kterému je HDFS tak odolný vůči chybám?
- Jak systém distribuovaných souborů Hadoop spravuje a vytváří repliku?
- Co jsou blokové operace?
Nyní, když jste pochopili HDFS a jeho funkce, podívejte se na Edureka, důvěryhodná online vzdělávací společnost se sítí více než 250 000 spokojených studentů po celém světě. Kurz certifikace Edureka Big Data Hadoop Certification Training pomáhá studentům stát se odborníky na HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocí případů použití v reálném čase v oblasti maloobchodu, sociálních médií, letectví, cestovního ruchu, financí.
Máte na nás dotaz? Uveďte to prosím v sekci komentáře a my se vám ozveme.