Hadoop 2.0 - často kladené otázky

Zájem o Hadoop se za posledních pár let mnohonásobně zvýšil. Tento příspěvek odpovídá na vaše dotazy a vyjasňuje mnoho pochybností o Hadoopu 2.0 a jeho použití.

Toto je následný příspěvek s odpovědí na běžně kladenou otázku během veřejného webináře edureka! na .

Často kladené otázky o Hadoopu

Deepak:





Co je Hadoop?
Apache Hadoop je softwarový rámec Open Source pro ukládání a rozsáhlé zpracování datových sad na klastrech komoditního hardwaru. Jedná se o softwarový rámec Open Source Data Management s škálovatelným úložištěm a distribuovaným zpracováním. Vytváří ji a používá globální komunita přispěvatelů a uživatelů.

Přečtěte si více v našem příspěvku na blogu Hadoop a .



Vyhledávání:

Jaké jsou případy využití velkých objemů dat v odvětví cestování, dopravy a leteckých společností?

Slunný:



šíře prvního vyhledávacího algoritmu pseudokód

Můžete nám ukázat nějaký skutečný vzorek implementace Hadoop, který můžeme studovat?
Jsme živízv době rostoucí dopravní špičky ve špičce. Provozovatelé dopravy neustále hledají nákladově efektivní způsoby poskytování svých služeb při zachování dobrého stavu svého dopravního parku. Využití Big Data Analytics v této doméně může organizaci pomoci s:

  • Optimalizace trasy
  • Geoprostorová analýza
  • Dopravní vzorce a dopravní zácpy
  • Údržba majetku
  • Správa příjmů (tj. Letecká společnost)
  • Řízení zásob
  • Úspora paliva
  • Cílený marketing
  • Věrnost zákazníků
  • Předpověď kapacity
  • Výkon a optimalizace sítě

Několik případů použití v reálném světě je:
na) Stanovení letových nákladů
b) Predikční modelování pro logistiku zásob
C) Orbitz Worldwide - vzory nákupu zákazníků
d) Šest nasazení Super-Scale Hadoop
je) Hadoop - více než přidává
F) Hadoop v Enterprise

Další informace o implementacích Hadoop Real-world najdete na:

Hirdesh:

Je Hadoop vše o zpracování a zpracování dat? Jak postupujeme při vytváření přehledů a vizuální analýze. Lze Qlikview, Tableau použít na Hadoop?
Základní komponenty Hadoop HDFS a MapReduce jsou o ukládání a zpracování dat. HDFS pro úložiště a MapReduce pro zpracování. Ale pro analýzu se používají základní komponenty Hadoop, jako jsou Pig a Hive. Pro Tableau Visual Reports lze QlikView připojit k Hadoop pro Visual Reporting.

Amit:

Hadoop vs. mongoDB
MongoDB se používá jako „provozní“ úložiště dat v reálném čase, zatímco Hadoop se používá pro offline dávkové zpracování a analýzu dat.
mongoDB je dokumentově orientované úložiště bez schémat, které můžete použít ve webové aplikaci jako backend namísto RDBMS jako MySQL, zatímco Hadoop se používá hlavně jako škálovatelné úložiště a distribuované zpracování pro velké množství dat.

Přečtěte si více na blogový příspěvek mongoDB a Hadoop .

Tady:

Je Apache Spark součástí Hadoopu ?
Apache Spark je rychlý a obecný nástroj pro zpracování dat ve velkém měřítku. Spark je rychlejší a podporuje zpracování v paměti. Spark execution engine rozšiřuje typ výpočetních úloh, které Hadoop dokáže zpracovat a může běžet na Hadoop 2.0 YARN clusteru. Jedná se o systém rámce zpracování, který umožňuje ukládání objektů v paměti (RDD) spolu se schopností zpracovávat tyto objekty pomocí uzávěrů Scala. Podporuje Graph, Data Warehouse, Machine Learning a Stream processing.

Pokud máte cluster Hadoop 2, můžete Spark spustit bez nutnosti instalace. Jinak lze Spark snadno provozovat samostatně nebo na EC2 nebo Mesos. Může číst z HDFS, HBase, Cassandra a jakéhokoli zdroje dat Hadoop.

Přečtěte si více o Sparku tady .

Prasad:

Co je Apache Flume?
Apache Flume je distribuovaný, spolehlivý a dostupný systém pro efektivní sběr, agregaci a přesun velkého množství dat protokolu z mnoha různých zdrojů do centralizovaného zdroje dat.

Amit:

Databáze SQL vs NO-SQL
Databáze NoSQL jsou databáze nové generace a většinou se zabývají některými body

  • nerelační
  • distribuováno
  • open-source
  • horizontálně škálovatelné

Často platí více charakteristik, jako je schématická podpora, snadná replikace, jednoduché API, případně konzistentní / ZÁKLAD (ne ACID), obrovské množství dat a další. Například několik z diferenciace je:

  • NoSQL databáze se horizontálně zvětšují a přidávají více serverů, aby zvládly větší zatížení. Na druhou stranu databáze SQL se obvykle vertikálně zvětšují a přidávají další a další zdroje na jeden server, jak se zvyšuje provoz.
  • Databáze SQL vyžadují, abyste před přidáním jakýchkoli informací a dat definovali svá schémata, ale databáze NoSQL jsou bez schémat, nevyžadují předem definici schématu.
  • Databáze SQL jsou tabulky založené na řádcích a sloupcích podle zásad RDBMS, zatímco databáze NoSQL jsou obchody dokumentů, párů klíč – hodnota, grafů nebo širokých sloupců.
  • Databáze SQL používají pro definování a manipulaci s daty SQL (strukturovaný dotazovací jazyk). V databázi NoSQL se dotazy liší od jedné databáze k druhé.

Populární databáze SQL: MySQL, Oracle, Postgres a MS-SQL
Oblíbený NoSQL databáze: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j a CouchDB

Podívejte se na naše blogy na Hadoop a NoSQL databáze a výhody jedné takové databáze:

Koteswararao:

Má Hadoop zabudovanou technologii clusteru?
Cluster Hadoop používá architekturu Master-Slave. Skládá se z jednoho hlavního uzlu (NameNode) a klastru otroků (DataNodes) pro ukládání a zpracování dat. Hadoop je navržen tak, aby fungoval na velkém počtu počítačů, které nesdílejí žádnou paměť ani disky. Tyto DataNodes jsou konfigurovány jako Cluster pomocí . Hadoop používá koncept replikace, aby zajistil, že v clusteru je po celou dobu k dispozici alespoň jedna kopie dat. Protože existuje více kopií dat, lze data uložená na serveru, který přejde do režimu offline nebo zemře, automaticky replikovat ze známé dobré kopie.

Dinesh:

Co je to práce v Hadoopu? Co všeho lze dosáhnout pomocí Job?
V Hadoopu je Job program MapReduce pro zpracování / analýzu dat. Termín MapReduce ve skutečnosti označuje dva samostatné a odlišné úkoly, které programy Hadoop provádějí. První je úkol Map, který vezme sadu dat a převede ji na jinou sadu mezilehlých dat, kde jsou jednotlivé prvky rozděleny do párů klíč – hodnota. Druhá část úlohy MapReduce, úloha Reduce, přebírá výstup z mapy jako vstup a kombinuje páry klíč – hodnota do menší sady agregovaného páru klíč – hodnota. Jak naznačuje posloupnost názvu MapReduce, úloha Reduce se vždy provede po dokončení úloh Map. Přečtěte si více o MapReduce Job .

Sukruth:

Co je zvláštního na NameNode ?
NameNode je srdcem souborového systému HDFS. Zachovává metadata, jako je adresářový strom všech souborů v systému souborů, a sleduje, kde jsou v klastru uchovávána data souborů. Skutečná data jsou uložena na DataNodes jako bloky HDFS.
Klientské aplikace mluví s NameNode kdykoli chtějí vyhledat soubor nebo kdykoli chtějí přidat / kopírovat / přesunout / odstranit soubor. NameNode odpovídá na úspěšné požadavky vrácením seznamu relevantních serverů DataNodes, kde data žijí. Přečtěte si více o architektuře HDFS .

Dinesh:

Kdy byl Hadoop 2.0 uveden na trh?
Apache Software Foundation (ASF), skupina open source, která spravuje vývoj Hadoop Development, oznámila ve svém blogu 15. října 2013, že Hadoop 2.0 je nyní obecně dostupný (GA). Toto oznámení znamená, že po dlouhém čekání jsou Apache Hadoop 2.0 a YARN nyní připraveny k nasazení do produkce. Více na Blog.

Dinesh:

Jakých je několik příkladů aplikace Big Data bez aplikace MapReduce?
MapReduce je skvělé pro mnoho aplikací pro řešení problémů s velkými daty, ale ne pro všechno ostatní programovací modely lépe slouží požadavkům, jako je zpracování grafů (např. Google Pregel / Apache Giraph) a iterativní modelování s rozhraním Message Passing Interface (MPI).

Marish:

Jak jsou data uspořádána a indexována v HDFS?
Data jsou rozdělena do bloků 64 MB (konfigurovatelných parametrem) a jsou uložena v HDFS. NameNode ukládá informace o ukládání těchto bloků jako ID bloku do své RAM (NameNode Metadata). Úlohy MapReduce mohou přistupovat k těmto blokům pomocí metadat uložených v paměti NameNode RAM.

Shashwat:

Můžeme použít MapReduce (MRv1) i MRv2 (s YARN) na stejném klastru?
Hadoop 2.0 představil nový framework YARN pro psaní a spouštění různých aplikací na Hadoop. YARN a MapReduce jsou tedy v Hadoop 2.0 dva různé koncepty a neměly by se kombinovat a používat zaměnitelně. Správná otázka je 'Je možné provozovat MRv1 i MRv2 na clusteru Hadoop 2.0 s aktivovanou YARN?' Odpověď na tuto otázku je a 'Ne' protože i když lze Hadoop Cluster nakonfigurovat tak, aby spouštěl jak MRv1, tak MRv2, ale může kdykoli spustit pouze jednu sadu démonů. Oba tyto rámce nakonec používají stejné konfigurační soubory ( yarn-site.xml a mapred-site.xml ) ke spuštění démonů lze tedy na clusteru Hadoop povolit pouze jednu ze dvou konfigurací.

Panenka:

Jaký je rozdíl mezi MapReduce nové generace (MRv2) a YARN?
YARN a Next Generation MapReduce (MRv2) jsou dva různé koncepty a technologie v Hadoop 2.0. YARN je softwarový rámec, který lze použít ke spouštění nejen MRv2, ale i dalších aplikací. MRv2 je aplikační framework napsaný pomocí YARN API a běží v rámci YARN.

Bharat:

Poskytuje Hadoop 2.0 zpětnou kompatibilitu pro aplikace Hadoop 1.x?
Neha:

Vyžaduje migrace Hadoop 1.0 na 2.0 těžký aplikační kód migrace?
Ne, většina aplikací vyvinutých pomocí API „org.apache.hadoop.mapred“ může běžet na YARN bez jakékoli rekompilace. YARN je binárně kompatibilní s aplikacemi MRv1 a pro odesílání těchto aplikací na YARN lze použít „bin / hadoop“. Přečtěte si o tom více tady .

Sherin:

Co se stane, když uzel Resource Manageru selže v Hadoop 2.0?
Počínaje verzí Hadoop 2.4.0 je k dispozici také podpora vysoké dostupnosti pro Resource Manager. ResourceManager používá Apache ZooKeeper pro převzetí služeb při selhání. Když se uzel Resource Manageru nezdaří, může se sekundární uzel rychle obnovit prostřednictvím stavu clusteru uloženého v ZooKeeper. ResourceManager při převzetí služeb při selhání restartuje všechny spuštěné aplikace ve frontě.

Sabbirali:

Funguje rámec Apache Hadoop na Cloudera Hadoop?
Apache Hadoop byl představen v roce 2005 s jádrem procesoru MapReduce, který podporuje distribuované zpracování rozsáhlých datových úloh uložených v HDFS. Jedná se o projekt s otevřeným zdrojovým kódem a má několik distribucí (podobně jako Linux). Cloudera Hadoop (CDH) je jednou z takových distribucí od společnosti Cloudera. Další podobné distribuce jsou HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights atd.

Arulvadivel:

Nějaký snadný způsob, jak nainstalovat Hadoop na můj notebook a zkusit migraci databáze Oracle na Hadoop?
Můžeš Start s Sandbox HortonWorks nebo Cloudera Quick VM na vašem notebooku (s minimálně 4 GB RAM a procesorem i3 nebo novějším). Jak je vysvětleno, použijte SQOOP k přesunu dat z Oracle do Hadoopu tady .

Bhabani:

Jaké jsou nejlepší knihy k učení Hadoop?
Začít s Hadoop: Definitivní průvodce Tom White a Hadoop operace Eric Sammer.

co je abstrakce v C ++

Mahendra:

Je pro Hadoop 2.0 k dispozici nějaké čtení, stejně jako definitivní průvodce Hadoop?
Zkontrolujte poslední příjezd na regálech napsaných několika tvůrci Hadoop 2.0.

Zůstaňte naladěni na další otázky v této sérii.