Apache Spark s Hadoop - proč na tom záleží?

Implementace Apache Spark s Hadoop ve velkém měřítku špičkovými společnostmi naznačuje jeho úspěch a jeho potenciál, pokud jde o zpracování v reálném čase.

Hadoop, rámec pro zpracování dat, který se stal platformou sám pro sebe, se stává ještě lepší, když jsou k němu připojeny dobré komponenty. Některé nedostatky Hadoopu, jako je komponenta MapReduce v Hadoopu, mají pověst pomalé analýzy dat v reálném čase.





Zadejte Apache Spark, stroj na zpracování dat založený na Hadoopu, který je určen pro dávkové i streamované pracovní vytížení, nyní ve verzi 1.0 a vybavený funkcemi, které dokládají, jaké druhy práce má Hadoop tlačit. Spark běží nad existujícími klastry Hadoop a poskytuje vylepšené a další funkce.

Podívejme se na klíčové funkce jiskry a na to, jak to funguje společně s Hadoop a .



Klíčové výhody Apache Spark:

img2-R

Spark's Awesome Features:

  • Integrace Hadoop - Spark může pracovat se soubory uloženými v HDFS.
  • Spark's Interactive Shell - Spark je napsán ve Scale a má vlastní verzi tlumočníka Scala.
  • Spark's Analytic Suite - Spark přichází s nástroji pro interaktivní analýzu dotazů, rozsáhlé zpracování a analýzu grafů a analýzu v reálném čase.
  • Pružné distribuované datové sady (RDD) - RDD jsou distribuované objekty, které lze ukládat do mezipaměti v rámci clusteru výpočetních uzlů. Jsou to primární datové objekty používané ve Sparku.
  • Distribuovaní operátoři - Kromě MapReduce existuje mnoho dalších operátorů, které lze na RDD použít.

Výhody používání Apache Spark s Hadoop:

hluboké učení vs strojové učení vs rozpoznávání vzorů
  • Apache Spark zapadá do open-source komunity Hadoop, navazuje na Hadoop Distributed File System (HDFS). Spark však není svázán s dvoustupňovým paradigmatem MapReduce a slibuje výkon až 100krát rychlejší než Hadoop MapReduce pro určité aplikace.



  • Dobře se hodí pro algoritmy strojového učení - Spark poskytuje primitiva pro výpočet clusteru v paměti, který umožňuje uživatelským programům načítat data do paměti clusteru a opakovaně je dotazovat.

  • Běh stokrát rychleji - Spark, analytický software může také urychlit úlohy, které běží na platformě pro zpracování dat Hadoop. Apache Spark, nazvaný „švýcarský armádní nůž Hadoop“, umožňuje vytvářet úlohy analýzy dat, které mohou běžet stokrát rychleji než ty, které běží na standardním Apache Hadoop MapReduce. MapReduce byl široce kritizován jako úzké místo v klastrech Hadoop, protože provádí úlohy v dávkovém režimu, což znamená, že analýza dat v reálném čase není možná.

  • Alternativa k MapReduce - Spark poskytuje alternativu k MapReduce. Vykonává úlohy v krátkých dávkách mikro dávek, které jsou od sebe vzdáleny pět sekund nebo méně. Poskytuje také větší stabilitu než rámce Hadoop v reálném čase, streamované, jako je Twitter Storm. Tento software lze použít pro různé úlohy, jako je průběžná analýza živých dat a díky softwarové knihovně více výpočetně hloubkových úloh zahrnujících strojové učení a zpracování grafů.

  • Podpora více jazyků - Pomocí nástroje Spark mohou vývojáři psát úlohy analýzy dat v prostředí Java, Scala nebo Python pomocí sady více než 80 operátorů na vysoké úrovni.

  • Podpora knihoven - Knihovny Spark jsou navrženy tak, aby doplňovaly agresivněji zkoumané typy zpracovatelských úloh s nejnovějšími komerčně podporovanými implementacemi Hadoop. MLlib implementuje spoustu běžných algoritmů strojového učení, jako je naivní Bayesiánská klasifikace nebo shlukování Spark Streaming umožňuje vysokorychlostní zpracování dat přijímaných z více zdrojů a GraphX ​​umožňuje výpočty na datech grafu.

  • Stabilní API - S verzí 1.0 nabízí Apache Spark stabilní API (aplikační programovací rozhraní), které mohou vývojáři použít k interakci se Sparkem prostřednictvím svých vlastních aplikací. To pomáhá snadněji používat Storm v nasazení založeném na Hadoop.

    co je virtuální funkce java
  • Součást SPARK SQL - Spark SQL komponenta pro přístup ke strukturovaným datům, umožňuje analyzovat data vedle nestrukturovaných dat. Spark SQL, který je v tuto chvíli pouze v alfa verzi, umožňuje spouštět dotazy podobné SQL s daty uloženými v Apache Hive. Extrakce dat z Hadoopu pomocí dotazů SQL je další variantou funkce dotazování v reálném čase, která se objevuje kolem Hadoopu.

  • Kompatibilita Apache Spark s Hadoop [HDFS, HBASE a YARN] - Apache Spark je plně kompatibilní s distribuovaným souborovým systémem (HDFS) společnosti Hadoop, stejně jako s dalšími komponentami Hadoop, jako je YARN (Yet Another Resource Negotiator) a distribuovanou databází HBase.

Průmysloví osvojitelé:

Společnosti IT, jako jsou Cloudera, Pivotal, IBM, Intel a MapR, všechny složily Spark do svých zásobníků Hadoop. Databricks, společnost založená některými vývojáři Sparku, nabízí komerční podporu softwaru. Software Yahoo a NASA mimo jiné používají pro každodenní datové operace.

Závěr:

To, co Spark nabízí, bude velkým lákadlem jak pro uživatele, tak pro komerční prodejce Hadoop. Uživatelé, kteří chtějí implementovat Hadoop a kteří již vybudovali mnoho svých analytických systémů kolem Hadoopu, jsou přitahováni myšlenkou, že mohou používat Hadoop jako systém zpracování v reálném čase.

Spark 1.0 jim poskytuje další paletu funkcí pro podporu nebo vytváření vlastních položek. Jeden ze tří největších prodejců Hadoop, Cloudera, již ve skutečnosti poskytuje komerční podporu Sparku prostřednictvím své nabídky Cloudera Enterprise. Hortonworks také nabízí Spark jako součást své distribuce Hadoop. Implementace Sparku ve velkém měřítku špičkovými společnostmi naznačuje jeho úspěch a jeho potenciál, pokud jde o zpracování v reálném čase.

Máte na nás dotaz? Uveďte je v sekci komentáře a my se vám ozveme.

Související příspěvky:

rozdíly mezi html a xml