4 způsoby, jak používat R a Hadoop společně



R a Hadoop se navzájem docela dobře doplňují, pokud jde o vizualizaci a analýzu velkých dat. Tento příspěvek na blogu hovoří o 4 způsobech, jak je používat společně.

Hadoop je rušivý programovací rámec založený na Javě, který podporuje zpracování velkých datových sad v prostředí distribuovaných výpočtů, zatímco R je programovací jazyk a softwarové prostředí pro statistické výpočty a grafiku. Jazyk R je široce používán mezi statistiky a těžaři dat pro vývoj statistického softwaru a provádění analýzy dat. V oblastech interaktivní analýzy dat, obecných statistik a prediktivního modelování si R získal obrovskou popularitu díky své schopnosti klasifikace, shlukování a hodnocení.

KM





Hadoop a R se navzájem docela dobře doplňují, pokud jde o vizualizaci a analýzu velkých dat.

Používání R a Hadoop

Existují čtyři různé způsoby společného použití Hadoop a R:



jobtracker a tasktracker v hadoop

1. RHadoop

RHadoop je kolekce tří balíčků R: rmr, rhdfs a rhbase. Balíček rmr poskytuje funkci Hadoop MapReduce v R, rhdfs poskytuje správu souborů HDFS v R a rhbase poskytuje správu databáze HBase zevnitř R. Každý z těchto primárních balíčků lze použít k lepší analýze a správě dat rámce Hadoop.

2. ORCH



ORCH znamená Oracle R Connector pro Hadoop. Jedná se o kolekci balíčků R, které poskytují relevantní rozhraní pro práci s tabulkami Hive, výpočetní infrastrukturou Apache Hadoop, místním prostředím R a databázovými tabulkami Oracle. ORCH navíc poskytuje prediktivní analytické techniky, které lze použít na data v souborech HDFS.

3. RHIPE

RHIPE je balíček R, který poskytuje API pro použití Hadoop. RHIPE znamená R a Hadoop Integrated Programming Environment a je v podstatě RHadoop s jiným API.

Čtyři. Streamování Hadoop

Hadoop Streaming je nástroj, který umožňuje uživatelům vytvářet a spouštět úlohy s libovolnými spustitelnými soubory, jako jsou mapovač a / nebo redukce. Pomocí streamovacího systému lze vyvíjet pracovní úlohy Hadoop s dostatečnou znalostí jazyka Java, aby bylo možné psát dva shell skripty, které fungují v tandemu.

Kombinace R a Hadoop se ukazuje jako nezbytná sada nástrojů pro lidi pracující se statistikami a velkými datovými sadami. Někteří nadšenci Hadoopu však při jednání s extrémně velkými fragmenty velkých dat zvedli červenou vlajku. Tvrdí, že výhodou R není jeho syntaxe, ale vyčerpávající knihovna primitiv pro vizualizaci a statistiku. Tyto knihovny jsou v zásadě nedistribuované, takže načítání dat je časově náročná záležitost. Toto je inherentní chyba R, a pokud se rozhodnete ji přehlédnout, R a Hadoop v tandemu mohou stále dělat zázraky.

jak nakonfigurovat zatmění pro javu

Podívejme se nyní na ukázku:

Máte na nás dotaz? Uveďte je prosím v sekci komentáře a my se vám ozveme.

Související příspěvky:

jmenný prostor v C ++