Hadoop je rušivý programovací rámec založený na Javě, který podporuje zpracování velkých datových sad v prostředí distribuovaných výpočtů, zatímco R je programovací jazyk a softwarové prostředí pro statistické výpočty a grafiku. Jazyk R je široce používán mezi statistiky a těžaři dat pro vývoj statistického softwaru a provádění analýzy dat. V oblastech interaktivní analýzy dat, obecných statistik a prediktivního modelování si R získal obrovskou popularitu díky své schopnosti klasifikace, shlukování a hodnocení.
Hadoop a R se navzájem docela dobře doplňují, pokud jde o vizualizaci a analýzu velkých dat.
Používání R a Hadoop
Existují čtyři různé způsoby společného použití Hadoop a R:
jobtracker a tasktracker v hadoop
1. RHadoop
RHadoop je kolekce tří balíčků R: rmr, rhdfs a rhbase. Balíček rmr poskytuje funkci Hadoop MapReduce v R, rhdfs poskytuje správu souborů HDFS v R a rhbase poskytuje správu databáze HBase zevnitř R. Každý z těchto primárních balíčků lze použít k lepší analýze a správě dat rámce Hadoop.
2. ORCH
ORCH znamená Oracle R Connector pro Hadoop. Jedná se o kolekci balíčků R, které poskytují relevantní rozhraní pro práci s tabulkami Hive, výpočetní infrastrukturou Apache Hadoop, místním prostředím R a databázovými tabulkami Oracle. ORCH navíc poskytuje prediktivní analytické techniky, které lze použít na data v souborech HDFS.
3. RHIPE
RHIPE je balíček R, který poskytuje API pro použití Hadoop. RHIPE znamená R a Hadoop Integrated Programming Environment a je v podstatě RHadoop s jiným API.
Čtyři. Streamování Hadoop
Hadoop Streaming je nástroj, který umožňuje uživatelům vytvářet a spouštět úlohy s libovolnými spustitelnými soubory, jako jsou mapovač a / nebo redukce. Pomocí streamovacího systému lze vyvíjet pracovní úlohy Hadoop s dostatečnou znalostí jazyka Java, aby bylo možné psát dva shell skripty, které fungují v tandemu.
Kombinace R a Hadoop se ukazuje jako nezbytná sada nástrojů pro lidi pracující se statistikami a velkými datovými sadami. Někteří nadšenci Hadoopu však při jednání s extrémně velkými fragmenty velkých dat zvedli červenou vlajku. Tvrdí, že výhodou R není jeho syntaxe, ale vyčerpávající knihovna primitiv pro vizualizaci a statistiku. Tyto knihovny jsou v zásadě nedistribuované, takže načítání dat je časově náročná záležitost. Toto je inherentní chyba R, a pokud se rozhodnete ji přehlédnout, R a Hadoop v tandemu mohou stále dělat zázraky.
jak nakonfigurovat zatmění pro javu
Podívejme se nyní na ukázku:
Máte na nás dotaz? Uveďte je prosím v sekci komentáře a my se vám ozveme.
Související příspěvky:
jmenný prostor v C ++