Výukový program Apache Flume: Streamování dat z Twitteru



Tento výukový blog Apache Flume vysvětluje základy Apache Flume a jeho funkce. Také předvede streamování z Twitteru pomocí Apache Flume.

V tomto výukovém blogu Apache Flume pochopíme, jak Flume pomáhá při streamování dat z různých zdrojů. Ale předtím pochopme důležitost příjmu dat. Příjem dat je počátečním a důležitým krokem ke zpracování a analýze dat a následnému odvození obchodních hodnot. Existuje několik zdrojů, ze kterých se v organizaci shromažďují data.

Pojďme si promluvit o dalším důležitém důvodu, proč se Flume stal tak populárním. Doufám, že to znáte , který se v oboru ohromně používá, protože dokáže ukládat všechny druhy dat. Flume se může snadno integrovat s Hadoopem a ukládat nestrukturovaná i polostrukturovaná data na HDFS, což doplňuje sílu Hadoopu. Proto je Apache Flume důležitou součástí ekosystému Hadoop.





V tomto výukovém blogu Apache Flume se budeme věnovat:



Tento tutoriál Flume začneme diskutováním o tom, co je Apache Flume. Pak budeme postupovat kupředu a pochopíme výhody používání Flume.

Výukový program Apache Flume: Úvod do Apache Flume

Logo Apache Flume - Výukový program Apache Flume - EdurekaApache Flume je nástroj pro příjem dat v HDFS. Shromažďuje, agreguje a přenáší velké množství datových proudů, jako jsou soubory protokolu, události z různých zdrojů, jako je síťový provoz, sociální média, e-mailové zprávy atd., Na HDFS.Flume je vysoce spolehlivý a distribuovaný.

Hlavní myšlenkou designu Flume je zachytit streamovaná data z různých webových serverů na HDFS. Má jednoduchou a flexibilní architekturu založenou na streamování datových toků. Je odolný vůči chybám a poskytuje mechanismus spolehlivosti pro odolnost proti chybám a zotavení po selhání.



Po pochopení toho, co je Flume, pojďme nyní pokročit v tomto blogu Flume Tutorial a porozumět výhodám Apache Flume. Poté se podíváme na architekturu Flume a pokusíme se pochopit, jak funguje zásadně.

jak převést dvojité na celé číslo v javě

Výukový program Apache Flume: Výhody Apache Flume

Existuje několik výhod Apache Flume, díky nimž je lepší volbou oproti ostatním. Výhody jsou:

  • Žlab je škálovatelný, spolehlivý, odolný vůči chybám a přizpůsobitelný pro různé zdroje a propady.
  • Apache Flume může ukládat data do centralizovaných obchodů (tj. Data se dodávají z jednoho úložiště), jako jsou HBase a HDFS.
  • Žlab je horizontálně škálovatelný.
  • Pokud rychlost čtení překročí rychlost zápisu, Flume poskytuje stálý tok dat mezi operacemi čtení a zápisu.
  • Flume poskytuje spolehlivé doručování zpráv. Transakce ve Flume jsou založeny na kanálech, kde jsou pro každou zprávu udržovány dvě transakce (jeden odesílatel a jeden příjemce).
  • Pomocí Flume můžeme přijímat data z více serverů do Hadoop.
  • Poskytuje nám spolehlivé a distribuované řešení, které nám pomáhá shromažďovat, agregovat a přesouvat velké množství datových souborů, jako jsou Facebook, Twitter a webové stránky elektronického obchodování.
  • Pomáhá nám přijímat online streamovaná data z různých zdrojů, jako je síťový provoz, sociální média, e-mailové zprávy, soubory protokolu atd., V HDFS.
  • Podporuje velkou sadu typů zdrojů a cílů.

Architektura je ta, která umožňuje Apache Flume s těmito výhodami. Nyní, jak známe výhody Apache Flume, pojďme pokročit a porozumět architektuře Apache Flume.

Výukový program Apache Flume: Architektura žlabů

Nyní pochopíme architekturu Flume z níže uvedeného diagramu:

Existuje agent Flume, který získává streamovaná data z různých zdrojů dat do HDFS. Z diagramu můžete snadno pochopit, že webový server označuje zdroj dat. Twitter patří mezi jeden ze slavných zdrojů pro streamování dat.

Příchytka má 3 komponenty: zdroj, dřez a kanál.

    1. Zdroj : Přijímá data z příchozího zefektivnění a ukládá data do kanálu.
    2. Kanál : Obecně je rychlost čtení rychlejší než rychlost zápisu. Proto potřebujeme nějakou vyrovnávací paměť, která by odpovídala rozdílu rychlostí čtení a zápisu. Vyrovnávací paměť v zásadě funguje jako zprostředkující úložiště, které dočasně ukládá přenášená data, a proto zabraňuje jejich ztrátě. Podobně kanál funguje jako místní úložiště nebo dočasné úložiště mezi zdrojem dat a trvalými daty v HDFS.
    3. Dřez : Potom naše poslední součást, tj. Sink, shromažďuje data z kanálu a trvale je zavazuje nebo zapisuje do HDFS.

Nyní, když víme, jak Apache Flume funguje, pojďme se podívat na praktickou stránku, kde potopíme data z Twitteru a uložíme je do HDFS.

Výukový program Apache Flume: Streamování dat z Twitteru

V tomto praktickém budeme streamovat data z Twitteru pomocí Flume a poté ukládat data do HDFS, jak je znázorněno na následujícím obrázku.

Prvním krokem je vytvoření aplikace Twitter. Nejprve musíte jít na tuto adresu URL: https://apps.twitter.com/ a přihlaste se ke svému účtu Twitter. Přejděte k vytvoření karty aplikace, jak je znázorněno na následujícím obrázku.

Poté vytvořte aplikaci, jak je znázorněno na následujícím obrázku.

Po vytvoření této aplikace najdete token Key & Access. Zkopírujte klíč a přístupový token. Tyto tokeny předáme v našem konfiguračním souboru Flume, abychom se připojili k této aplikaci.

Nyní vytvořte soubor flume.conf v kořenovém adresáři flume, jak je znázorněno na následujícím obrázku. Jak jsme diskutovali, v architektuře Flume’s budeme konfigurovat náš zdroj, dřez a kanál. Náš zdroj je Twitter, odkud streamujeme data, a náš Sink je HDFS, kde data zapisujeme.

V konfiguraci zdroje předáváme typ zdroje Twitter jako org.apache.flume.source.twitter.TwitterSource. Poté předáváme všechny čtyři tokeny, které jsme obdrželi od Twitteru. Nakonec v konfiguraci zdroje předáváme klíčová slova, na která chceme načíst tweety.

V konfiguraci Sink budeme konfigurovat vlastnosti HDFS. Nastavíme cestu HDFS, formát zápisu, typ souboru, velikost dávky atd. Nakonec nastavíme paměťový kanál, jak je znázorněno na následujícím obrázku.

Nyní jsme všichni připraveni na provedení. Pojďme do toho a proveďme tento příkaz:

$ FLUME_HOME / bin / flume-ng agent --conf ./conf/ -f $ FLUME_HOME / flume.conf

Po provedení tohoto příkazu na chvíli a poté můžete terminál opustit pomocí kombinace kláves CTRL + C. Pak můžete pokračovat ve svém adresáři Hadoop a zkontrolovat uvedenou cestu, ať už je soubor vytvořen nebo ne.

html tabulka v tabulce

Stáhněte soubor a otevřete jej. Dostanete něco, jak je znázorněno na následujícím obrázku.

Doufám, že tento blog bude informativní a bude pro vás přidanou hodnotou. Pokud se chcete dozvědět více, můžete si projít toto který vám řekne o Big Data a o tom, jak Hadoop řeší výzvy spojené s Big Data.

Nyní, když jste pochopili Apache Flume, podívejte se na Edureka, důvěryhodná online vzdělávací společnost se sítí více než 250 000 spokojených studentů rozložených po celém světě. Kurz certifikace Edureka Big Data Hadoop Certification Training pomáhá studentům stát se odborníky na HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocí případů použití v reálném čase v oblasti maloobchodu, sociálních médií, letectví, cestovního ruchu, financí.

Máte na nás dotaz? Uveďte to prosím v sekci komentáře a my se vám ozveme.