Apache Flink: Rámec pro analýzu velkých dat nové generace pro streamované a dávkové zpracování dat



V tomto blogu se dozvíte vše o Apache Flink a nastavení klastru Flink. Flink podporuje v reálném čase a dávkové zpracování a je technologií Big Data, kterou musíte pro Big Data Analytics sledovat.

Apache Flink je open source platforma pro distribuovaný stream a dávkové zpracování dat. Může běžet na Windows, Mac OS a Linux OS. V tomto příspěvku na blogu pojďme diskutovat o tom, jak lokálně nastavit Flink cluster. Je to Spark v mnoha ohledech podobný - má API pro zpracování grafů a strojového učení jako Apache Spark - ale Apache Flink a Apache Spark nejsou úplně stejné.





Chcete-li nastavit klastr Flink, musíte mít ve svém systému nainstalovanou verzi Java 7.x nebo vyšší. Jelikož mám Hadoop-2.2.0 nainstalovaný na konci na CentOS (Linux), stáhl jsem si balíček Flink, který je kompatibilní s Hadoop 2.x. Spuštěním následujícího příkazu stáhněte balíček Flink.

Příkaz: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

Rozbalte soubor a získejte adresář flink.

Příkaz: tar -xvf Soubory ke stažení / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Příkaz: je

Přidejte proměnné prostředí Flink do souboru .bashrc.

Příkaz: sudo gedit .bashrc

Musíte spustit následující příkaz, aby se aktivovaly změny v souboru .bashrc

Příkaz: zdroj .bashrc

Nyní přejděte do adresáře flink a spusťte klastr lokálně.

Příkaz: cd statný-1.0.0

Příkaz: bin / start-local.sh

Po spuštění klastru uvidíte spuštěného nového démona JobManager.

Příkaz: jps

Otevřete prohlížeč a přejděte na http: // localhost: 8081, abyste viděli webové uživatelské rozhraní Apache Flink.

Spustíme jednoduchý příklad počtu slov pomocí Apache Flink.

Před spuštěním příkladu nainstalujte do systému netcat (sudo yum install nc).

Nyní v novém terminálu spusťte níže uvedený příkaz.

Příkaz: nc -lk 9000

Spusťte níže uvedený příkaz na terminálu blikání. Tento příkaz spustí program, který vezme streamovaná data jako vstup a provede operaci počtu slov na těchto streamovaných datech.

Příkaz: příklady spouštění bin / flink / streamování / SocketTextStreamWordCount.jar –hostitel localhost –port 9000

nastavit java classpath windows 7

Ve webovém uživatelském rozhraní uvidíte úlohu v běžícím stavu.

Spustit pod příkazem v novém terminálu, toto vytiskne data streamovaná a zpracovaná.

Příkaz: tail -f log / flink - * - jobmanager - *. out

Nyní přejděte do terminálu, kde jste spustili netcat, a něco napište.

V okamžiku, kdy stisknete tlačítko Enter na svém klíčovém slovu poté, co jste zadali některá data na terminálu netcat, bude na tato data použita operace wordcount a výstup bude vytištěn zde (flink's jobmanager log) během milisekund!

Ve velmi krátkém čase budou data streamována, zpracována a vytištěna.

O Apache Flink se toho můžete naučit mnohem víc. Dotkneme se dalších témat Flink v našem připravovaném blogu.

Máte na nás dotaz? Uveďte je v sekci komentářů a my se vám ozveme.

Související příspěvky:

Apache Falcon: Nová platforma pro správu dat pro ekosystém Hadoop