Apache Flink je open source platforma pro distribuovaný stream a dávkové zpracování dat. Může běžet na Windows, Mac OS a Linux OS. V tomto příspěvku na blogu pojďme diskutovat o tom, jak lokálně nastavit Flink cluster. Je to Spark v mnoha ohledech podobný - má API pro zpracování grafů a strojového učení jako Apache Spark - ale Apache Flink a Apache Spark nejsou úplně stejné.
Chcete-li nastavit klastr Flink, musíte mít ve svém systému nainstalovanou verzi Java 7.x nebo vyšší. Jelikož mám Hadoop-2.2.0 nainstalovaný na konci na CentOS (Linux), stáhl jsem si balíček Flink, který je kompatibilní s Hadoop 2.x. Spuštěním následujícího příkazu stáhněte balíček Flink.
Příkaz: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Rozbalte soubor a získejte adresář flink.
Příkaz: tar -xvf Soubory ke stažení / flink-1.0.0-bin-hadoop2-scala_2.10.tgz
Příkaz: je
Přidejte proměnné prostředí Flink do souboru .bashrc.
Příkaz: sudo gedit .bashrc
Musíte spustit následující příkaz, aby se aktivovaly změny v souboru .bashrc
Příkaz: zdroj .bashrc
Nyní přejděte do adresáře flink a spusťte klastr lokálně.
Příkaz: cd statný-1.0.0
Příkaz: bin / start-local.sh
Po spuštění klastru uvidíte spuštěného nového démona JobManager.
Příkaz: jps
Otevřete prohlížeč a přejděte na http: // localhost: 8081, abyste viděli webové uživatelské rozhraní Apache Flink.
Spustíme jednoduchý příklad počtu slov pomocí Apache Flink.
Před spuštěním příkladu nainstalujte do systému netcat (sudo yum install nc).
Nyní v novém terminálu spusťte níže uvedený příkaz.
Příkaz: nc -lk 9000
Spusťte níže uvedený příkaz na terminálu blikání. Tento příkaz spustí program, který vezme streamovaná data jako vstup a provede operaci počtu slov na těchto streamovaných datech.
Příkaz: příklady spouštění bin / flink / streamování / SocketTextStreamWordCount.jar –hostitel localhost –port 9000
nastavit java classpath windows 7
Ve webovém uživatelském rozhraní uvidíte úlohu v běžícím stavu.
Spustit pod příkazem v novém terminálu, toto vytiskne data streamovaná a zpracovaná.
Příkaz: tail -f log / flink - * - jobmanager - *. out
Nyní přejděte do terminálu, kde jste spustili netcat, a něco napište.
V okamžiku, kdy stisknete tlačítko Enter na svém klíčovém slovu poté, co jste zadali některá data na terminálu netcat, bude na tato data použita operace wordcount a výstup bude vytištěn zde (flink's jobmanager log) během milisekund!
Ve velmi krátkém čase budou data streamována, zpracována a vytištěna.
O Apache Flink se toho můžete naučit mnohem víc. Dotkneme se dalších témat Flink v našem připravovaném blogu.
Máte na nás dotaz? Uveďte je v sekci komentářů a my se vám ozveme.
Související příspěvky:
Apache Falcon: Nová platforma pro správu dat pro ekosystém Hadoop