Dnes je nejpopulárnějším výrazem ve světě IT „Hadoop“. Během krátké doby Hadoop se masivně rozrostla a osvědčila se pro velkou sbírku rozmanitých projektů. Komunita Hadoop se rychle vyvíjí a ve svém ekosystému hraje významnou roli.
Zde je pohled na základní nástroje Hadoop, které se používají ke zpracování velkých dat.
jednoduchá implementace hashmap v Javě
Ambari je projekt Apache podporovaný Hortonworks. Nabízí webové grafické uživatelské rozhraní (Graphical User Interface) se skripty průvodce pro nastavení klastrů s většinou standardních komponent. Ambari zajišťuje, spravuje a sleduje všechny klastry úloh Hadoop.
The HDFS , distribuovaný pod licencí Apache nabízí základní rámec pro rozdělení sběru dat mezi více uzlů. V HDFS jsou velké soubory rozděleny do bloků, kde několik uzlů obsahuje všechny bloky ze souboru. Souborový systém je navržen tak, aby kombinoval odolnost proti chybám s vysokou propustností. Bloky HDFS se načítají, aby se udrželo stálé streamování. Obvykle se neukládají do mezipaměti, aby se minimalizovala latence.
HBase je sloupově orientovaný systém pro správu databází, který běží na HDFS. Aplikace HBase jsou psány v Javě, podobně jako aplikace MapReduce. Obsahuje sadu tabulek, kde každá tabulka obsahuje řádky a sloupce jako tradiční databáze. Když data spadnou do velké tabulky, HBase uloží data, prohledá je a automaticky sdílí tabulku napříč více uzly, aby ji mohly úlohy MapReduce spustit lokálně. HBase nabízí omezenou záruku na některé místní změny. Změny, ke kterým dojde v jednom řádku, mohou být úspěšné nebo neúspěšné současně.
Pokud již plynně ovládáte SQL, můžete využít Hadoop pomocí Úl . Úl byl vyvinut některými lidmi na Facebooku. Apache Hive reguluje proces extrakce bitů ze všech souborů v HBase. Podporuje analýzu velkých datových souborů uložených v HDFS společnosti Hadoop a kompatibilních souborových systémech. Poskytuje také jazyk podobný SQL s názvem HSQL (HiveSQL), který se dostane do souborů a extrahuje požadované fragmenty kódu.
Apache Sqoop je speciálně navržen pro efektivní přenos hromadných dat z tradičních databází do Hive nebo HBase. Lze jej také použít k extrakci dat z Hadoopu a exportu do externích strukturovaných datových skladů, jako jsou relační databáze a podnikové datové sklady. Sqoop je nástroj příkazového řádku, který mapuje mezi tabulkami a vrstvou pro ukládání dat a překládá tabulky do konfigurovatelné kombinace HDFS, HBase nebo Hive.
Když je uložená data viditelná pro Hadoop, Apache Pig ponoří se do dat a spustí kód, který je napsán ve vlastním jazyce zvaném Pig Latin. Pig Latin je plný abstrakcí pro zpracování dat. Prase přichází se standardními funkcemi pro běžné úkoly, jako je průměrování dat, práce s daty nebo hledání rozdílů mezi řetězci. Pig také umožňuje uživateli psát jazyky samostatně, nazývané UDF (User Defined Function), pokud standardní funkce nedosahují.
Zookeeper je centralizovaná služba, která udržuje, konfiguruje informace, dává název a zajišťuje distribuovanou synchronizaci napříč klastrem. Ukládá hierarchii podobnou souborovému systému v klastru a ukládá všechna metadata pro stroje, takže můžeme synchronizovat práci různých strojů.
NoSQL
Některé klastry Hadoop se integrují s NoSQL datová úložiště, která přicházejí s vlastními mechanismy pro ukládání dat v klastru uzlů. To jim umožňuje ukládat a načítat data se všemi funkcemi databáze NoSQL, poté lze Hadoop použít k plánování úloh analýzy dat ve stejném klastru.
Mahout je navržen tak, aby implementoval velké množství algoritmů, klasifikací a filtrování analýzy dat do clusteru Hadoop. Mnoho standardních algoritmů, jako jsou K-means, Dirichelet, paralelní vzor a Bayesovské klasifikace, je připraveno ke spuštění na datech pomocí mapy Hadoop ve stylu a zmenšení.
Lucene, napsaný v Javě a snadno integrovaný s Hadoopem, je přirozeným společníkem pro Hadoop. Jedná se o nástroj určený k indexování velkých bloků nestrukturovaného textu. Lucene zpracovává indexování, zatímco Hadoop zpracovává distribuované dotazy v klastru. Funkce Lucene-Hadoop se rychle vyvíjejí při vývoji nových projektů.
Euro je systém serializace, který sdružuje data společně se schématem pro jejich pochopení. Každý paket je dodáván s datovou strukturou JSON. JSON vysvětluje, jak lze data analyzovat. Záhlaví JSON určuje strukturu dat, kde je možné se vyhnout potřebě zapsat do dat další značky pro označení polí. Výstup je podstatně kompaktnější než tradiční formáty jako XML.
Úlohu lze zjednodušit rozdělením do kroků. Při rozdělení projektu na více úloh Hadoop, Oozie začne je zpracovávat ve správném pořadí. Spravuje pracovní postup podle specifikace DAG (Directed Acyclic Graph) a není třeba včasné sledování.
GIS nástroje
Práce s geografickými mapami je pro klastry se systémem Hadoop velkou prací. GIS ( Geografický informační systém ) nástroje pro projekty Hadoop upravily nejlepší nástroje založené na prostředí Java pro porozumění geografickým informacím, aby mohly běžet s Hadoop. Databáze nyní mohou zpracovávat geografické dotazy pomocí souřadnic a kódy mohou nasadit nástroje GIS.
Shromažďování všech dat se rovná jejich ukládání a analýze. Apache žlab odesílá „speciální agenty“ ke shromažďování informací, které budou uloženy v HDFS. Shromážděné informace mohou být soubory protokolu, rozhraní API služby Twitter nebo odkazy na webové stránky. Tyto údaje lze zřetězit a podrobit analýzám.
Jiskra je další generace, která do značné míry funguje jako Hadoop, který zpracovává data uložená v paměti. Jeho cílem je, aby analýza dat rychle běžela a psala s obecným modelem provádění. To může optimalizovat libovolné operátorské grafy a podporovat výpočet v paměti, což umožňuje rychlejší dotaz na data než na diskových strojích, jako je Hadoop.
SQL na Hadoopu
Když je nutné spustit rychlý ad-hoc dotaz na všechna data v klastru, lze napsat novou úlohu Hadoop, ale to nějakou dobu trvá. Když to programátoři začali dělat častěji, přišli s nástroji napsanými v jednoduchém jazyce SQL. Tyto nástroje nabízejí rychlý přístup k výsledkům.
Apache Drill
Apache Drill poskytuje ad-hoc dotazy s nízkou latencí na četné a rozmanité zdroje dat, včetně vnořených dat. Drill, inspirovaný společností Google Dremel, je navržen tak, aby bylo možné škálovat na 10 000 serverů a dotazovat petabajty dat během několika sekund.
Toto jsou základní nástroje Hadoop pro řešení velkých dat!
Máte na nás dotaz? Uveďte je prosím v sekci komentáře a my se vám ozveme.
Související příspěvky:
Praktické důvody, proč se učit Hadoop 2.0