Relační databáze po dlouhou dobu stačily ke zpracování malých nebo středních datových sad. Ale díky kolosální rychlosti růstu dat je tradiční přístup k ukládání a vyhledávání dat neproveditelný. Tento problém řeší novější technologie, které zvládnou Big Data. Hadoop, Hive a Hbase jsou populární platformy pro provozování tohoto druhu velkých datových sad. NoSQL nebo nejen databáze SQL, jako je MongoDB, poskytují mechanismus pro ukládání a načítání dat v modelu konzistence poraženého s výhodami jako:
- Horizontální změna měřítka
- Vyšší dostupnost
- Rychlejší přístup
Inženýrský tým MongoDB nedávno aktualizoval konektor MongoDB pro Hadoop, aby měl lepší integraci. To uživatelům Hadoopu usnadňuje:
- Integrujte data z MongoDB v reálném čase do Hadoop pro hlubokou offline analýzu.
- Konektor odhaluje analytickou sílu Hadoop's MapReduce k živým datům aplikací z MongoDB, čímž zvyšuje hodnotu z velkých dat rychleji a efektivněji.
- Konektor představuje MongoDB jako souborový systém kompatibilní s Hadoop, který umožňuje úloze MapReduce číst přímo z MongoDB, aniž byste jej nejprve zkopírovali na HDFS (Hadoop file System), čímž odpadá potřeba přesouvat terabajty dat po síti.
- Úlohy MapReduce mohou předávat dotazy jako filtry, takže se nemusíte vyhnout skenování celých sbírek, a můžete také využít bohaté možnosti indexování MongoDB, včetně geoprostorového, textového vyhledávání, pole, složených a řídkých indexů.
- Při čtení z MongoDB lze výsledky úloh Hadoop také zapsat zpět do MongoDB, aby se podpořily provozní procesy v reálném čase a ad-hoc dotazování.
Případy použití Hadoop a MongoDB:
Podívejme se na podrobný popis toho, jak mohou MongoDB a Hadoop zapadnout do sebe v typickém zásobníku Big Data. Primárně máme:
Výukový program pro sql a pl sql
- MongoDB použit jako „Provozní“ úložiště dat v reálném čase
- Hadoop pro offline dávkové zpracování a analýza dat
Přečtěte si, abyste věděli proč a jak MongoDB využívali společnosti a organizace jako Aadhar, Shutterfly, Metlife a eBay .
Aplikace MongoDB s Hadoop v dávkové agregaci:
Ve většině scénářů je pro analýzu dat postačující integrovaná agregační funkce poskytovaná MongoDB. V určitých případech však může být nutná podstatně složitější agregace dat. To je místo, kde může Hadoop poskytnout silný rámec pro komplexní analýzu.
V tomto scénáři:
- Data jsou stažena z MongoDB a zpracována v rámci Hadoop prostřednictvím jedné nebo více úloh MapReduce. Data mohou být také získávána z jiných míst v rámci těchto úloh MapReduce k vývoji řešení s více zdroji dat.
- Výstup z těchto úloh MapReduce lze poté zapsat zpět do MongoDB pro dotazování v pozdější fázi a pro jakoukoli analýzu na základě ad-hoc.
- Aplikace postavené na platformě MongoDB proto mohou použít informace z dávkové analýzy k prezentaci koncovému klientovi nebo k povolení dalších následných funkcí.
Aplikace v datovém skladu:
V typickém produkčním nastavení mohou data aplikace být umístěna ve více úložištích dat, každé s vlastním dotazovacím jazykem a funkcemi. Aby se snížila složitost v těchto scénářích, lze Hadoop použít jako datový sklad a fungovat jako centralizované úložiště pro data z různých zdrojů.
V tomto druhu scénáře:
- Periodické úlohy MapReduce načítají data z MongoDB do Hadoop.
- Jakmile jsou data z MongoDB a dalších zdrojů k dispozici v Hadoopu, je možné dotazovat větší datovou sadu.
- Analytici dat mají nyní možnost použít MapReduce nebo Pig k vytvoření úloh, které se dotazují na větší datové sady, které obsahují data z MongoDB.
převést dvojitý na int
Tým pracující za MongoDB zajistil, že díky své bohaté integraci s technologiemi Big Data, jako je Hadoop, je schopen se dobře integrovat do Big Data Stack a pomoci vyřešit některé složité architektonické problémy, pokud jde o ukládání, vyhledávání, zpracování, agregaci a skladování dat . Zůstaňte naladěni na náš nadcházející příspěvek o kariérních vyhlídkách pro ty, kteří se do Hadoopu dostanou u MongoDB. Pokud již pracujete s Hadoopem nebo jen vyzvedáváte MongoDB, podívejte se na kurzy, které pro MongoDB nabízíme