VÝUKOVÝ PROGRAM PRO ÚLY PRO ZAČÁTEČNÍKY ARCHITEKTURA ÚLU PŘÍPADOVÁ STUDIE NASA

Výukový program Apache Hive: Úvod

Hive je důkladně používaný průmyslový nástroj pro analýzu velkých dat a skvělý nástroj pro začátek s. V tomto výukovém blogu Hive budeme podrobně diskutovat o Apache Hive. Apache Hive je nástroj pro skladování dat v , který poskytuje jazyk podobný SQL pro dotazování a analýzu velkých dat. Motivací vývoje Hive je cesta učení bez tření pro vývojáře a analytiky SQL. Úl není jen zachráncem pro lidi z neprogramovacího prostředí, ale také snižuje práci programátorů, kteří tráví dlouhé hodiny psaním programů MapReduce. V tomto blogu Apache Hive Tutorial budu hovořit o:

Co je Úl?
Story of Apache Hive - From Facebook to Apache
Výhody Apache Hive
Apache Hive - případová studie NASA
Architektura Apache Hive
Konfigurace úložiště Metastore
Datový model úlu

Výukový program Apache Hive: Co je to Hive?

Apache Hive je systém datového skladu postavený na Hadoopu a slouží k analýze strukturovaných a polostrukturovaných dat.Hive abstrahuje složitost Hadoop MapReduce. V zásadě poskytuje mechanismus k promítnutí struktury na data a provádění dotazů napsaných v HQL (Hive Query Language), které jsou podobné příkazům SQL. Interně se tyto dotazy nebo HQL převedou na úlohy zmenšení mapy pomocí kompilátoru Hive. Proto se nemusíte starat o psaní složitých programů MapReduce pro zpracování vašich dat pomocí Hadoop. Je zaměřen na uživatele, kterým vyhovuje SQL. Apache Hive podporuje Data Definition Language (DDL), Data Manipulation Language (DML) a User Defined Functions (UDF).

Výukový program pro úly pro začátečníky Porozumění úlu v hloubce | Edureka

SQL + Hadoop MapReduce = HiveQL

Výukový program Apache Hive: Story of Hive - od Facebooku po Apache

Případ použití Facebooku - Výukový program pro úly - Edureka Obr : Hive Tutorial - případ použití Facebooku

Výzvy na Facebooku: Exponenciální růst dat

Před rokem 2008 byla veškerá infrastruktura zpracování dat na Facebooku postavena na datovém skladu založeném na komerčním RDBMS. Tyto infrastruktury byly v té době dost schopné uspokojit potřeby Facebooku. Ale protože data začala růst velmi rychle, stala se obrovská výzva pro správu a zpracování této obrovské datové sady. Podle článku na Facebooku se data škálovala z datové sady 15 TB v roce 2007 na 2 PB v roce 2009. Mnoho produktů Facebook také zahrnuje analýzu dat, jako jsou Audience Insights, Facebook Lexicon, Facebook Ads atd. Abychom se s tímto problémem vyrovnali, potřebovali škálovatelné a ekonomické řešení, a proto začali používat rámec Hadoop.

Demokratizující Hadoop - MapReduce

Jak však data rostla, složitost kódů Map-Reduce rostla úměrně. Školení lidí s neprogramovacím zázemím pro psaní programů MapReduce se tedy stalo obtížným. Pro provedení jednoduché analýzy je také nutné napsat sto řádků kódu MapReduce. Vzhledem k tomu, že SQL byl široce používán inženýry a analytiky, včetně Facebooku, uvedení SQL na vrchol Hadoop se zdálo logickým způsobem, jak zpřístupnit Hadoop uživatelům s pozadím SQL.

Schopnost SQL postačovat pro většinu analytických požadavků a škálovatelnost Hadoop proto způsobila Apache Hive který umožňuje provádět dotazy typu SQL na data přítomná v HDFS. Později byl projekt Hive otevřen v srpnu 2008 společností Facebook a dnes je volně dostupný jako Apache Hive.

Podívejme se nyní na funkce nebo výhody Hive, díky nimž je tak populární.

Výukový program Apache Hive: Výhody úlu

Užitečné pro lidi, kteří nepocházejí z programovacího prostředí, protože to eliminuje potřebu psát složitý program MapReduce.
Rozšiřitelný a škálovatelné vyrovnat se s rostoucím objemem a rozmanitostí dat, aniž by to ovlivnilo výkon systému.
Je to jako efektivní nástroj ETL (Extract, Transform, Load).
Hive podporuje jakoukoli klientskou aplikaci napsanou v prostředí Java, PHP, Python, C ++ nebo Ruby tím, že odhalí její Thrift server . (Tyto jazyky na straně klienta integrované s SQL můžete použít pro přístup k databázi, jako je DB2 atd.).
Vzhledem k tomu, že informace o metadatech Hive jsou uloženy v RDBMS, výrazně to snižuje čas nutný k provádění sémantických kontrol během provádění dotazu.

Výukový program Apache Hive: Kde používat Apache Hive?

Apache Hive využívá výhod obou světů, tj. SQL Database System a rámec. Proto jej využívá obrovské množství společností. Většinou se používá pro datové sklady, kde můžete provádět analýzy a dolování dat, které nevyžadují zpracování v reálném čase. Některá pole, kde můžete použít Apache Hive, jsou následující:

Skladování dat
Ad-hoc analýza

Jak se říká, nemůžete tleskat pouze jednou rukou, tj. Nemůžete vyřešit každý problém pomocí jediného nástroje. Proto můžete Hive spárovat s dalšími nástroji a použít jej v mnoha dalších doménách. Například Tableau spolu s Apache Hive lze použít pro vizualizaci dat, integrace Apache Tez s Hive vám poskytne možnosti zpracování v reálném čase atd.
Pohybem vpřed v tomto blogu Apache Hive Tutorial se pojďme podívat na případovou studii NASA, kde se dozvíte, jak Hive vyřešil problém, kterému vědci NASA čelili při provádění hodnocení klimatických modelů.

Výukový program Úlu: Případová studie NASA

Klimatický model je matematické znázornění klimatických systémů založené na různých faktorech, které ovlivňují klima Země. V zásadě popisuje interakci různých hnacích sil podnebí, jako je oceán, slunce, atmosféra atd. Naposkytnout vhled do dynamiky klimatického systému. Používá se k projektování klimatických podmínek simulací klimatických změn na základě faktorů ovlivňujících klima. Laboratoř Jet Propulsion Laboratory NASA vyvinula Regionální systém hodnocení klimatického modelu (RCMES) pro analýzu a vyhodnocení modelu výstupu klimatu na základě dat dálkového průzkumu Země přítomných v různých externích úložištích.

RCMES (Regional Climate Model Evaluation System) má dvě složky:

RCMED (Regionální databáze hodnocení klimatických modelů):

Jedná se o škálovatelnou cloudovou databázi, která načítá data dálkového průzkumu Země a data reanalýzy související s klimatem pomocí extraktorů, jako jsou extraktory Apache OODT, Apache Tika atd. Nakonec transformuje data jako model datového bodu, který je ve formě (zeměpisná šířka , longitude, time, value, height) a uloží ji do databáze My SQL. Klient může načíst data přítomná v RCMED provedením dotazů časoprostoru. Popis takových dotazů pro nás nyní není relevantní.

jak používat anakondu python

RCMET (Regional Climate Model Evaluation Toolkit):

Poskytuje uživateli schopnost porovnávat referenční data přítomná v RCMED s výstupními daty klimatického modelu získanými z některých jiných zdrojů za účelem provádění různých druhů analýz a hodnocení. Chcete-li porozumět architektuře RCMES, můžete se podívat na obrázek níže.

Referenční data v RCMED pocházejí ze satelitního dálkového průzkumu Země podle různých parametrů požadovaných pro vyhodnocení klimatického modelu. Například - AIRS (Atmosférický infračervený sirén) poskytuje parametry, jako je teplota povrchového vzduchu, teplota a geopotenciál, TRMM (mise pro měření tropických srážek) poskytuje měsíční srážky atd.

Problémy, kterým čelí NASA při používání databázového systému MySQL:

Po načtení databáze MySQL do 6 miliard n-tic formuláře (zeměpisná šířka, délka, čas, hodnota datového bodu, výška) došlo k selhání systému, jak je znázorněno na obrázku výše.
I po rozdělení celé tabulky na menší podmnožiny systém generoval při zpracování dat obrovskou režii.

Potřebovali tedy škálovatelné řešení, které dokáže ukládat a zpracovávat toto obrovské množství dat pomocí funkce SQL, jako je dotazování. Nakonec se rozhodli použít Apache Hive k překonání výše uvedených problémů.

Jak může Apache Hive problém vyřešit?

Nyní se podívejme, jaké jsou ty funkce, které přesvědčily tým JPL NASA, aby zahrnoval Apache Hive jako nedílnou součást své strategie řešení:

Protože Apache Hive běží na Hadoopu, je škálovatelný a může zpracovávat data distribuovaným a paralelním způsobem.
Poskytuje Hive Query Language, který je podobný SQL, a proto se snadno učí.

Nasazení úlu:

Následující obrázek vysvětluje RCMES Architect s integrací Apache Hive:

Obr : Hive Tutorial - RCMES Architecture with Apache Hive

jaké jsou instance v Javě

Výše uvedený obrázek ukazuje nasazení podregistru Apache v RCMES. Při nasazování Apache Hive podnikl tým NASA následující kroky:

Nainstalovali Hive pomocí Cloudera a Apache Hadoop, jak je znázorněno na obrázku výše.
K příjmu dat do Hive z databáze MySQL použili Apache Sqoop.
Obálka Apache OODT byla implementována za účelem provádění dotazů na Hive a načtení dat zpět do RCMET.

Počáteční srovnávací pozorování s Hive:

Zpočátku načetli 2,5 miliardy datových bodů do jedné tabulky a provedli dotaz na počet. Například, Úl> vyberte count (datapoint_id) z dataPoint. Spočítat všechny rekordy trvalo 5-6 minut (15–17 minut pro celých 6,8 miliardy záznamů).
Fáze redukce byla rychlá, ale fáze mapy trvala 95% z celkového času zpracování. Používali šest ( 4x čtyřjádrový ) systémy s 24 GB RAM (přibližně) v každém ze systémů.
I po přidání dalších strojů, změně velikosti bloku HDFS (64 MB, 128 MB, 256 MB) a změně mnoha dalších konfiguračních proměnných (io.třídit.faktor, i.třídit.mb), nezískali velký úspěch ve zkrácení času na dokončení počítání.

Vstupy od členů komunity Hive:

Nakonec přišli na pomoc členové komunity Hive a poskytli různé pohledy na řešení problémů s jejich aktuálními implementacemi Hive:

Zmínili, že rychlost čtení HDFS je přibližně 60 MB / s ve srovnání s 1 GB / s v případě místního disku, v závislosti na kapacitě sítě a vytížení v NameNode.
Členové to navrhli 16 mapovačů bude v jejich současném systému vyžadováno, aby odpovídalo I / O výkonu místní úlohy jiné než Hadoop.
Navrhli také snížit rozdělená velikost pro každý mapovač zvýšit početzmapovače, a proto poskytuje více paralelismu.
Nakonec jim to členové komunity řekli počet použití (1) místo toho, aby odkazoval na počet ( datapoint_id) . Je to proto, že v případě count (1) neexistuje žádný referenční sloupec, a proto při provádění count nedochází k žádné dekompresi a deserializaci.

Nakonec NASA dokázala vyladit svůj klastr Úlu podle jejich očekávání zohledněním všech návrhů poskytnutých členy komunity Úlu. A proto mohli pomocí výše uvedených konfigurací systému dotazovat miliardy řádků za pouhých 15 sekund.

Výukový program Apache Hive: Architektura úlu a její komponenty

Následující obrázek popisuje architekturu Hive a tok, do kterého je odeslán dotazÚla nakonec zpracovány pomocí rámce MapReduce:

Obr : Hive Tutorial - Hive Architecture

Jak je znázorněno na obrázku výše, architekturu Hive lze kategorizovat do následujících komponent:

Klienti úlu: Hive podporuje aplikace napsané v mnoha jazycích, jako je Java, C ++, Python atd., Pomocí ovladačů JDBC, Thrift a ODBC. Proto je vždy možné napsat klientskou aplikaci podregistru napsanou v jazyce dle vlastního výběru.
Úlové služby: Apache Hive poskytuje různé služby, jako je CLI, webové rozhraní atd. K provádění dotazů. Každou z nich krátce prozkoumáme v tomto výukovém blogu Hive.
Rámec zpracování a správa zdrojů: Vnitřně,Úl používá rámec Hadoop MapReduce jako de facto motor k provádění dotazů. je samostatné téma samo o sobě, a proto zde není diskutováno.
Distribuované úložiště: Jelikož je Hive nainstalován na Hadoop, používá pro distribuované úložiště podkladový HDFS. Můžete se obrátit na Blog HDFS dozvědět se o tom více.

Pojďme prozkoumat první dvě hlavní součásti architektury Hive:

1. Klienti úlu:

Apache Hive podporuje různé typy klientských aplikací pro provádění dotazů v Hive. Tito klienti lze rozdělit do tří typů:

Thrift klienti: Jelikož server Hive je založen na Apache Thrift, může obsloužit požadavek ze všech programovacích jazyků, které Thrift podporují.
Klienti JDBC: Hive umožňuje aplikacím Java připojit se k němu pomocí ovladače JDBC, který je definován ve třídě org.apache.hadoop.úl.jdbc.HiveDriver.
Klienti ODBC: Ovladač Hive ODBC umožňuje připojení aplikací podporujících protokol ODBC k Hive. (Stejně jako ovladač JDBC používá ovladač ODBC ke komunikaci se serverem Hive Thrift.)

2. Úlové služby:

Úl poskytuje mnoho služeb, jak je znázorněno na obrázku výše. Podívejme se na každou z nich:

Hive CLI (rozhraní příkazového řádku): Toto je výchozí prostředí poskytované Hive, kde můžete přímo spouštět dotazy a příkazy Hive.
Webová rozhraní Apache Hive: Kromě rozhraní příkazového řádku poskytuje Hive také webové grafické uživatelské rozhraní pro provádění dotazů a příkazů Hive.
Server úlu: Server Hive je postaven na Apache Thrift, a proto se také označuje jako Thrift Server, který umožňuje různým klientům odesílat žádosti do Hive a načítat konečný výsledek.
Ovladač úlu Apache: Je odpovědný za přijímání dotazů odeslaných prostřednictvím rozhraní příkazového řádku, webového uživatelského rozhraní, Thrift, ODBC nebo JDBC rozhraní klientem. Potom ovladač předá dotaz kompilátoru, kde probíhá analýza, kontrola typu a sémantická analýza pomocí schématu přítomného v metastore. V dalším kroku se vygeneruje optimalizovaný logický plán ve formě DAG (Directed Acyclic Graph) úkolů zmenšit mapu a úkolů HDFS. Nakonec procesor spuštění provede tyto úlohy v pořadí podle jejich závislostí pomocí Hadoopu.
Metastore: Můžete si myslet metastorejako centrální úložiště pro ukládání všech informací metadat Úlu. Metadata podregistru zahrnují různé typy informací, jako je struktura tabulek a oddílůspolu se sloupcem, typem sloupce, serializátorem a deserializátorem, který je vyžadován pro operaci čtení / zápisu na datech přítomných v HDFS. Metastoreskládá se ze dvou základních jednotek:
- Služba, která poskytuje metastorepřístup k dalšímrÚlové služby.
- Diskové úložiště pro metadata, které je oddělené od úložiště HDFS.

Pojďme nyní pochopit různé způsoby implementace Hive metastorev další části tohoto kurzu Úlu.

Výukový program Apache Hive: Konfigurace úložiště Metastore

Metastore ukládá informace metadat pomocí RDBMS a vrstvy ORM (Object Relational Model) s otevřeným zdrojovým kódem nazvané Data Nucleus, která převádí reprezentaci objektu do relačního schématu a naopak. Důvodem pro volbu RDBMS místo HDFS je dosažení nízké latence. Můžeme implementovat metastore v následujících třech konfiguracích:

1. Vestavěné úložiště Metastore:

Služba metastore i služba Hive běží ve stejném JVM ve výchozím nastavení pomocí vložené instance Derby Database, kde jsou metadata uložena na místním disku. Tomu se říká vložená konfigurace metastore. V tomto případě se k databázi metastore může připojit pouze jeden uživatel najednou. Pokud spustíte druhou instanci ovladače Hive, zobrazí se chyba. To je dobré pro testování jednotek, ale ne pro praktická řešení.

2. Místní úložiště:

Tato konfigurace nám umožňuje mít více relací Hive, tj. Více uživatelů může používat databázi metastore současně. Toho je dosaženo použitím libovolné databáze kompatibilní s JDBC, jako je MySQL, která běží v samostatném JVM nebo jiném počítači, než je služba Hive a služba metastore, které běží ve stejném JVM, jak je uvedeno výše. Obecně je nejoblíbenější volbou implementace serveru MySQL jako databáze metastore.

3. Vzdálený Metastore:

V konfiguraci vzdáleného metastore běží služba metastore na vlastním samostatném JVM a nikoli v JVM služby Hive. Jiné procesy komunikují se serverem metastore pomocí Thrift Network API. V tomto případě můžete mít jeden nebo více serverů metastore, abyste zajistili větší dostupnost.Hlavní výhodou používání vzdáleného metastore je, že pro přístup k databázi metastore nemusíte sdílet přihlašovací údaje JDBC s každým uživatelem Hive.

Výukový program Apache Hive: Datový model

Data v Hive lze rozdělit do tří typů na granulární úrovni:

Stůl
Rozdělit
Kbelík

Tabulky:

Tabulky v Hive jsou stejné jako tabulky přítomné v relační databázi. Můžete na nich provádět operace filtrování, projektování, připojení a sjednocení. V Úlu jsou dva typy tabulek:

1. Spravovaná tabulka:

Příkaz:

CREATE TABLE (column1 data_type, column2 data_type)

LOAD DATA INPATH INTO table managed_table

Jak název napovídá (spravovaná tabulka), Hive je zodpovědný za správu dat spravované tabulky. Jinými slovy, to, co jsem myslel slovy: „Úl spravuje data“, je, že pokud načtete data ze souboru přítomného v HDFS do Úlu Spravovaná tabulka a vydat na něj příkaz DROP, tabulka spolu s jejími metadaty bude odstraněna. Takže data patřící k zrušenému Managed_table již v HDFS nikde neexistují a v žádném případě jej nelze načíst. V zásadě přesouváte data, když vydáte příkaz LOAD z umístění souboru HDFS do adresáře Hive warehouse.

skener Java získat další char

Poznámka: Výchozí cesta k adresáři skladu je nastavena na / user / hive / warehouse. Data tabulky Úlu jsou umístěna v adresáři warehouse_directory / název_tabulky (HDFS). Můžete také zadat cestu k adresáři skladu v konfiguračním parametru hive.metastore.warehouse.dir, který je obsažen v hive-site.xml.

2. Externí tabulka:

Příkaz:

VYTVOŘIT VNĚJŠÍ TABULKU (sloupec1 typ_dat, sloupec2 typ_dat) LOCATION „“

ZATÍMEJTE VSTUP DAT DO TABULKY

Pro externí stůl „Úl není odpovědný za správu dat. V tomto případě při zadání příkazu LOAD přesune Hive data do svého adresáře skladu. Potom Hive vytvoří informace metadat pro externí tabulku. Nyní, pokud vydáte příkaz DROP na externí stůl , budou smazány pouze informace metadat týkající se externí tabulky. Proto můžete stále načítat data této velmi externí tabulky z adresáře skladu pomocí příkazů HDFS.

Oddíly:

Příkaz:

CREATE TABLE table_name (column1 data_type, column2 data_type) PARTITIONED BY (partition1 data_type, partition2 data_type, & hellip.)

Hive organizuje tabulky do oddílů pro seskupování podobných typů dat dohromady na základě klíče sloupce nebo oddílu. Každá tabulka může mít jeden nebo více klíčů oddílu k identifikaci konkrétního oddílu. To nám umožňuje mít rychlejší dotaz na řezy dat.

Poznámka: Nezapomeňte, že nejčastější chybou při vytváření oddílů je zadání existujícího názvu sloupce jako sloupce oddílu. Přitom se zobrazí chyba - „Chyba v sémantické analýze: Sloupec se opakuje v dělení sloupců“.

Pojďme pochopit rozdělení podle příkladu, kde mám tabulku student_details obsahující informace o studentech nějaké technické školy, jako je student_id, name, department, year, etc. příslušející k určitému oddělení budou uloženy společně právě v tomto oddílu. Fyzicky oddíl není nic jiného než podadresář v adresáři tabulky.

Řekněme, že máme v tabulce student_details data pro tři oddělení - CSE, ECE a Civil. Proto budeme mít celkem tři oddíly pro každé z oddělení, jak je znázorněno na obrázku níže. A pro každé oddělení budeme mít všechna data týkající se právě tohoto oddělení umístěného v samostatném podadresáři v adresáři tabulky Úlu. Například všechna studentská data týkající se oddělení CSE budou uložena v user / hive / warehouse / student_details / dept. = CSE. Dotazy týkající se studentů CSE by tedy musely prohledávat pouze data přítomná v oddílu CSE. Díky tomu je vytváření oddílů velmi užitečné, protože snižuje latenci dotazu pouze skenováním relevantní rozdělená data namísto celé datové sady. Ve skutečnosti se v implementacích v reálném světě budete zabývat stovkami TB dat. Představte si tedy skenování tohoto obrovského množství dat pro nějaký dotaz 95% Vámi naskenovaná data nebyla pro váš dotaz relevantní.

Navrhoval bych vám projít si blog na Příkazy úlu kde najdete různé způsoby implementace oddílů s příkladem.

Lopaty:

Příkazy:

CREATE TABLE table_name PARTITIONED BY (partition1 data_type, partition2 data_type, & hellip.) CLUSTERED BY (column_name1, column_name2,…) SORTED BY (column_name [ASC | DESC],…)] INTO num_buckets BUCKETS

Nyní můžete rozdělit každý oddíl nebo nerozdělenou tabulku na segmenty na základě hashovací funkce sloupce v tabulce. Ve skutečnosti je každý segment pouze souborem v adresáři oddílu nebo v adresáři tabulky (tabulka bez oddílů). Proto, pokud jste se rozhodli rozdělit oddíly na n kbelíků, budete mít v každém adresáři oddílů n souborů. Například můžete vidět obrázek nahoře, kde jsme každý oddíl rozdělili do 2 segmentů. Takže každý oddíl, řekněme CSE, bude mít dva soubory, kde každý z nich bude ukládat data studenta CSE.

Jak Hive rozděluje řádky do kbelíků?

Úl určuje číslo kbelíku pro řádek pomocí vzorce: hash_function (bucketing_column) modulo (num_of_buckets) . Tady, hash_function závisí na datovém typu sloupce. Pokud například tabulku posouváte na základě nějakého sloupce, řekněme user_id, datového typu INT, bude hash_function - hash_function (user_id ) = celočíselná hodnota user_id . A předpokládejme, že jste vytvořili dva kbelíky, pak Hive určí řádky směřující do kbelíku 1 v každém oddílu výpočtem: (hodnota user_id) modulo (2). Proto v tomto případě budou řádky, které mají user_id končící sudou celočíselnou číslicí, umístěny ve stejném segmentu odpovídajícím každému oddílu. Funkce hash_function pro jiné datové typy je trochu složitá pro výpočet a ve skutečnosti pro řetězec není ani lidsky rozpoznatelná.

Poznámka: Pokud používáte Apache Hive 0.x nebo 1.x, musíte před provedením bucketingu vydat příkaz - nastavit hive.enforce.bucketing = true z terminálu Hive. To vám umožní mít správný počet reduktorů při používání klauzule cluster by pro bucketing a column. Pokud jste to neudělali, možná zjistíte, že počet souborů vygenerovaných v adresáři tabulky se nerovná počtu segmentů. Alternativně můžete také nastavit počet reduktorů rovný počtu segmentů pomocí set mapred.reduce.task = num_bucket.

Proč potřebujeme vědra?

Existují dva hlavní důvody pro provedení segmentace oddílu:

NA boční strana mapy vyžaduje, aby data patřící k jedinečnému klíči spojení byla přítomna ve stejném oddílu. Ale co ty případy, kdy se váš klíč oddílu liší od připojení? Proto v těchto případech můžete provést spojení na straně mapy vybočením tabulky pomocí klíče spojení.
Bucketing zefektivňuje proces vzorkování, a proto nám umožňuje zkrátit čas dotazování.

Chtěl bych uzavřít tento tutoriál blogu Hive zde. Jsem si docela jistý, že po absolvování tohoto výukového blogu Hive byste si uvědomili jednoduchost Apache Hive. Od té doby jste se naučili všechny základy Úlu, je nejvyšší čas mít nějaké zkušenosti s Apache Hive. Podívejte se tedy na další blog v této sérii blogů Hive Tutorial, který je na instalaci Hive, a začněte pracovat na Apache Hive.

Nyní, když jste porozuměli Apache Hive a jeho funkcím, podívejte se na Edureka, důvěryhodná online vzdělávací společnost se sítí více než 250 000 spokojených studentů rozložených po celém světě. Kurz certifikace Edureka Big Data Hadoop Certification Training pomáhá studentům stát se odborníky na HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocí případů použití v reálném čase v oblasti maloobchodu, sociálních médií, letectví, cestovního ruchu, financí.

Máte na nás dotaz? Uveďte to prosím v sekci komentáře a my se vám ozveme.

Výukový program Úlu - Architektura úlu a případová studie NASA

Tento výukový blog Hive vám poskytne podrobné znalosti architektury Hive a datového modelu Hive. Vysvětluje také případovou studii NASA o Apache Hive.

Výukový program Apache Hive: Úvod

Výukový program Apache Hive: Co je to Hive?

Výukový program pro úly pro začátečníky Porozumění úlu v hloubce | Edureka

Výukový program Apache Hive: Story of Hive - od Facebooku po Apache

Výzvy na Facebooku: Exponenciální růst dat

Demokratizující Hadoop - MapReduce

Výukový program Apache Hive: Výhody úlu

Výukový program Apache Hive: Kde používat Apache Hive?

Výukový program Úlu: Případová studie NASA

RCMED (Regionální databáze hodnocení klimatických modelů):

RCMET (Regional Climate Model Evaluation Toolkit):

Problémy, kterým čelí NASA při používání databázového systému MySQL:

Jak může Apache Hive problém vyřešit?

Nasazení úlu:

Počáteční srovnávací pozorování s Hive:

Vstupy od členů komunity Hive:

Výukový program Apache Hive: Architektura úlu a její komponenty

1. Klienti úlu:

2. Úlové služby:

Výukový program Apache Hive: Konfigurace úložiště Metastore

1. Vestavěné úložiště Metastore:

2. Místní úložiště:

3. Vzdálený Metastore:

Výukový program Apache Hive: Datový model

Tabulky:

1. Spravovaná tabulka:

2. Externí tabulka:

Oddíly:

Lopaty:

Jak Hive rozděluje řádky do kbelíků?

Proč potřebujeme vědra?

Kategorie

Popular Articles