V tomto příspěvku na blogu pojďme diskutovat o hlavních příkazech Hive s příklady. Tyto příkazy Hive jsou velmi důležité pro založení základny .
Průvodce kariérou pro Edureka 2019 je venku! Nejžhavější pracovní role, přesné cesty učení, výhled odvětví a další v příručce. Stažení Nyní.Co je Úl?
Apache Hive je systém datového skladu, který je postaven pro práci na Hadoopu. Používá se k dotazování a správě velkých datových sad v distribuovaném úložišti. Než se Hive stal projektem open source Apache Hadoop, vznikl na Facebooku. Poskytuje mechanismus pro promítnutí struktury na data v Hadoopu a pro dotazování těchto dat pomocí jazyka podobného SQL s názvem HiveQL (HQL).
Hive se používá, protože tabulky v Hive jsou podobné tabulkám v relační databázi. Pokud znáte SQL, je to procházka. Mnoho uživatelů může současně dotazovat data pomocí Hive-QL.
Co je HQL?
Hive definuje jednoduchý dotazovací jazyk podobný SQL pro dotazování a správu velkých datových sad s názvem Hive-QL (HQL). Používání je snadné, pokud znáte jazyk SQL. Hive umožňuje programátorům, kteří jsou obeznámeni s jazykem, napsat vlastní rámec MapReduce, aby mohli provádět sofistikovanější analýzu.
Použití úlu:
1. Distribuované úložiště Apache Hive.
2. Hive poskytuje nástroje umožňující snadný extrakci / transformaci / načtení dat (ETL)
3. Poskytuje strukturu v různých datových formátech.
4. Použitím Hive můžeme přistupovat k souborům uloženým v Hadoop Distributed File System (HDFS se používá k dotazování a správě velkých datových sad s bydlištěm) nebo v jiných systémech ukládání dat, jako je Apache HBase.
Omezení úlu:
& bull Hive není určen pro online zpracování transakcí (OLTP), používá se pouze pro online analytické zpracování.
& Bull Hive podporuje přepisování nebo zadržování dat, ale ne aktualizace a mazání.
& bull V Hive nejsou dílčí dotazy podporovány.
Proč je úl používán navzdory prase?
Následují důvody, proč se Hive používá navzdory dostupnosti Pig:
- Hive-QL je deklarativní jazyková linka SQL, PigLatin je jazyk toku dat.
- Prase: jazyk a prostředí toku dat pro zkoumání velmi velkých datových sad.
- Úl: distribuovaný datový sklad.
Součásti úlu:
Metastore:
Úl ukládá schéma tabulek Hive do Metastore Hive. Metastore se používá k uložení všech informací o tabulkách a oddílech, které jsou ve skladu. Ve výchozím nastavení je metastore spuštěn ve stejném procesu jako služba Hive a výchozí úložiště Metastore je databáze DerBy.
SerDe:
Serializer, Deserializer poskytuje pokyny k úlu, jak zpracovat záznam.
Příkazy úlu:
Data Definition Language (DDL)
Příkazy DDL se používají k vytváření a úpravám tabulek a dalších objektů v databázi.
Příkaz DDL | Funkce |
VYTVOŘIT | Používá se k vytvoření tabulky nebo databáze |
UKÁZAT | Používá se k zobrazení databáze, tabulky, vlastností atd |
STÁŘÍ | Slouží k provádění změn v existující tabulce |
POPSAT | Popisuje sloupce tabulky |
Zkrátit | Slouží k trvalému zkrácení a odstranění řádků tabulky |
VYMAZAT | Odstraní data tabulky, ale lze je obnovit |
Přejděte do shellu Hive zadáním příkazu sudo hive a zadejte příkaz 'vytvořit databáze jméno> “ k vytvoření nové databáze v Úlu.
Chcete-li vypsat databáze ve skladu Hive, zadejte příkaz ‚ zobrazit databáze “.
Databáze se vytváří ve výchozím umístění skladu Hive. V Cloudera ukládejte databáze úlů do / user / hive / warehouse.
Příkaz k použití databáze je POUŽITÍ
Zkopírujte vstupní data na HDFS z lokálního pomocí příkazu copy from local.
Když vytvoříme tabulku v podregistru, vytvoří se ve výchozím umístění skladu podregistru. - „/ uživatel / úl / sklad“, po vytvoření tabulky můžeme přesunout data z HDFS do tabulky úlu.
Následující příkaz vytvoří tabulku s umístěním „/user/hive/warehouse/retail.db“
def __init__ v pythonu
Poznámka : retail.db je databáze vytvořená ve skladu Hive.
Popsat poskytuje informace o schématu tabulky.
Jazyk pro manipulaci s daty (DML)
Příkazy DML se používají k načítání, ukládání, úpravám, mazání, vkládání a aktualizaci dat v databázi.
Příklad:
LOAD, INSERT prohlášení.
Syntaxe:
LOAD data inpath into table [tablename]
Operace Načíst se používá k přesunu dat do odpovídající tabulky Úlu. Pokud klíčové slovo místní je zadán, pak v příkazu načtení dá cestu k místnímu systému souborů. Není-li zadáno klíčové slovo local, musíme použít cestu k souboru HDFS.
Zde je několik příkladů příkazu LOAD data LOCAL
Po načtení dat do tabulky Hive můžeme použít příkazy manipulace s daty nebo agregační funkce načíst data.
Příklad spočítání počtu záznamů:
Funkce agregace počtu se používá spočítat celkový počet záznamů v tabulce.
‚Vytvořit externí 'tabulku:
The vytvořit externí klíčové slovo se používá k vytvoření tabulky a poskytuje umístění, kde se bude tabulka vytvářet, aby Hive nepoužíval výchozí umístění pro tuto tabulku. An EXTERNÍ tabulka ukazuje na jakékoli místo HDFS pro jeho úložiště, spíše než na výchozí úložiště.
Vložit příkaz:
The vložit příkaz se používá k načtení tabulky datového úlu. Vložky lze provádět do tabulky nebo oddílu.
& bull INSERT OVERWRITE se používá k přepsání stávajících dat v tabulce nebo oddílu.
& bull INSERT INTO se používá k připojení dat k existujícím datům v tabulce. (Poznámka: Syntaxe INSERT INTO je práce od verze 0.8)
Příklad pro příkazy „Rozděleny podle“ a „Seskupeny podle“:
„Rozděleny podle „Slouží k rozdělení tabulky na oddíl a lze jej rozdělit do kbelíků pomocí‚ Seskupeno „Příkaz.
Když vložíme chyby házení datového úlu, režim dynamického oddílu je přísný a dynamický oddíl není povolen (uživatelem Jeffe na webové stránky dresshead ). Musíme tedy v shellu Hive nastavit následující parametry.
set hive.exec.dynamic.partition = true
Chcete-li povolit dynamické oddíly, je to ve výchozím nastavení falešné
nastavit hive.exec.dynamic.partition.mode = nonstrict
Oddíl se dělí podle kategorie a lze jej rozdělit na kbelíky pomocí příkazu „Clustered By“.
Příkaz „Zrušit tabulku“ odstraní data a metadata tabulky. V případě externích tabulek jsou odstraněna pouze metadata.
Příkaz „Zrušit tabulku“ odstraní data a metadata tabulky. V případě externích tabulek jsou odstraněna pouze metadata.
Načtěte data lokální inpath „aru.txt“ do názvu tabulky tabulky a poté zkontrolujeme tabulku employee1 pomocí příkazu Select * from table name command
co je to metoda javascript
Chcete-li spočítat počet záznamů v tabulce pomocí Vybrat počet(*) z txnrecords
Agregace:
Vyberte počet (DISTINCT kategorie) z názvu tabulky
Tento příkaz spočítá jinou kategorii tabulky „cate“. Zde existují 3 různé kategorie.
Předpokládejme, že existuje další tabulka, kde f1 je název pole kategorie.
Seskupení:
Příkaz Group se používá k seskupení sady výsledků podle jednoho nebo více sloupců.
Vyberte kategorii, součet (částku) ze skupiny záznamů txt podle kategorie
Vypočítá částku ze stejné kategorie.
Výsledek jedna tabulka je uložena do jiné tabulky.
Vytvořte tabulku newtablename jako select * from oldtablename
Připojit příkaz:
Zde je v názvu vytvořena ještě jedna tabulka „E-maily“
Připojte se k operaci :
Operace spojení se provádí kombinací polí ze dvou tabulek pomocí hodnot společných pro každou z nich.
Levý vnější spoj :
Výsledek levého vnějšího spojení (nebo jednoduše levého spojení) pro tabulky A a B vždy obsahuje všechny záznamy „levé“ tabulky (A), i když podmínka spojení nenajde žádný odpovídající záznam v „pravé“ tabulce (B).
Pravý vnější spoj :
Pravé vnější spojení (nebo pravé spojení) se velmi podobá levému vnějšímu spojení, s výjimkou obráceného zpracování tabulek. Každý řádek z „pravé“ tabulky (B) se v připojené tabulce objeví alespoň jednou.
Plné připojení :
Připojená tabulka bude obsahovat všechny záznamy z obou tabulek a vyplní NULL pro chybějící shody na obou stranách.
Jakmile to uděláte s úlem, můžeme použít příkaz quit k opuštění skořápky úlu.
Úl je jen součástí velkého puzzle s názvem Big Data a Hadoop. Hadoop je mnohem víc než jen Hive. Kliknutím níže zobrazíte, jaké další dovednosti byste měli v Hadoopu ovládat.
Máte na nás dotaz? Uveďte to prosím v sekci komentáře a my se vám ozveme.
Související příspěvky:
7 způsobů, jak školení velkých dat může změnit vaši organizaci