Nejlepší příkazy Hive s příklady v HQL

Tento blog pojednává o příkazech Hive s příklady v HQL. CREATE, DROP, TRUNCATE, ALTER, SHOW, DESCRIBE, USE, LOAD, INSERT, JOIN and many more Hive Commands

V tomto příspěvku na blogu pojďme diskutovat o hlavních příkazech Hive s příklady. Tyto příkazy Hive jsou velmi důležité pro založení základny .

Průvodce kariérou pro Edureka 2019 je venku! Nejžhavější pracovní role, přesné cesty učení, výhled odvětví a další v příručce. Stažení Nyní.

Co je Úl?

Apache Hive je systém datového skladu, který je postaven pro práci na Hadoopu. Používá se k dotazování a správě velkých datových sad v distribuovaném úložišti. Než se Hive stal projektem open source Apache Hadoop, vznikl na Facebooku. Poskytuje mechanismus pro promítnutí struktury na data v Hadoopu a pro dotazování těchto dat pomocí jazyka podobného SQL s názvem HiveQL (HQL).





Hive se používá, protože tabulky v Hive jsou podobné tabulkám v relační databázi. Pokud znáte SQL, je to procházka. Mnoho uživatelů může současně dotazovat data pomocí Hive-QL.

Co je HQL?

Hive definuje jednoduchý dotazovací jazyk podobný SQL pro dotazování a správu velkých datových sad s názvem Hive-QL (HQL). Používání je snadné, pokud znáte jazyk SQL. Hive umožňuje programátorům, kteří jsou obeznámeni s jazykem, napsat vlastní rámec MapReduce, aby mohli provádět sofistikovanější analýzu.



Použití úlu:

1. Distribuované úložiště Apache Hive.

2. Hive poskytuje nástroje umožňující snadný extrakci / transformaci / načtení dat (ETL)

3. Poskytuje strukturu v různých datových formátech.



4. Použitím Hive můžeme přistupovat k souborům uloženým v Hadoop Distributed File System (HDFS se používá k dotazování a správě velkých datových sad s bydlištěm) nebo v jiných systémech ukládání dat, jako je Apache HBase.

Omezení úlu:

& bull Hive není určen pro online zpracování transakcí (OLTP), používá se pouze pro online analytické zpracování.

& Bull Hive podporuje přepisování nebo zadržování dat, ale ne aktualizace a mazání.

& bull V Hive nejsou dílčí dotazy podporovány.

Proč je úl používán navzdory prase?

Následují důvody, proč se Hive používá navzdory dostupnosti Pig:

  • Hive-QL je deklarativní jazyková linka SQL, PigLatin je jazyk toku dat.
  • Prase: jazyk a prostředí toku dat pro zkoumání velmi velkých datových sad.
  • Úl: distribuovaný datový sklad.

Součásti úlu:

Metastore:

Úl ukládá schéma tabulek Hive do Metastore Hive. Metastore se používá k uložení všech informací o tabulkách a oddílech, které jsou ve skladu. Ve výchozím nastavení je metastore spuštěn ve stejném procesu jako služba Hive a výchozí úložiště Metastore je databáze DerBy.

SerDe:

Serializer, Deserializer poskytuje pokyny k úlu, jak zpracovat záznam.

Příkazy úlu:

Data Definition Language (DDL)

Příkazy DDL se používají k vytváření a úpravám tabulek a dalších objektů v databázi.

Příkaz DDL Funkce
VYTVOŘIT Používá se k vytvoření tabulky nebo databáze
UKÁZAT Používá se k zobrazení databáze, tabulky, vlastností atd
STÁŘÍ Slouží k provádění změn v existující tabulce
POPSAT Popisuje sloupce tabulky
Zkrátit Slouží k trvalému zkrácení a odstranění řádků tabulky
VYMAZAT Odstraní data tabulky, ale lze je obnovit

Přejděte do shellu Hive zadáním příkazu sudo hive a zadejte příkaz 'vytvořit databáze jméno> “ k vytvoření nové databáze v Úlu.

Vytvořte databázi Hive pomocí příkazů Hive

Chcete-li vypsat databáze ve skladu Hive, zadejte příkaz ‚ zobrazit databáze “.

Databáze se vytváří ve výchozím umístění skladu Hive. V Cloudera ukládejte databáze úlů do / user / hive / warehouse.

Příkaz k použití databáze je POUŽITÍ

Zkopírujte vstupní data na HDFS z lokálního pomocí příkazu copy from local.

Když vytvoříme tabulku v podregistru, vytvoří se ve výchozím umístění skladu podregistru. - „/ uživatel / úl / sklad“, po vytvoření tabulky můžeme přesunout data z HDFS do tabulky úlu.

Následující příkaz vytvoří tabulku s umístěním „/user/hive/warehouse/retail.db“

def __init__ v pythonu

Poznámka : retail.db je databáze vytvořená ve skladu Hive.

Popsat poskytuje informace o schématu tabulky.

Jazyk pro manipulaci s daty (DML)

Příkazy DML se používají k načítání, ukládání, úpravám, mazání, vkládání a aktualizaci dat v databázi.

Příklad:

LOAD, INSERT prohlášení.

Syntaxe:

LOAD data inpath into table [tablename]

Operace Načíst se používá k přesunu dat do odpovídající tabulky Úlu. Pokud klíčové slovo místní je zadán, pak v příkazu načtení dá cestu k místnímu systému souborů. Není-li zadáno klíčové slovo local, musíme použít cestu k souboru HDFS.

Zde je několik příkladů příkazu LOAD data LOCAL

Po načtení dat do tabulky Hive můžeme použít příkazy manipulace s daty nebo agregační funkce načíst data.

Příklad spočítání počtu záznamů:

Funkce agregace počtu se používá spočítat celkový počet záznamů v tabulce.

‚Vytvořit externí 'tabulku:

The vytvořit externí klíčové slovo se používá k vytvoření tabulky a poskytuje umístění, kde se bude tabulka vytvářet, aby Hive nepoužíval výchozí umístění pro tuto tabulku. An EXTERNÍ tabulka ukazuje na jakékoli místo HDFS pro jeho úložiště, spíše než na výchozí úložiště.

Vložit příkaz:

The vložit příkaz se používá k načtení tabulky datového úlu. Vložky lze provádět do tabulky nebo oddílu.

& bull INSERT OVERWRITE se používá k přepsání stávajících dat v tabulce nebo oddílu.

& bull INSERT INTO se používá k připojení dat k existujícím datům v tabulce. (Poznámka: Syntaxe INSERT INTO je práce od verze 0.8)

Příklad pro příkazy „Rozděleny podle“ a „Seskupeny podle“:

„Rozděleny podle „Slouží k rozdělení tabulky na oddíl a lze jej rozdělit do kbelíků pomocí‚ Seskupeno „Příkaz.

Když vložíme chyby házení datového úlu, režim dynamického oddílu je přísný a dynamický oddíl není povolen (uživatelem Jeffe na webové stránky dresshead ). Musíme tedy v shellu Hive nastavit následující parametry.

set hive.exec.dynamic.partition = true

Chcete-li povolit dynamické oddíly, je to ve výchozím nastavení falešné

nastavit hive.exec.dynamic.partition.mode = nonstrict

Oddíl se dělí podle kategorie a lze jej rozdělit na kbelíky pomocí příkazu „Clustered By“.

Příkaz „Zrušit tabulku“ odstraní data a metadata tabulky. V případě externích tabulek jsou odstraněna pouze metadata.

Příkaz „Zrušit tabulku“ odstraní data a metadata tabulky. V případě externích tabulek jsou odstraněna pouze metadata.

Načtěte data lokální inpath „aru.txt“ do názvu tabulky tabulky a poté zkontrolujeme tabulku employee1 pomocí příkazu Select * from table name command

co je to metoda javascript

Chcete-li spočítat počet záznamů v tabulce pomocí Vybrat počet(*) z txnrecords

Agregace:

Vyberte počet (DISTINCT kategorie) z názvu tabulky

Tento příkaz spočítá jinou kategorii tabulky „cate“. Zde existují 3 různé kategorie.

Předpokládejme, že existuje další tabulka, kde f1 je název pole kategorie.

Seskupení:

Příkaz Group se používá k seskupení sady výsledků podle jednoho nebo více sloupců.

Vyberte kategorii, součet (částku) ze skupiny záznamů txt podle kategorie

Vypočítá částku ze stejné kategorie.

Výsledek jedna tabulka je uložena do jiné tabulky.

Vytvořte tabulku newtablename jako select * from oldtablename

Připojit příkaz:

Zde je v názvu vytvořena ještě jedna tabulka „E-maily“

Připojte se k operaci :

Operace spojení se provádí kombinací polí ze dvou tabulek pomocí hodnot společných pro každou z nich.

Levý vnější spoj :

Výsledek levého vnějšího spojení (nebo jednoduše levého spojení) pro tabulky A a B vždy obsahuje všechny záznamy „levé“ tabulky (A), i když podmínka spojení nenajde žádný odpovídající záznam v „pravé“ tabulce (B).

Pravý vnější spoj :

Pravé vnější spojení (nebo pravé spojení) se velmi podobá levému vnějšímu spojení, s výjimkou obráceného zpracování tabulek. Každý řádek z „pravé“ tabulky (B) se v připojené tabulce objeví alespoň jednou.

Plné připojení :

Připojená tabulka bude obsahovat všechny záznamy z obou tabulek a vyplní NULL pro chybějící shody na obou stranách.

Jakmile to uděláte s úlem, můžeme použít příkaz quit k opuštění skořápky úlu.

Opuštění úlu

Úl je jen součástí velkého puzzle s názvem Big Data a Hadoop. Hadoop je mnohem víc než jen Hive. Kliknutím níže zobrazíte, jaké další dovednosti byste měli v Hadoopu ovládat.

Máte na nás dotaz? Uveďte to prosím v sekci komentáře a my se vám ozveme.

Související příspěvky:

7 způsobů, jak školení velkých dat může změnit vaši organizaci

Úlové datové modely