PROGRAMOVÁNÍ PRASAT | VYTVOŘTE SVŮJ PRVNÍ SKRIPT APACHE PIG

Programování prasat: Vytvořte si svůj první skript Apache Pig

V našem , se nyní naučíme, jak vytvořit skript Apache Pig. Skripty Apache Pig se používají ke společnému provádění sady příkazů Apache Pig. To pomáhá snižovat čas a úsilí investované do psaní a ručního provádění každého příkazu, zatímco to děláte v programování prasat.Je také nedílnou součástí .Tento blog je průvodce krok za krokem, který vám pomůže vytvořit váš první skript Apache Pig.

Režimy provádění skriptu Apache Pig

Místní režim : V „místním režimu“ můžete spustit prasečí skript v místním systému souborů. V takovém případě nemusíte ukládat data do systému souborů Hadoop HDFS, místo toho můžete pracovat s daty uloženými v samotném lokálním systému souborů.

Režim MapReduce : V režimu „MapReduce“ je třeba data uložit do systému souborů HDFS a data můžete zpracovat pomocí prasečího skriptu.

Skript Apache Pig v režimu MapReduce

Řekněme, že naším úkolem je načíst data z datového souboru a zobrazit požadovaný obsah na terminálu jako výstup.

Ukázkový datový soubor obsahuje následující data:

Informační soubor txt - Apache Pig Script - Edureka

Uložte textový soubor s názvem „information.txt“

Ukázkový datový soubor obsahuje pět sloupců Jméno , Příjmení , MobileNo , Město , a Profese oddělené klávesa tab . Naším úkolem je načíst obsah tohoto souboru z HDFS a zobrazit všechny sloupce těchto záznamů.

implementovat prioritní frontu c ++

Chcete-li tato data zpracovat pomocí Pig, měl by být tento soubor přítomen v Apache Hadoop HDFS.

Příkaz : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

Krok 1: Psaní skriptu prasete

Vytvořte a otevřete soubor skriptu Apache Pig v editoru (např. Gedit).

Příkaz : sudo gedit /home/edureka/output.pig

Tento příkaz vytvoří soubor ‚output.pig 'v domovském adresáři uživatele edureka.

Napíšeme několik příkazů PIG do souboru output.pig.

třídit v c ++

A = LOAD '/edureka/information.txt' using PigStorage ('') as (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray) B = FOREACH A generate FName, MobileNo, Profession DUMP B

Uložte a zavřete soubor.

První příkaz načte soubor „information.txt“ do proměnné A s nepřímým schématem (FName, LName, MobileNo, City, Profession).
Druhý příkaz načte požadovaná data z proměnné A do proměnné B.
Třetí řádek zobrazuje obsah proměnné B na terminálu / konzole.

Krok 2: Spusťte skript Apache Pig

Chcete-li spustit prasečí skript v režimu HDFS, spusťte následující příkaz:

Příkaz : pig /home/edureka/output.pig

Po dokončení spuštění zkontrolujte výsledek. Tyto obrázky níže ukazují výsledky a jejich mezilehlou mapu a redukční funkce.

Níže uvedený obrázek ukazuje, že skript byl úspěšně proveden.

Níže uvedený obrázek ukazuje výsledek našeho skriptu.

Gratulujeme k úspěšnému provedení vašeho prvního skriptu Apache Pig!

Nyní víte, jak vytvořit a spustit skript Apache Pig. Proto náš další blog v bude pokrývat, jak vytvořte UDF (User Defined Functions) v Apache Pig a spusťte jej v režimu MapReduce / HDFS.

Nyní, když jste vytvořili a provedli skript Apache Pig, podívejte se na Edureka, důvěryhodná online vzdělávací společnost se sítí více než 250 000 spokojených studentů po celém světě. Kurz certifikace Edureka Big Data Hadoop Certification Training pomáhá studentům stát se odborníky na HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocí případů použití v reálném čase v oblasti maloobchodu, sociálních médií, letectví, cestovního ruchu, financí.

Máte na nás dotaz? Uveďte to prosím v sekci komentáře a my se vám ozveme.

Programování prasat: Vytvořte si svůj první skript Apache Pig

Přečtěte si tento blogový příspěvek a vytvořte svůj první skript Apache Pig. Skripty Apache Pig se používají ke společnému provádění sady příkazů Apache Pig.

Programování prasat: Vytvořte si svůj první skript Apache Pig

Režimy provádění skriptu Apache Pig

Skript Apache Pig v režimu MapReduce

Kategorie

Popular Articles

Jak implementovat příkaz Goto v C ++?

Jak implementovat Merge Sort v Pythonu?

Top 10 nejlépe placených pracovních míst pro rok 2020, o kterých potřebujete vědět

Operátoři v Apache Pig: Část 1 - Relační operátoři

Jak implementovat mělkou a hlubokou kopii v Javě

Jak generovat náhodná čísla pomocí náhodné třídy v Javě?

Výukový program TensorFlow - hluboké učení pomocí TensorFlow

HTML DOM: Jak používat model objektu dokumentu

Jak nainstalovat pip v Pythonu: Začínáme s instalací Pythonu

Google Cloud vs AWS: Jakého poskytovatele cloudových služeb si vybrat?

Rozdíl mezi házením a házením v Javě

Datová věda a strojové učení pro neprogramátory