Programování prasat: Vytvořte si svůj první skript Apache Pig



Přečtěte si tento blogový příspěvek a vytvořte svůj první skript Apache Pig. Skripty Apache Pig se používají ke společnému provádění sady příkazů Apache Pig.

Programování prasat: Vytvořte si svůj první skript Apache Pig

V našem , se nyní naučíme, jak vytvořit skript Apache Pig. Skripty Apache Pig se používají ke společnému provádění sady příkazů Apache Pig. To pomáhá snižovat čas a úsilí investované do psaní a ručního provádění každého příkazu, zatímco to děláte v programování prasat.Je také nedílnou součástí .Tento blog je průvodce krok za krokem, který vám pomůže vytvořit váš první skript Apache Pig.

Režimy provádění skriptu Apache Pig

Místní režim : V „místním režimu“ můžete spustit prasečí skript v místním systému souborů. V takovém případě nemusíte ukládat data do systému souborů Hadoop HDFS, místo toho můžete pracovat s daty uloženými v samotném lokálním systému souborů.





Režim MapReduce : V režimu „MapReduce“ je třeba data uložit do systému souborů HDFS a data můžete zpracovat pomocí prasečího skriptu.

Skript Apache Pig v režimu MapReduce

Řekněme, že naším úkolem je načíst data z datového souboru a zobrazit požadovaný obsah na terminálu jako výstup.



Ukázkový datový soubor obsahuje následující data:

Informační soubor txt - Apache Pig Script - Edureka

Uložte textový soubor s názvem „information.txt“



Ukázkový datový soubor obsahuje pět sloupců Jméno , Příjmení , MobileNo , Město , a Profese oddělené klávesa tab . Naším úkolem je načíst obsah tohoto souboru z HDFS a zobrazit všechny sloupce těchto záznamů.

implementovat prioritní frontu c ++

Chcete-li tato data zpracovat pomocí Pig, měl by být tento soubor přítomen v Apache Hadoop HDFS.

Příkaz : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka

Krok 1: Psaní skriptu prasete

Vytvořte a otevřete soubor skriptu Apache Pig v editoru (např. Gedit).

Příkaz : sudo gedit /home/edureka/output.pig

Tento příkaz vytvoří soubor ‚output.pig 'v domovském adresáři uživatele edureka.

Napíšeme několik příkazů PIG do souboru output.pig.

třídit v c ++
A = LOAD '/edureka/information.txt' using PigStorage ('') as (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray) B = FOREACH A generate FName, MobileNo, Profession DUMP B

Uložte a zavřete soubor.

  • První příkaz načte soubor „information.txt“ do proměnné A s nepřímým schématem (FName, LName, MobileNo, City, Profession).
  • Druhý příkaz načte požadovaná data z proměnné A do proměnné B.
  • Třetí řádek zobrazuje obsah proměnné B na terminálu / konzole.

Krok 2: Spusťte skript Apache Pig

Chcete-li spustit prasečí skript v režimu HDFS, spusťte následující příkaz:

Příkaz : pig /home/edureka/output.pig

Po dokončení spuštění zkontrolujte výsledek. Tyto obrázky níže ukazují výsledky a jejich mezilehlou mapu a redukční funkce.

Níže uvedený obrázek ukazuje, že skript byl úspěšně proveden.

Níže uvedený obrázek ukazuje výsledek našeho skriptu.

Gratulujeme k úspěšnému provedení vašeho prvního skriptu Apache Pig!

Nyní víte, jak vytvořit a spustit skript Apache Pig. Proto náš další blog v bude pokrývat, jak vytvořte UDF (User Defined Functions) v Apache Pig a spusťte jej v režimu MapReduce / HDFS.

Nyní, když jste vytvořili a provedli skript Apache Pig, podívejte se na Edureka, důvěryhodná online vzdělávací společnost se sítí více než 250 000 spokojených studentů po celém světě. Kurz certifikace Edureka Big Data Hadoop Certification Training pomáhá studentům stát se odborníky na HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume a Sqoop pomocí případů použití v reálném čase v oblasti maloobchodu, sociálních médií, letectví, cestovního ruchu, financí.

Máte na nás dotaz? Uveďte to prosím v sekci komentáře a my se vám ozveme.