Informatica ETL: Průvodce pro začátečníky k porozumění ETL pomocí Informatica PowerCenter



Pochopení konceptů Informatica ETL a různých fází procesu ETL a procvičování případu použití zahrnujícího databázi zaměstnanců.

Účelem Informatica ETL je poskytnout uživatelům nejen proces extrakce dat ze zdrojových systémů a jejich přenesení do datového skladu, ale také poskytnout uživatelům společnou platformu pro integraci jejich dat z různých platforem a aplikací.To vedlo ke zvýšení poptávky po .Než začneme mluvit o ETL Informatica, nejprve pochopíme, proč ETL potřebujeme.

Proč potřebujeme ETL?

Každá společnosttyto dny musí zpracovávat velké soubory dat z různých zdrojů. Tyto údaje je třeba zpracovat, aby poskytovaly důkladné informace pro přijímání obchodních rozhodnutí. Často však mají tato data následující problémy:





  • Velké společnosti generují spoustu dat a taková obrovská část dat může být v jakémkoli formátu. Byly by k dispozici ve více databázích a mnoha nestrukturovaných souborech.
  • Tato data musí být porovnávána, kombinována, porovnávána a musí fungovat jako souvislý celek. Ale různé databáze nekomunikují dobře!
  • Mnoho organizací implementovalo rozhraní mezi těmito databázemi, ale čelily těmto výzvám:
    • Každá dvojice databází vyžaduje jedinečné rozhraní.
    • Pokud změníte jednu databázi, bude pravděpodobně nutné upgradovat mnoho rozhraní.

Níže vidíte různé databáze organizace a jejich interakce:

Různé datové sady organizace - Informatica - ETL - Edureka

Různé databáze používané různými odděleními organizace



Různé interakce databází v organizaci

Jak je vidět výše, organizace může mít ve svých různých odděleních různé databáze a interakce mezi nimi se stává obtížně implementovatelnou, protože pro ně je třeba vytvořit různá interakční rozhraní. K překonání těchto výzev je nejlepším možným řešením použití konceptů Integrace dat což by umožnilo vzájemnou komunikaci dat z různých databází a formátů. Níže uvedený obrázek nám pomáhá pochopit, jak se nástroj pro integraci dat stává běžným rozhraním pro komunikaci mezi různými databázemi.

Různé databáze připojené prostřednictvím integrace dat



K provedení integrace dat však existují různé procesy. Z těchto procesů je ETL nejoptimálnější, nejefektivnější a nejspolehlivější proces. Prostřednictvím ETL může uživatel nejen přenášet data z různých zdrojů, ale může s daty provádět různé operace, než je uloží do konečného cíle.

Mezi různými dostupnými nástroji ETL dostupnými na trhu je Informatica PowerCenter přední platformou pro integraci dat na trhu. Po testování na téměř 500 000 kombinacích platforem a aplikací pracuje Informatica PowerCenter inter s co nejširší škálou různorodých standardů, systémů a aplikací. Pojďme nyní pochopit kroky obsažené v procesu Informatica ETL.

ETL informatiky | Architektura Informatica Výukový program Informatica PowerCenter | Edureka

Tento výukový program Edureka Informatica vám pomůže podrobně porozumět základům ETL pomocí Informatica Powercenter.

Kroky v procesu Informatica ETL:

Než přejdeme k různým krokům obsaženým v Informatica ETL, pojďme mít přehled o ETL. V ETL je Extrakce místo, kde jsou data extrahována z homogenních nebo heterogenních zdrojů dat, Transformace, kde jsou data transformována pro uložení ve správném formátu nebo struktuře pro účely dotazování a analýzy a Načítání, kde jsou data načtena do konečné cílové databáze, úložiště provozních dat, datový trh nebo datový sklad. Níže uvedený obrázek vám pomůže pochopit, jak probíhá proces ETL Informatica.

Přehled procesu ETL

Jak je vidět výše, Informatica PowerCenter může načítat data z různých zdrojů a ukládat je do jednoho datového skladu. Pojďme se nyní podívat na kroky, které jsou součástí procesu Informatica ETL.

V procesu Informatica ETL existují hlavně 4 kroky, pojďme jim nyní porozumět do hloubky:

  1. Extrahovat nebo zachytit
  2. Drhněte nebo vyčistěte
  3. Přeměnit
  4. Načíst a indexovat

1. Extrahovat nebo zachytit: Jak je vidět na obrázku níže, Capture or Extract je prvním krokem procesu Informatica ETL.Jedná se o proces získání snímku vybrané podmnožiny dat ze zdroje, který je třeba načíst do datového skladu. Snímek je statické zobrazení dat v databázi jen pro čtení. Proces extrakce může být dvou typů:

  • Plný výpis: Data jsou zcela extrahována ze zdrojového systému a není třeba sledovat změny ve zdroji dat od poslední úspěšné extrakce.
  • Přírůstkový extrakt: Tím se zachytí pouze změny, ke kterým došlo od posledního úplného extraktu.

Fáze 1: Extrahovat nebo zachytit

2. Drhněte nebo vyčistěte: Jedná se o proces čištění dat pocházejících ze zdroje pomocí různých technik rozpoznávání vzorů a umělé inteligence k vylepšení kvality dat, která jsou převzata. Chyby jako překlepy, chybná data, nesprávné použití pole, nesprávné adresy, chybějící data, duplicitní data, nekonzistence jsou obvyklezvýrazněna a poté opravena nebo odstraněnav tomto kroku. V tomto kroku se rovněž provádějí operace jako dekódování, přeformátování, časové razítko, převod, generování klíčů, slučování, detekce / protokolování chyb, vyhledání chybějících dat. Jak je vidět na obrázku níže, jedná se o druhý krok procesu Informatica ETL.

Fáze 2: Drhnutí nebo čištění dat

3. Transformace: Jak je vidět na obrázku níže, jedná se o třetí a nejdůležitější krok procesu Informatica ETL. Transformace je operace převodu dat z formátu zdrojového systému na kostru Data Warehouse. Transformace se v zásadě používá k představení sady pravidel, která definují tok dat a způsob načítání dat do cílů. Chcete-li se o Transformaci dozvědět více, podívejte se Transformace v Informatice Blog.

Fáze 3: Transformace

4. Načíst a indexovat: Toto je poslední krok procesu Informatica ETL, jak je vidět na obrázku níže. V této fázi umístíme transformovaná data do skladu a vytvoříme indexy dat. Na základě procesu načítání jsou k dispozici dva hlavní typy načítání dat .:

  • Plné nebo hromadné zatížení :Proces načítání dat, když to děláme úplně poprvé. Úloha extrahuje celý objem dat ze zdrojové tabulky a po použití požadovaných transformací se načte do cílového datového skladu. Bude to jednorázová úloha spuštěná poté, co budou samotné změny zachyceny jako součást přírůstkového extraktu.
  • Přírůstkové zatížení nebo Obnovit zatížení : Samotná upravená data budou aktualizována v cíli následovaná plným načtením. Změny budou zachyceny porovnáním vytvořeného nebo upraveného data s datem posledního spuštění úlohy.Samotná upravená data byla extrahována ze zdroje a budou aktualizována v cíli bez ovlivnění stávajících dat.

Fáze 4: Načtení a indexování

Pokud jste pochopili proces ETL Informatica, jsme nyní v lepší pozici, abychom ocenili, proč je Informatica v takových případech nejlepším řešením.

Vlastnosti Informatica ETL:

Pro všechny operace integrace dat a ETL nám poskytla Informatica Informatica PowerCenter . Podívejme se nyní na některé klíčové funkce Informatica ETL:

  • Poskytuje možnost určit velký počet pravidel transformace pomocí grafického uživatelského rozhraní.
  • Generování programů pro transformaci dat.
  • Zpracování více zdrojů dat.
  • Podporuje operace extrakce, čištění, agregace, reorganizace, transformace a načítání.
  • Automaticky generuje programy pro extrakci dat.
  • Vysokorychlostní načítání cílových datových skladů.

Níže uvádíme některé typické scénáře, ve kterých se používá Informatica PowerCenter:

  1. Migrace dat:

Společnost zakoupila novou aplikaci Splatné účty pro své účetní oddělení. PowerCenter může přesunout data stávajícího účtu do nové aplikace. Obrázek níže vám pomůže pochopit, jak můžete použít Informatica PowerCenter pro migraci dat. Informatica PowerCenter může během procesu migrace dat snadno uchovat datovou linii pro daňové, účetní a jiné zákonem stanovené účely.

Migrace dat ze starší účetní aplikace do nové aplikace

  1. Integrace aplikací:

Řekněme, že společnost-A nakupuje společnost-B. Abychom dosáhli výhod konsolidace, musí být fakturační systém společnosti-B integrován do fakturačního systému společnosti-A, což lze snadno provést pomocí Informatica PowerCenter. Obrázek níže vám pomůže pochopit, jak můžete Informatica PowerCenter použít k integraci aplikací mezi společnostmi.

Integrace aplikací mezi společnostmi

  1. Skladování dat

Typické akce vyžadované v datových skladech jsou:

  • Kombinace informací z mnoha zdrojů pro analýzu.
  • Přesun dat z mnoha databází do datového skladu.

Všechny výše uvedené typické případy lze snadno provést pomocí Informatica PowerCenter. Níže vidíte, jak se Informatica PowerCenter používá ke kombinování dat z různých druhů databází, jako je Oracle, SalesForce atd., A jejich přenášení do společného datového skladu vytvořeného Informatica PowerCenter.

Data Z různých databází integrovaných do společného datového skladu

  1. Middleware

Řekněme, že maloobchodní organizace využívá SAP R3 pro své maloobchodní aplikace a SAP BW jako svůj datový sklad. Přímá komunikace mezi těmito dvěma aplikacemi není možná z důvodu chybějícího komunikačního rozhraní. Informatica PowerCenter však může být použit jako Middleware mezi těmito dvěma aplikacemi. Na obrázku níže vidíte architekturu, jak se Informatica PowerCenter používá jako middleware mezi SAP R / 3 a SAP BW. Aplikace ze systému SAP R / 3 přenášejí svá data do rámce ABAP, který je poté přenáší doSAP Point of Sale (POS) a SAPBills of Services (BOS). Informatica PowerCenter pomáhá přenosu dat z těchto služeb do SAP Business Warehouse (BW).

Informatica PowerCenter jako Middleware v SAP Retail Architecture

I když jste viděli několik klíčových funkcí a typických scénářů Informatica ETL, doufám, že pochopíte, proč je Informatica PowerCenter nejlepším nástrojem pro proces ETL. Podívejme se nyní na případ použití ETL Informatica.

Případ použití: Spojení dvou tabulek k získání jediné podrobné tabulky

Řekněme, že chcete svým zaměstnancům zajistit rozumnou dopravu, protože oddělení se nacházejí na různých místech. Nejprve musíte vědět, ke kterému oddělení každý zaměstnanec patří a umístění oddělení. Podrobnosti o zaměstnancích jsou však uloženy v různých tabulkách a je třeba připojit podrobnosti oddělení k existující databázi s podrobnostmi o všech zaměstnancích. K tomu nejprve načteme obě tabulky do Informatica PowerCenter, provedeme transformaci zdrojového kvalifikátoru na datech a nakonec načteme podrobnosti do cílové databáze.Nech nás začít:

Krok 1 : Otevřete návrhář PowerCenter.

Níže je domovská stránka produktu Informatica PowerCenter Designer.

Nyní se připojme k úložišti. V případě, že jste nenakonfigurovali své úložiště nebo se potýkáte s jakýmikoli problémy, můžete zkontrolovat naše Blog.

Krok 2: Klikněte pravým tlačítkem na své úložiště a vyberte možnost připojení.

Po kliknutí na možnost připojení budete vyzváni k zobrazení níže uvedené obrazovky s dotazem na uživatelské jméno a heslo úložiště.

Jakmile se připojíte k úložišti, musíte otevřít pracovní složku, jak je vidět níže:

Budete vyzváni, abyste se zeptali na název svého mapování. Zadejte název svého mapování a klikněte na OK (pojmenoval jsem jej jako m-ZAMĚSTNANEC ).

Krok 3: Nyní načtěte tabulky z databáze, začněte připojením k databázi. Chcete-li to provést, vyberte kartu Zdroje a možnost Importovat z databáze, jak je vidět níže:

Po kliknutí na Importovat z databáze se zobrazí výzva na obrazovce, jak je uvedeno níže, s dotazem na podrobnosti vaší databáze a jejího uživatelského jména a hesla pro připojení (používám Oracle Database a uživatele HR).

Kliknutím na Připojit se připojíte k vaší databázi.

Krok 4: Jak se chci připojit k ZAMĚSTNANCI a ODDĚLENÍ tabulky, vyberu je a kliknu na OK.
Zdroje budou viditelné v pracovním prostoru návrháře mapování, jak je vidět níže.

Krok 5: Podobně načtěte cílovou tabulku do mapování.

Krok 6: Nyní pojďme propojit kvalifikátor zdroje a cílovou tabulku. Klikněte pravým tlačítkem na libovolné prázdné místo v pracovním prostoru a vyberte Automatické propojení, jak je vidět níže:

Níže je mapování, na které odkazuje Autolink.

Krok 7: Protože musíme obě tabulky propojit se zdrojovým kvalifikátorem, vyberte sloupce tabulky oddělení a umístěte jej do zdrojového kvalifikátoru, jak je vidět níže:

Hodnoty sloupců přetáhněte do zdrojového kvalifikátoru SQ_EMPLOYEES .

Níže je aktualizovaný zdrojový kvalifikátor.

Krok 8: Poklepáním na zdrojový kvalifikátor upravte transformaci.

Zobrazí se vyskakovací okno Upravit transformaci, jak je vidět níže. Klikněte na kartu Vlastnosti.

Krok 9: Na kartě Vlastnosti klikněte na pole Hodnota v řádku UserDefined Join.

Získáte následující editor SQL:

Krok 10: Enter EMPLOYEES.DEPARTMENT_ID = DEPARTMENT.DEPARTMENT_ID jako podmínku pro spojení obou tabulek v poli SQL a klikněte na OK.

Krok 11: Nyní klikněte na řádek SQL Query a vygenerujte SQL pro připojení, jak je vidět níže:

Získáte následující editor SQL, klikněte na možnost Generovat SQL.

Následující SQL bude vygenerován pro podmínku, kterou jsme zadali v předchozím kroku. Klikněte na OK.

Krok 12: Klikněte na Použít a OK.

Níže je dokončené mapování.

Dokončili jsme návrh způsobu přenosu dat ze zdroje do cíle. Ke skutečnému přenosu dat však stále ještě nedojde, a proto musíme použít návrh pracovního postupu PowerCenter. Provedení pracovního postupu povede k přenosu dat ze zdroje do cíle. Chcete-li se o pracovním postupu dozvědět více, podívejte se na náš Výukový program Informatica: Pracovní postup Blog

Krok 13: LNyní spustíme Správce pracovních postupů kliknutím na ikonu W, jak je vidět níže:

Níže je domovská stránka návrháře pracovního postupu.

Krok 14: Pojďme nyní vytvořit nový pracovní postup pro naše mapování. Klikněte na kartu Pracovní postup a vyberte možnost Vytvořit.

Zobrazí se níže uvedené vyskakovací okno. Zadejte název svého pracovního postupu a klikněte na OK.

Krok 15 : Jakmile je pracovní postup vytvořen, dostaneme ikonu Start v pracovním prostoru Správce pracovních postupů.

Nyní přidáme novou relaci do pracovního prostoru, jak je vidět níže, kliknutím na ikonu relace a kliknutím na pracovní prostor:

Kliknutím na pracovní plochu umístěte ikonu relace.

Krok 16: Při přidávání relace musíte vybrat Mapování, které jste vytvořili a uložili ve výše uvedených krocích. (Uložil jsem to jako m-ZAMĚSTNANEC).

Níže je pracovní prostor po přidání ikony relace.

Krok 17 : Nyní, když jste vytvořili novou relaci, musíme ji propojit se spouštěcí úlohou. Můžeme to udělat kliknutím na ikonu Propojit úlohu, jak je vidět níže:

print_r ()

Nejprve klikněte na ikonu Start a poté na ikonu relace a vytvořte odkaz.

Níže je připojený pracovní postup.

Krok 18: Nyní, když jsme dokončili návrh, začněme pracovní postup. Klikněte na kartu Pracovní postup a vyberte možnost Spustit pracovní postup.

Správce sledu prací začíná sledováním sledu prací.

Krok 19 : Jakmile spustíme pracovní postup, automaticky se spustí Správce pracovního postupuaumožňuje sledovat provádění pracovního postupu. Níže vidíte, jak Monitor pracovního postupu zobrazuje stav vašeho pracovního postupu.

Krok 20: Chcete-li zkontrolovat stav pracovního postupu, klikněte pravým tlačítkem na pracovní postup a vyberte Získat vlastnosti spuštění, jak je vidět níže:

Vyberte kartu Statistika zdroje / cíle.

Níže vidíte počet řádků, které byly po transformaci přeneseny mezi zdrojem a cílem.

Svůj výsledek můžete také ověřit kontrolou cílové tabulky, jak je vidět níže.

Doufám, že tento blog Informatica ETL pomohl rozšířit vaše chápání konceptů ETL pomocí Informatica a vytvořil dostatečný zájem, abyste se o Informatice dozvěděli více.

Pokud vám tento blog pomohl, můžete si také prohlédnout naši sérii blogů Informatica Tutorial , Výukový program Informatica: Porozumění programu Informatica „naruby“ a Transformace Informatica: Srdce a duše Informatica PowerCenter . V případě, že hledáte podrobnosti o certifikaci Informatica, můžete se podívat na náš blog Certifikace Informatica: Vše, co je třeba vědět .

Pokud jste se již rozhodli věnovat se Informatice jako kariéře, doporučil bych vám nahlédnout do naší stránka kurzu. Certifikační školení Informatica na Edurece z vás udělá odborníka v Informatice prostřednictvím živých lekcí vedených instruktory a praktických školení s využitím případů použití v reálném životě.