Proč byste si měli zvolit Python pro velká data



Programátoři a datoví vědci rádi pracují s Pythonem na velkých datech. Tento příspěvek na blogu vysvětluje, proč je Python pro profesionály Big Data Analytics nezbytný.

Python poskytuje obrovské množství knihoven pro práci na Big Data. Můžete také pracovat - z hlediska vývoje kódu - pomocí Pythonu pro Big Data mnohem rychleji než v jakémkoli jiném programovacím jazyce. Tyto dva aspekty umožňují vývojářům na celém světě přijmout Python jako jazyk volby pro projekty Big Data. Chcete-li získat podrobné znalosti o Pythonu a jeho různých aplikacích, můžete se zaregistrovat naživo s nepřetržitou podporou a doživotním přístupem.

Je velmi snadné zpracovat jakýkoli datový typ v pythonu. Uveďme to na jednoduchém příkladu. Ze snímku níže můžete vidět, že datový typ „a“ je řetězec a datový typ „b“ je celé číslo. Dobrou zprávou je, že se nemusíte starat o manipulaci s datovým typem. Python se o to už postaral.





Data-type-Python-for-big-data

Nyní je otázkou milionů dolarů Python s Big Data nebo Java s Big Data?



Dávám přednost Pythonu každý den s velkými daty, protože v Javě, pokud napíšete 200 řádků kódu, můžu udělat totéž za pouhých 20 řádků kódu s Pythonem. Někteří vývojáři říkají, že výkon Java je lepší než Python, ale všiml jsem si, že když pracujete s velkým množstvím dat (v GB, TB a dalších), výkon je téměř stejný, zatímco doba vývoje je kratší, když práce s Pythonem na velkých datech.

Nejlepší na Pythonu je, že neexistuje žádné omezení dat. Data můžete zpracovávat i na jednoduchém stroji, jako je komoditní hardware, váš notebook, stolní počítač a další.

Python lze použít k psaní programů a aplikací Hadoop MapReduce pro přístup k HDFS API pro Hadoop pomocí balíčku PyDoop



Jednou z největších výhod PyDoop je HDFS API. To vám umožní připojit se k instalaci HDFS, číst a zapisovat soubory a bez problémů získat informace o souborech, adresářích a vlastnostech globálního systému souborů.

MapReduce API PyDoop umožňuje řešit mnoho složitých problémů s minimálním úsilím programování. V Pythonu lze pomocí PyDoop implementovat koncepty Advance MapReduce jako ‚Counters 'a‚ Record Readers'.

V níže uvedeném příkladu spustím jednoduchý program pro počítání slov MapReduce napsaný v Pythonu, který počítá frekvenci výskytu slova ve vstupním souboru. Níže tedy máme dva soubory - „mapper.py“ a „reducer.py“, oba napsané v pythonu.

návod k nástroji talend etl pdf

Obr: mapper.py

Obr: reducer.py

Obr: spuštění úlohy MapReduce

Obr: výstup

Toto je velmi základní příklad, ale když píšete složitý program MapReduce, Python sníží počet řádků kódu 10krát ve srovnání se stejným programem MapReduce napsaným v Javě.

Proč má Python smysl pro datové vědce

Každodenní úkoly datového vědce zahrnují mnoho vzájemně souvisejících, ale odlišných činností, jako je přístup k datům a manipulace s nimi, výpočetní statistiky a vytváření vizuálních zpráv kolem těchto dat. Mezi úkoly patří také vytváření prediktivních a vysvětlujících modelů, hodnocení těchto modelů na dalších datech, integrace modelů do produkčních systémů, mimo jiné. Python má pestrou škálu otevřených knihoven téměř pro vše, co vědec dat dělá průměrný den.

SciPy (vyslovuje se jako „Sigh Pie“) je ekosystém otevřeného softwaru založeného na Pythonu pro matematiku, vědu a inženýrství. Existuje mnoho dalších knihoven, které lze použít.

Verdikt je, že Python je nejlepší volbou pro použití s ​​Big Data.

Máte na nás dotaz? Uveďte je prosím v sekci komentáře a my se vám ozveme.

Související příspěvky: