Důležitost datové vědy s Cassandrou



Cassandra je databáze s otevřeným zdrojovým kódem pro zpracování velkého množství dat na mnoha serverech, takže poptávka datových vědců se znalostí cassandry je vysoká.

'

Rychlá expanze digitálních dat prostřednictvím počítačů, mobilních zařízení, videa, sociálních médií, digitálních senzorů atd. V kombinaci s velkými průlomy v levnějším procesním výkonu, databázových aplikacích s otevřeným zdrojovým kódem a širší šířce pásma vyvolala obrovský zájem v celém obchodním světě o nastupující pole vědy o velkých datech a analytika.





Velká data ve velkých nestrukturovaných svazcích jsou příliš velká na to, aby byla spravována a analyzována tradičními metodami. Díky velkému množství a rychlosti dnešních dat je snímání, filtrování, ukládání a analýza skutečnou výzvou. Pravidelně se vyvíjejí nové produkty, které vyžadují nové dovednosti a odborné znalosti. Roste potřeba jednotlivců, kteří mohou do organizace integrovat novou infrastrukturu, platformy a procesy, i těch, kteří mohou vytvářet nové analytické nástroje a algoritmy schopné vytvářet enormní inteligenci s velkou obchodní hodnotou. Pro více informací si přečtěte náš blogový příspěvek na

Relevance datové vědy v různých průmyslových odvětvích:

Data Science & Analytics má uplatnění ve všech průmyslových odvětvích:



  • elektronický obchod - Personalizace a doporučení, které zvyšují prodej.
  • Reklamní - Vysoce cílené doručování reklam spotřebitelům v reálném čase.
  • Média a zábava - Vývoj obsahu na míru, který maximalizuje zapojení uživatelů.
  • Sociální média - Zvýšená „lepivost“ webu, růst uživatelů, schopnost sledovat rychle se rozvíjející trendy na základě spotřebitelských nálad.
  • Finanční služby –Optimalizované postupy půjčování, které minimalizují riziko a podvody.
  • Farmacie / bioinformatika - Vylepšený objev léků, účinnější léčba ohrožujících nemocí, vylepšení genetického inženýrství.
  • Zdravotní péče - Lepší hodnocení zdravotnických rizik u pacientů v lékařství a předvídání a včasná prevence nemocí.
  • Síla / energie - Inteligentní inteligentní síť, efektivita využití, úspory energie a snížení prostojů.
  • Informační bezpečnost - Výrazně vylepšená detekce krádeží a sledování cenných firemních informací a aktiv.

Klíčové dovednosti profesionálů v oboru datových věd:

Doména Data Science vyžaduje odborníky, kteří:

  • Rozumí datové analytice a rozhodovací vědě
  • Jsou dobře obeznámeni s IT
  • Mít silnou obchodní prozíravost
  • Mají schopnost efektivně komunikovat s osobami s rozhodovací pravomocí

Přečtěte si více: Základní dovednosti potřebné k tomu, aby byl Data Scientist.

Běžné technologie spojené s praxí v oblasti datových věd:

Technologie spojené s datovou vědou



  • Databáze

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

jak vytvořit aplikaci v salesforce

Aster, Greenplum, Netezza

  • Jazyky

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Úl, prase, Lucene, Mahout, Solr

  • Statistiky a prognózy

Angoss, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

  • Vizualizace dat

QlikView, Spotfire, Tableau, yWorks, R.

  • BI a hlášení

BusinessObjects, Cognos, MicroStrategy

Co je Cassandra?

  • Apache Cassandra je otevřený systém správy distribuované databáze navržený pro zpracování velkého množství dat na mnoha komoditních serverech.
  • Cassandra poskytuje vysokou dostupnost bez jediného bodu selhání.
  • Cassandra nabízí robustní podporu pro clustery zahrnující více datových center s asynchronní replikací bez hlavního serveru, která umožňuje operacím s nízkou latencí pro všechny klienty.

Další informace najdete v našem blogovém příspěvku na webu .

Jak využívá Data Science Cassandru?

Cassandra je & hanblivá & plachá distribuovaná databáze pro služby s nízkou latencí a vysokou propustností, které zpracovávají pracovní zátěže v reálném čase zahrnující stovky aktualizací za sekundu a desítky tisíc čtení za sekundu.

Cassandra Pouzdro na použití - PROS:

PROS je softwarová společnost s velkými daty s normativními analýzami v jejich softwaru, která zákazníkům umožňuje analyzovat svá data a získat přehled a pokyny k optimalizaci jejich řízení cen, prodeje a výnosů.

Mají službu v reálném čase, která počítá dostupnost letecké společnosti, dynamicky zohledňující údaje o kontrole tržeb a úrovně zásob, které se mohou měnit stokrát za sekundu.

Tato služba je dotazována několik tisíckrát za sekundu, což znamená desítky tisíc vyhledávání dat. Jejich backendová úložná vrstva pro tuto službu je Cassandra.

Pro své řešení v reálném čase si společnost PROS uvědomila potřebu:

  • Distribuovaná mezipaměť, která je vysoce dostupná.
  • Snadno škálovatelné.
  • S architekturou bez pána.
  • S replikací dat téměř v reálném čase i napříč datovými centry.
  • To zvládne čtení a zápis v reálném čase.

PROS vyhodnotila Cassandru proti Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort a Redis. Apache Cassandra docela snadno vedla seznam.

PROS a Cassandra

  • PROS používá Cassandru jako distribuovanou databázi pro služby s nízkou latencí a vysokou propustností, které zpracovávají pracovní zátěže v reálném čase zahrnující stovky aktualizací za sekundu a desítky tisíc čtení za sekundu.
  • Například mají službu v reálném čase, která dynamicky počítá dostupnost letecké společnosti s přihlédnutím k údajům o kontrole tržeb a úrovním zásob, které se mohou měnit stokrát za sekundu. Tato služba je dotazována několik tisíckrát za sekundu, což znamená desítky tisíc vyhledání dat. Jejich backendová úložná vrstva pro tuto službu je Cassandra. Některé z jejich nabídek SaaS používají Cassandru jako back-endový obchod pro zpracování kombinace dávkových úloh v reálném čase a Hadoop.
  • Když už mluvíme o Hadoopovi a Cassandře, vyndají data z Cassandry a vloží je do Hadoopu a spustí dávkové a analytické analýzy a pak se to vrátí zpět do Cassandry. Toho je dosaženo integrací Hadoop Cassandry.
  • Úlohy Hadoop vytáhnou data z Cassandry, použijí transformace nebo analýzy specifické pro úlohu a posunou data zpět do Cassandry. Pro tuto integraci nepoužívají edici Datastax (oficiální Cassandra Maintainer) Enterprise pouze instalaci open source Hadoop s Cassandrou.

Datové modelování s Cassandrou:

Když se snažíte nahradit úložiště klíčů a hodnot něčím schopnějším v oblasti replikace a distribuce dat v reálném čase, výzkum Dynama, věty CAP a případného modelu konzistence ukazuje, že Cassandra tomuto modelu docela dobře vyhovuje. Když se člověk dozví více o možnostech modelování dat, postupně přecházíme k rozkladu dat.

Pokud jeden pochází z pozadí relační databáze se silnou sémantikou ACID, pak je třeba věnovat čas pochopení případného modelu konzistence.

typ funkce v sql

Pochopte velmi dobře architekturu Cassandry a to, co dělá pod kapotou. S Cassandrou 2.0 získáte odlehčené transakce a spouštěče, ale nejsou stejné jako tradiční databázové transakce, se kterými byste se mohli seznámit. Například nejsou k dispozici žádná omezení cizího klíče - musí být zpracována vlastní aplikací. Pochopení případů použití a vzorů přístupu k datům jasně před modelováním dat pomocí Cassandry a přečíst si veškerou dostupnou dokumentaci je nutností.

Závěr:

Apache Cassandra se rychle vyvíjí a my se učíme a rozumíme jeho schopnostem - zejména po stránce datového modelování. Vidíme to jako distribuovanou databázi NoSQL pro naše služby a řešení Big Data.

Edureka poskytuje komplexní pro ty, kteří se chtějí stát datovými vědci. Kurz zahrnuje řadu technik Hadoop, R a Machine Learning zahrnujících kompletní studium Data Science. Edureka také poskytuje který vám pomůže zvládnout NoSQL databáze. Tento kurz je navržen tak, aby poskytoval znalosti a dovednosti, aby se stal úspěšným odborníkem na Cassandru.