Co je datová věda? Průvodce pro začátečníky v oblasti datové vědy



Data Science je budoucnost umělé inteligence. Zjistěte, co je Data Science, jak může přidat hodnotu vašemu podnikání a jeho různým fázím životního cyklu.

Jak svět vstoupil do éry velkých dat, rostla také potřeba jejich úložiště. Do roku 2010 to byla hlavní výzva a starost pro podniková odvětví. Hlavní důraz byl kladen na budování rámce a řešení pro ukládání dat. Nyní, když Hadoop a další rámce úspěšně vyřešily problém skladování, se pozornost přesunula na zpracování těchto dat. Tajná omáčka je zde Data Science. Všechny myšlenky, které vidíte v hollywoodských sci-fi filmech, se mohou díky Data Science skutečně proměnit v realitu. Data Science je budoucnost umělé inteligence. Proto je velmi důležité pochopit, co je Data Science a jak může přidat hodnotu vašemu podnikání.

Edureka 2019 Tech Career Guide je venku! Nejžhavější pracovní pozice, přesné cesty učení, výhled odvětví a další v příručce. Stažení Nyní.

V tomto blogu se budu věnovat následujícím tématům.





Na konci tohoto blogu budete schopni pochopit, co je Data Science a její role při získávání smysluplných poznatků ze složitých a velkých souborů dat všude kolem nás.Chcete-li získat podrobné znalosti o Data Science, můžete se zaregistrovat naživo od společnosti Edureka s nepřetržitou podporou a doživotním přístupem.

Co je datová věda?

Data Science je směsicí různých nástrojů, algoritmů a principů strojového učení s cílem objevit skryté vzory ze surových dat. Jak se to ale liší od toho, co statistici dělají roky?



Odpověď spočívá v rozdílu mezi vysvětlením a předpovědí.

Data Analyst v / s Data Science - Edureka

Jak vidíte na obrázku výše, datový analytikobvykle vysvětluje, co se děje, zpracováním historie dat. Na druhou stranu Data Scientist nejenže provádí průzkumnou analýzu, aby zjistil poznatky z ní, ale také používá různé pokročilé algoritmy strojového učení k identifikaci výskytu konkrétní události v budoucnosti. Data Scientist se podívá na data z mnoha úhlů, někdy z úhlů, které dříve nebyly známy.



Data Science se tedy primárně používá k rozhodování a předpovědi s využitím prediktivní kauzální analýzy, preskriptivní analýzy (prediktivní plus rozhodovací věda) a strojového učení.

  • Prediktivní kauzální analýza - Pokud chcete model, který dokáže předvídat možnosti konkrétní události v budoucnu, musíte použít prediktivní kauzální analýzu. Řekněme, že pokud poskytujete peníze na úvěr, pak je pravděpodobnost, že zákazníci budou splácet budoucí úvěry včas, otázkou, které vás zajímá. Zde můžete vytvořit model, který dokáže provádět prediktivní analytiku platební historie zákazníka a předpovídat, zda budou budoucí platby včas nebo ne.
  • Předepsaná analýza: Pokud chcete model, který má inteligenci přijímat svá vlastní rozhodnutí a schopnost jej upravovat pomocí dynamických parametrů, určitě pro něj potřebujete preskriptivní analýzu. V této relativně nové oblasti jde o poskytování poradenství. Jinými slovy nejen předpovídá, ale také navrhuje řadu předepsaných akcí a souvisejících výsledků.
    Nejlepším příkladem je auto s vlastním řízením od Googlu, o kterém jsem již dříve hovořil. Údaje shromážděné vozidly lze použít k trénování samojízdných automobilů. Na těchto datech můžete spustit algoritmy, které jim přinesou inteligenci. To umožní vašemu vozu přijímat rozhodnutí, jako kdy odbočit, kterou cestou se vydat,kdy zpomalit nebo zrychlit.
  • Strojové učení pro vytváření předpovědí - Pokud máte transakční data finanční společnosti a potřebujete vytvořit model pro určení budoucího trendu, pak jsou nejlepší sázky algoritmy strojového učení. To spadá do paradigmatu učení pod dohledem. Říká se tomu pod dohledem, protože již máte data, na jejichž základě můžete trénovat své stroje. Například model detekce podvodů lze trénovat pomocí historických záznamů o podvodných nákupech.
  • Strojové učení pro zjišťování vzorů - Pokud nemáte parametry, na jejichž základě můžete vytvářet předpovědi, musíte zjistit skryté vzory v datové sadě, abyste mohli dělat smysluplné předpovědi. Toto není nic jiného než model bez kontroly, protože nemáte žádné předdefinované štítky pro seskupování. Nejběžnějším algoritmem používaným pro zjišťování vzorů je shlukování.
    Řekněme, že pracujete v telefonní společnosti a potřebujete vytvořit síť umístěním věží v regionu. Potom můžete použít klastrovací techniku ​​k vyhledání těch umístění věže, která zajistí, že všichni uživatelé obdrží optimální sílu signálu.

Podívejme se, jak se liší podíl výše popsaných přístupů pro analýzu dat i datovou vědu. Jak vidíte na obrázku níže, Analýza datzahrnuje do určité míry popisnou analýzu a předpověď. Na druhou stranu, Data Science je více o Predictive Causal Analytics and Machine Learning.

Data Science Analytics - Edureka

Nyní, když víte, co přesně je datová věda, pojďme nyní zjistit důvod, proč to bylo potřeba.

Proč Data Science?

  • Data, která jsme měli, byla tradičně většinou strukturovaná a malá, což bylo možné analyzovat pomocí jednoduchých nástrojů BI.Na rozdíl od dat vtradiční systémy, které byly většinou strukturované, dnes je většina dat nestrukturovaná nebo polostrukturovaná. Podívejme se na datové trendy na obrázku níže, který ukazuje, že do roku 2020 bude více než 80% dat nestrukturovaných.
    Tok nestrukturovaných dat - Edureka
    Tato data jsou generována z různých zdrojů, jako jsou finanční deníky, textové soubory, multimediální formuláře, senzory a nástroje. Jednoduché nástroje BI nejsou schopny zpracovat tento obrovský objem a rozmanitost dat. Proto potřebujeme složitější a pokročilejší analytické nástroje a algoritmy pro zpracování, analýzu a čerpání smysluplných poznatků.

To není jediný důvod, proč se Data Science stala tak populární. Podívejme se hlouběji na to, jak se Data Science používá v různých doménách.

  • Co kdybyste pochopili přesné požadavky vašich zákazníků z existujících údajů, jako je minulá historie procházení zákazníka, historie nákupů, věk a příjem. Není pochyb o tom, že jste všechna tato data měli také dříve, ale nyní s obrovským množstvím a rozmanitostí dat můžete trénovat modely efektivněji a s přesností doporučit produkt svým zákazníkům. Nebylo by to úžasné, protože to vaší organizaci přinese více podnikání?
  • Pojďme si vzít jiný scénář, abychom pochopili roli Data Science v rozhodování.A co kdyby vaše auto mělo inteligenci, která vás dovede domů? Auta s vlastním pohonem shromažďují živá data ze senzorů, včetně radarů, kamer a laserů, a vytvářejí tak mapu svého okolí. Na základě těchto dat se rozhoduje, kdy zrychlit, kdy zrychlit, kdy předjet, kde se obrátit - využívat pokročilé algoritmy strojového učení.
  • Podívejme se, jak lze Data Science využít v prediktivní analýze. Vezměme si jako předpověd počasí. Data z lodí, letadel, radarů, satelitů lze shromažďovat a analyzovat za účelem sestavení modelů. Tyto modely nejen předpovídají počasí, ale také pomáhají předpovídat výskyt jakýchkoli přírodních pohrom. Pomůže vám to předem přijmout vhodná opatření a zachránit mnoho drahocenných životů.

Pojďme se podívat na níže uvedenou infografiku a podívat se na všechny domény, ve kterých Data Science vytváří svůj dojem.

Případy použití datové vědy - Edureka

Kdo je datový vědec?

Existuje několik definic dostupných v Data Scientists. Jednoduše řečeno, Data Scientist je ten, kdo praktikuje umění Data Science.Pojem „Data Scientist“ bylvytvořeno po zvážení skutečnosti, že datový vědec čerpá spoustu informací z vědeckých oborů a aplikací, ať už jde o statistiku nebo matematiku.

Co dělá Data Scientist?

Datoví vědci jsou ti, kteří prolomí složité problémy s daty díky své silné odbornosti v určitých vědních oborech. Pracují s několika prvky souvisejícími s matematikou, statistikou, informatikou atd. (I když nemusí být odborníkem ve všech těchto oblastech).Při hledání řešení a dosahování závěrů, které jsou zásadní pro růst a rozvoj organizace, hodně využívají nejnovější technologie. Datoví vědci prezentují data v mnohem užitečnější formě ve srovnání s nezpracovanými daty, která mají k dispozici ze strukturovaných i nestrukturovaných forem.

Chcete-li se dozvědět více o datovém vědci, podívejte se na tento článek

Pohybem dále pojďme nyní diskutovat o BI. Jsem si jistý, že jste možná slyšeli také o Business Intelligence (BI). Data Science je často zaměňována s BI. Uvedu některé stručné a jasnékontrasty mezi těmito dvěma, které vám pomohou lépe porozumět. Pojďme se podívat.

Business Intelligence (BI) vs. Data Science

  • Business Intelligence (BI) v zásadě analyzuje předchozí data, aby našla zpětný pohled a vhled k popisu obchodních trendů. Tady BI vám umožňuje přijímat data z externích a interních zdrojů, připravovat je, spouštět na nich dotazy a vytvářet řídicí panely pro zodpovídání otázek, jako ječtvrtletní analýza výnosůnebo obchodní problémy. BI může vyhodnotit dopad určitých událostí v blízké budoucnosti.
  • Data Science je přístup více zaměřený na budoucnost, průzkumný způsob se zaměřením na analýzu minulých nebo současných údajů a předvídání budoucích výsledků s cílem činit informovaná rozhodnutí. Odpovídá na otevřené otázky týkající se „co“ a „jak“ k událostem dochází.

Podívejme se na některé kontrastní funkce.

Funkce Business Intelligence (BI) Data Science
Zdroje datStrukturované
(Obvykle SQL, často Data Warehouse)
Strukturované i nestrukturované

(protokoly, cloudová data, SQL, NoSQL, text)

PřístupStatistiky a vizualizaceStatistika, strojové učení, analýza grafů, neurolingvistické programování (NLP)
Soustředit seMinulost a přítomnostSoučasnost a budoucnost
NástrojePentaho, Microsoft BI,QlikView, R.RapidMiner, BigML, Weka, R.

Jednalo se o to, co je Data Science, pojďme pochopit životní cyklus Data Science.

Častou chybou v projektech Data Science je spěchání do sběru a analýzy dat, aniž by pochopili požadavky nebo dokonce správně formulovali obchodní problém. Proto je velmi důležité sledovat všechny fáze v průběhu životního cyklu datové vědy, abyste zajistili hladké fungování projektu.

Životní cyklus datové vědy

Zde je stručný přehled hlavních fází životního cyklu datové vědy:

Životní cyklus datové vědy - Edureka


Objev datové vědy - EdurekaFáze 1 - objev:
Před zahájením projektu je důležité pochopit různé specifikace, požadavky, priority a požadovaný rozpočet. Musíte mít schopnost klást správné otázky.Zde posoudíte, zda máte k dispozici požadované zdroje, pokud jde o lidi, technologii, čas a data, která projekt podporují.V této fázi je také nutné vytvořit rámec obchodního problému a formulovat počáteční hypotézy (IH) k testování.

Příprava dat Data Science - Edureka

Fáze 2 - Příprava dat: V této fázi potřebujete analytický sandbox, ve kterém můžete provádět analytiku po celou dobu trvání projektu. Před modelováním musíte prozkoumat, předzpracovat a podmínit data. Dále provedete ETLT (extrakce, transformace, načtení a transformace), abyste získali data do karantény. Pojďme se podívat na tok Statistické analýzy níže.

Životní cyklus datové vědy
Můžete použít R pro čištění, transformaci a vizualizaci dat. To vám pomůže odhalit odlehlé hodnoty a navázat vztah mezi proměnnými.Jakmile data očistíte a připravíte, je čas provést průzkumanalytikana to. Podívejme se, jak toho můžete dosáhnout.

nastavit java classpath windows 10

Fáze 3 - plánování modelu: Plánování modelu datové vědy - Edureka Zde určíte metody a techniky k vykreslení vztahů mezi proměnnými.Tyto vztahy nastaví základ pro algoritmy, které budete implementovat v další fázi.Aplikujete Exploratory Data Analytics (EDA) pomocí různých statistických vzorců a vizualizačních nástrojů.

Pojďme se podívat na různé nástroje pro plánování modelů.

Nástroje pro plánování modelů v Data Science - Edureka

  1. R má kompletní sadu schopností modelování a poskytuje dobré prostředí pro vytváření interpretačních modelů.
  2. Služby analýzy SQL může provádět analytiku v databázi pomocí běžných funkcí dolování dat a základních prediktivních modelů.
  3. SAS / PŘÍSTUP lze použít pro přístup k datům z Hadoopu a slouží k vytváření opakovatelných a opakovaně použitelných vývojových diagramů modelu.

Na trhu je sice mnoho nástrojů, ale R je nejčastěji používaným nástrojem.

Nyní, když jste získali přehled o povaze vašich dat a rozhodli jste se použít algoritmy. V další fázi budeteaplikovatalgoritmus a vytvořit model.

Budování modelu datové vědy - EdurekaFáze 4 - Budování modelu: V této fázi budete vyvíjet datové sady pro účely školení a testování. Tady yMusíte zvážit, zda vaše stávající nástroje budou stačit pro provoz modelů, nebo bude vyžadovat robustnější prostředí (jako je rychlé a paralelní zpracování). K sestavení modelu budete analyzovat různé techniky učení, jako je klasifikace, asociace a shlukování.

Vytváření modelů můžete dosáhnout pomocí následujících nástrojů.

Modelování stavebních nástrojů v Data Science

Fáze 5 - uvedení do provozu: Data Science zprovozněna - Edureka V této fázi dodáváte závěrečné zprávy, briefingy, kódy a technické dokumenty.Kromě toho je někdy pilotní projekt implementován také v produkčním prostředí v reálném čase. To vám poskytne jasný obraz o výkonu a dalších souvisejících omezeních v malém měřítku před plným nasazením.


Komunikace v datové vědě - EdurekaFáze 6 - Komunikujte výsledky:
Nyní je důležité vyhodnotit, zda jste byli schopni dosáhnout svého cíle, který jste si naplánovali v první fázi. V poslední fázi tedy identifikujete všechna klíčová zjištění, komunikujete se zúčastněnými stranami a určíte, zda jsou výsledkyprojektu jsou úspěch nebo neúspěch na základě kritérií vyvinutých ve fázi 1.

Nyní provedu případovou studii, která vám vysvětlí různé fáze popsané výše.

Případová studie: Prevence cukrovky

Co kdybychom mohli předpovědět výskyt cukrovky a předem přijmout vhodná opatření, abychom tomu zabránili?
V tomto případě použití budeme předpovídat výskyt cukrovky s využitím celého životního cyklu, o kterém jsme hovořili dříve. Pojďme projít různými kroky.

Krok 1:

  • Za prvé,budeme shromažďovat údaje na základě anamnézypacienta, jak je popsáno ve Fázi 1. Můžete si prohlédnout níže uvedená ukázková data.

Ukázková data Data Science - Edureka

  • Jak vidíte, máme různé atributy, jak je uvedeno níže.

Atributy:

  1. npreg - Počet těhotenství
  2. glukóza - koncentrace glukózy v plazmě
  3. bp - Krevní tlak
  4. kůže - tloušťka tricepsu
  5. bmi - index tělesné hmotnosti
  6. ped - funkce rodokmenu Diabetes
  7. věk - věk
  8. příjem - příjem

Krok 2:

  • Jakmile máme data, musíme je vyčistit a připravit pro analýzu dat.
  • Tato data mají mnoho nesrovnalostí, jako jsou chybějící hodnoty, prázdné sloupce, náhlé hodnoty a nesprávný formát dat, které je třeba vyčistit.
  • Zde jsme data uspořádali do jedné tabulky pod různými atributy - takže vypadají strukturovaněji.
  • Podívejme se níže na ukázková data.

Nekonzistentní data z oblasti datové vědy - Edureka

Tato data mají mnoho nesrovnalostí.

  1. Ve sloupci npreg „Je napsán„ jeden “slova,vzhledem k tomu, že by měl být v numerické formě jako 1.
  2. Ve sloupci bp jedna z hodnot je 6600, což je nemožné (alespoň pro člověka) protože bp nemůže dosáhnout takové obrovské hodnoty.
  3. Jak vidíte Příjem sloupec je prázdný a také nedává smysl předpovídat cukrovku. Proto je zbytečné jej zde mít a mělo by být odstraněno z tabulky.
  • Takže tato data vyčistíme a předzpracujeme odstraněním odlehlých hodnot, vyplněním hodnot null a normalizací datového typu. Pokud si pamatujete, toto je naše druhá fáze, kterou je předzpracování dat.
  • Nakonec získáme čistá data, jak je uvedeno níže, která lze použít pro analýzu.

Data konzistentní s Data Science - Edureka

Krok 3:

Nyní provedeme nějakou analýzu, jak byla popsána dříve ve Fázi 3.

  • Nejprve načteme data do analytického sandboxu a použijeme na ně různé statistické funkce. Například R má funkce jako popisuje což nám dává počet chybějících hodnot a jedinečných hodnot. Můžeme také použít funkci souhrnu, která nám poskytne statistické informace, jako je průměr, medián, rozsah, minimální a maximální hodnoty.
  • Poté použijeme vizualizační techniky, jako jsou histogramy, spojnicové grafy, grafy polí, abychom získali věrnou představu o distribuci dat.

Vizualizace datové vědy - Edureka

Krok 4:

Nyní, na základě poznatků odvozených z předchozího kroku, je nejvhodnější pro tento druh problému rozhodovací strom. Uvidíme jak?

  • Protože již máme hlavní atributy pro analýzu jako npreg, bmi atd., takže použijemetechnika učení pod dohledem k vybudovánímodel zde.
  • Dále jsme použili zejména rozhodovací strom, protože bere v úvahu všechny atributy najednou, jako ty, které mají alineární vztah i ty, které mají nelineární vztah. V našem případě máme lineární vztah mezi npreg a stáří, zatímco nelineární vztah mezi npreg a ped .
  • Modely rozhodovacích stromů jsou také velmi robustní, protože můžeme použít různé kombinace atributů k vytvoření různých stromů a nakonec ten implementovat s maximální efektivitou.

Pojďme se podívat na náš rozhodovací strom.

Datová sada návrhu stromu

Zde je nejdůležitějším parametrem hladina glukózy, takže je to náš kořenový uzel. Nyní aktuální uzel a jeho hodnota určují další důležitý parametr, který je třeba vzít. Pokračuje to, dokud nedosáhneme výsledku poz nebo neg . Pos znamená, že tendence mít diabetes je pozitivní a neg znamená tendenci mít diabetes, je negativní.

Pokud se chcete dozvědět více o implementaci rozhodovacího stromu, přečtěte si tento blog

Krok 5:

V této fázi provedeme malý pilotní projekt, abychom zkontrolovali, zda jsou naše výsledky vhodné. Budeme také hledat omezení výkonu, pokud existují. Pokud výsledky nejsou přesné, musíme model znovu naplánovat a znovu sestavit.

Krok 6:

Po úspěšném provedení projektu budeme sdílet výstup pro plné nasazení.

Být datovým vědcem se snadněji řekne, než udělá. Podívejme se tedy, co vše, co potřebujete, aby byl Data Scientist.Data Scientist v zásadě vyžaduje dovednostize tří hlavních oblastí, jak je znázorněno níže.

Dovednosti v oblasti datových věd - Edureka

Jak vidíte na obrázku výše, musíte si osvojit různé tvrdé a měkké dovednosti. Musíte být dobří statistika a matematika analyzovat a vizualizovat data. Netřeba říkat, Strojové učení tvoří srdce Data Science a vyžaduje, abyste v tom byli dobří. Musíte také důkladně rozumět doména pracujete na tom, abyste jasně pochopili obchodní problémy. Váš úkol zde nekončí. Měli byste být schopni implementovat různé algoritmy, které vyžadují dobrý kódování dovednosti. A konečně, jakmile učiníte určitá klíčová rozhodnutí, je důležité, abyste je doručili zúčastněným stranám. Tak dobré sdělení určitě přidá body brownie do vašich dovedností.

Vyzývám vás, abyste si prohlédli tento videonávod k datové vědě, který vysvětluje, co je datová věda a vše, o čem jsme diskutovali v blogu. Jděte do toho, užijte si video a řekněte mi, co si myslíte.

Co je datová věda? Kurz datové vědy - výuka datové vědy pro začátečníky Edureka

Toto video kurzu Edureka Data Science vás provede potřebou datové vědy, co je datová věda, případy použití datové vědy pro podnikání, BI vs. datová věda, nástroje pro analýzu dat, životní cyklus datové vědy spolu s ukázkou.

Nakonec nebude špatné říci, že budoucnost patří datovým vědcům. Předpokládá se, že do konce roku 2018 bude zapotřebí přibližně jeden milion vědců v oblasti dat. Stále více dat poskytne příležitosti k řízení klíčových obchodních rozhodnutí. Brzy to změní pohled na svět zaplavený daty kolem nás. Datový vědec by proto měl být vysoce kvalifikovaný a motivovaný k řešení nejsložitějších problémů.

Doufám, že se vám líbilo čtení mého blogu a pochopili jste, co je Data Science.Podívejte se na naše zde přichází s živým tréninkem vedeným instruktorem a zkušenostmi z reálných projektů.