Proces prediktivní analýzy v Business Analytics s R.



Blog poskytuje krátkou představu o procesu prediktivní analýzy v Business Analytics s R.

Typický proces modelování:

V typickém procesu modelování je důležité začít vytvářet hypotézu. Je přijata žádost o nabídku (RFP) a poté je vytvořena hypotéza.





k čemu se datová věda používá
  1. Určete správný zdroj dat - Zde může zákazník uvést zdroj dat, pokud ne, musíme hledat zdroj dat. Vzhledem k scénáři, kde se snažíme vyhodnotit, kdo by vyhrál volby, se provádí veřejná analýza dat se zdroji, které zahrnují sociální média, zpravodajské kanály nebo veřejné mínění. Musíme také porozumět množství dat potřebných k analýze problému. V tomto případě obvykle hledáme velké vzorky, protože se jedná o volební případ. Na druhou stranu, pokud je provedena analýza zdravotnictví, je obtížné najít velkou populaci, protože existuje možnost, že nebude dostatek lidí k ověření hypotézy. Také kvalita dat je velmi důležitá.
  2. Extrahovat data - Například pokud vezmeme vzorek populace, můžeme se podívat na atributy, jako je vysoký příjem, nízký příjem, věk, pracující populace (mimo pracoviště / na místě), obyvatelé, NRI, pokrytí nemocnic atd., Abychom zahájili studii . Tady možná nebudeme potřebovat tolik atributů pro hypotézu. Chápeme, že atributy, jako je vysoký a nízký příjem, nemusí být faktory, které přispívají k určení toho, kdo volby vyhraje. Ale věk může něco změnit, protože dá přímý výpočet toho, kolik lidí bude volit. Mnohokrát můžeme vyloučit méně používané atributy nebo zahrnout atributy, které jsou užitečné. V obou případech by se to mohlo pokazit. Z tohoto důvodu je analytika výzvou.
  3. Masírujte data, aby se vešly do nástroje - Je to proto, že ne všechny nástroje mohou přijímat všechna data. Některé nástroje přijímají pouze data ve formátu CSV nebo Excel. Nedostatek nástrojů je výzva.
  4. Spusťte analýzu - Tuto operaci lze provést pomocí mnoha analytických technik.
  5. Vyvodit závěry - Analýza udává čísla, abychom byli přesní. Je však na uživateli, aby z těchto čísel vyvodil závěry. Například pokud říká 10% nebo 20%, musíme pochopit, co to znamená? Odvozuje korelaci mezi atributem A a atributem B?
  6. Implementujte výsledky - Je důležité zavést závěry, abyste viděli výsledky v podnikání. Lze například dojít k závěru, že „Lidé si deštník kupují v období dešťů“ což může mít za následek další podnikání. Zde musíme provést závěr, kde uděláme deštník, dostupný v obchodech, ale pak to může mít problémy s řízením. Ve chvíli, kdy statistiky poskytnou výsledek, se implementace může pokazit.
  7. Monitorujte pokrok - Posledním krokem zde je monitorování, které hraje důležitou roli. Monitorování se může pokazit, protože jen málo organizací chce monitorovat pokrok, a je to považováno za zanedbatelný krok. Ale monitorování je důležité, protože můžeme pochopit, zda náš výzkum a závěry směřují správným směrem.

Podívejte se také na tento článek'' Korelace neznamená příčinnou souvislost ''který poskytuje pohled na to, jak se analytici mohou pokazit. Důležitým bodem, který je třeba v tomto grafu poznamenat, je, že spuštění analýzy je jediným krokem, kdy je stroj odpovědný, a nad rámec toho až k lidské bytosti, která nakonec určí, jak se výzkum provádí.

Máte na nás dotaz? Uveďte je v sekci komentáře a my se vám ozveme.



co je apache spark vs hadoop

Související příspěvky: