Jaké jsou předpoklady pro strojové učení?



Tento blog o předpokladech pro strojové učení vám pomůže pochopit základní pojmy, které potřebujete znát, než začnete se strojovým učením.

Strojové učení je bezpochyby nejžádanější technologií doby! Pokud jste začátečník, který začíná se strojovým učením, je důležité znát předpoklady pro strojové učení. Tento blog vám pomůže pochopit různé koncepty, které potřebujete znát, než začnete se strojovým učením.

Chcete-li získat podrobné znalosti o umělé inteligenci a strojovém učení, můžete se zaregistrovat naživo od společnosti Edureka s nepřetržitou podporou a doživotním přístupem.





Zde je seznam témat v tomto blogu:

  1. Předpoklady pro strojové učení
  2. Porozumění strojovému učení s případem použití

Předpoklady pro strojové učení

Chcete-li začít sMachine Learning musíte znát následující koncepty:



  1. Statistika
  2. Lineární algebra
  3. Počet
  4. Pravděpodobnost
  5. Programovací jazyky

Statistika

Statistiky obsahují nástroje, které lze použít k získání určitého výsledku z dat. Existuje popisná statistika, která se používá k transformaci nezpracovaných dat v některé důležité informace. Inferenční statistiku lze také použít k získání důležitých informací ze vzorku dat namísto použití úplné datové sady.

Chcete-li se dozvědět více o Statistiky můžete procházet následujícími blogy:

Lineární algebra

Nabídky lineární algebrys vektory, maticemi a lineárními transformacemi. Ve strojovém učení je to velmi důležité, protože ho lze použít k transformaci a provádění operací v datové sadě.



Počet

Matematika je důležité pole v matematice a hraje nedílnou roli v mnoha algoritmech strojového učení. Soubor dat, který má více funkcí, jsouPoužívá se k vytváření modelů strojového učení, protože funkcí je vícenásobný proměnný počet hraje důležitou roli při vytváření modelu strojového učení. Integrace a diferenciace jsou nutností.

Pravděpodobnost

Pravděpodobnost pomáhá předvídat pravděpodobnost výskytů. Pomáhá nám usoudit, že se situace může nebo nemusí opakovat. Pro strojové učení je pravděpodobnost a nadace.

Mathematics

Chcete-li se dozvědět více o pravděpodobnosti, projděte si toto Blog.

Programovací jazyk

Aby bylo možné implementovat celý proces Machine Learning, je nezbytné znát programovací jazyky jako R a Python. Python a R oba poskytují vestavěné knihovny, které usnadňují implementaci algoritmů Machine Learning.

výchozí hodnota pro char v java

Kromě základních znalostí programování je také důležité, abyste věděli, jak extrahovat, zpracovat a analyzovat data. Toto je jedna z nejdůležitějších dovedností, která je pro strojové učení zapotřebí.

Chcete-li se dozvědět více o programování jazyky pro strojové učení, můžete projít následující blogy:

  1. Nejlepší knihovny v Pythonu pro datovou vědu a strojové učení

Případ použití strojového učení

Strojové učení je o vytvoření algoritmu, který se může učit z dat, aby vytvořil předpověď, jaké druhy objektů jsou na obrázku, nebo modul doporučení, nejlepší kombinace léků na vyléčení určité nemoci nebo filtrování spamu.

Strojové učení je postaveno na matematických předpokladech a pokud víte, proč se ve strojovém učení používá matematika, bude to zábavné. Musíte znát matematiku za funkcemi, které budete používat, a který model je vhodný pro data a proč.

Začněme tedy se zajímavým problémem předpovídání cen domů, který bude mít soubor dat obsahující historii různých funkcí a cen, prozatím budeme uvažovat o ploše obytného prostoru ve čtverečních stopách a cenách.

Nyní máme datovou sadu obsahující dva sloupce, jak je znázorněno níže:

Mezi těmito dvěma proměnnými musí být nějaká korelace, abychom zjistili, že budeme muset vytvořit model, který dokáže předvídat cenu domů, jak to můžeme udělat?

Podívejme se na tato data a podívejme se, jak vypadají:

Zde je osa X cena za čtvereční metr obytného prostoru a osa Y cena domu. Pokud vykreslíme všechny datové body, dostaneme bodový graf, který může být reprezentován přímkou, jak je znázorněno na obrázku výše, a pokud zadáme některá data, pak předpovídá nějaký výsledek. V ideálním případě musíme najít linii, která protne maximální datové body.

Zde se snažíme vytvořit linii, která se nazývá:

Y = mX + c

Tato metoda predikce lineárního vztahu mezi cílovou (závislou proměnnou) a predikční proměnnou (nezávislou proměnnou) se nazývá lineární regrese. Umožňuje nám to studovat a shrnout vztah mezi dvěma proměnnými.

  • X = nezávislá proměnná
  • Y = závislá proměnná
  • c = průsečík y
  • m = sklon linky

Pokud vezmeme v úvahu rovnici, máme hodnoty pro X, což je nezávislá proměnná, takže vše, co musíme udělat, je vypočítat hodnoty pro ma ac, abychom mohli předpovědět hodnotu Y.

Jak tedy tyto proměnné najdeme?

Abychom tyto proměnné našli, můžeme zkusit spoustu hodnot a pokusit se najít linii, která protíná maximální počet datových bodů. Jak ale můžeme najít tu nejvhodnější linii?

Abychom tedy našli nejvhodnější přímku, můžeme použít chybovou funkci nejmenších čtverců, která najde chybu mezi skutečnou hodnotou y a predikovanou hodnotou y`.

Chybovou funkci nejmenších čtverců lze vyjádřit pomocí následující rovnice:

Pomocí této funkce můžeme zjistit chybu pro každý predikovaný datový bod porovnáním se skutečnou hodnotou datového bodu. Poté vezmete součet všech těchto chyb a srovnáte je, abyste zjistili odchylku v predikci.

Přidáme-li třetí osu do našeho grafu obsahujícího všechny možné chybové hodnoty a vykreslíme ji v trojrozměrném prostoru, bude to vypadat takto:

Na výše uvedeném obrázku by ideální hodnoty byly ve spodní černé části, která předpovídá ceny blízké skutečnému datovému bodu. Dalším krokem je nalezení nejlepších možných hodnot pro m a c. To lze provést pomocí optimalizační techniky zvané gradientní sestup.

Gradientní sestup je iterační metoda, kde začínáme inicializací některé sady hodnot pro naše proměnné a pomalu je vylepšujeme minimalizací chyby mezi skutečnou hodnotou a predikovanou hodnotou.

co je postup v sql

Pokud si nyní myslíme, že ceny bytu ve skutečnosti nezávisí pouze na ceně za čtvereční stopu, existuje mnoho faktorů, jako je počet ložnic, koupelen atd. Pokud vezmeme v úvahu také tyto vlastnosti, pak bude rovnice vypadat něco takhle

Y = b0 + b1x1 + b2x2 + & hellip .. + bnxn + c

Toto je multilineární regrese, která patří k lineární algebře, zde můžeme použít matice velikosti mxn, kde m jsou prvky an jsou datové body.

Zvažme další situaci, kdy můžeme pomocí pravděpodobnosti zjistit stav domu a klasifikovat dům podle toho, zda je v dobrém nebo špatném stavu. K tomu budeme muset použít techniku ​​nazvanou Logistic Regression, která pracuje na pravděpodobnosti výskytů představovaných funkcí sigmoidu.

V tomto článku jsme se zabývali předpoklady strojového učení a jejich uplatněním ve strojovém učení. V zásadě se tedy skládá ze statistik, počtu, lineární algebry a teorie pravděpodobnosti. Kalkul má techniky používané pro optimalizaci, lineární algebra má algoritmy, které mohou pracovat na velkých souborech dat, s pravděpodobností můžeme předvídat pravděpodobnost výskytu a statistika nám pomáhá odvodit užitečné poznatky ze vzorku datových sad.

Nyní, když znáte předpoklady pro strojové učení, jsem si jistý, že se chcete dozvědět více. Zde je několik blogů, které vám pomohou začít s Data Science:

Pokud se chcete zaregistrovat na kompletní kurz umělé inteligence a strojového učení, Edureka má speciálně připravený kurz díky nimž zvládnete techniky, jako je supervidované učení, nekontrolované učení a zpracování přirozeného jazyka. Zahrnuje školení o nejnovějších pokrokech a technických přístupech v oblasti umělé inteligence a strojového učení, jako je Deep Learning, Graphical Models a Reinforcement Learning.