Statistiky pro strojové učení: Průvodce pro začátečníky



Tento článek o statistice pro strojové učení je komplexním průvodcem statistikami různých konceptů s příklady.

Pochopení dat a schopnost vytvářet z nich hodnotu je dovedností desetiletí. Machine Learning je jednou z klíčových dovedností, která společnostem pomáhá ji naplňovat. Chcete-li však začít, musíte si správně postavit základy. V tomto článku se tedy budu zabývat několika základními koncepty a poskytnu vám pokyny pro zahájení vaší cesty ve strojovém učení. V tomto článku o statistice strojového učení se tedy budeme zabývat následujícími tématy:

  1. Pravděpodobnost
  2. Statistika
  3. Lineární algebra

Pravděpodobnost a statistika strojového učení:





Co je pravděpodobnost?

Pravděpodobnost kvantifikuje pravděpodobnost výskytu události. Například pokud hodíte spravedlivou, nestrannou kostkou, pak pravděpodobnost jeden otáčení je 1/6 . Nyní, pokud vás zajímá whej? Pak je odpověď docela jednoduchá!

Je to proto, že existuje šest možností a všechny jsou stejně pravděpodobné (fair die). Proto můžeme přidat 1 + 1 + 1 + 1 + 1 + 1 = 6. Ale protože nás zajímá událost, kde se objeví 1 . Tady je k události může dojít pouze jedním způsobem. Proto,



Pravděpodobnost 1 zapnutí = 1/6

Podobný je případ všech ostatních čísel, protože všechny události jsou stejně pravděpodobné. Jednoduché, že?

Častá definice pravděpodobnosti pro tento příklad by zněla jako - pravděpodobnost, že se 1 otočí, je poměr počtu, kolikrát se 1 otočil, k celkovému počtu případů, kdy byla kostka svinuta, pokud byla kostka svinuta nekonečně krát.Jak to dává smysl?



Pojďme to udělat zajímavější. Zvažte dva případy - 5krát jste hodili férovou kostkou. V jednom případě je sled čísel vyšší - [1,4,2,6,4,3]. V druhém případě dostaneme - [2,2,2,2,2,2]. Který z nich je podle vás pravděpodobnější?

Oba jsou stejně pravděpodobné. Vypadá to divně, že?

Nyní zvažte další případ, kdy je všech 5 rolí v každém případě nezávislý . To znamená, že jedna role neovlivňuje druhou. V prvním případě, když se objevilo 6, netušilo, že se objevily 2 před ním. Proto je všech 5 rolí stejně pravděpodobných.

Podobně rovné 2s v druhém případě lze chápat jako sled nezávislých událostí. A všechny tyto události jsou stejně pravděpodobné. Celkově, protože máme stejné kostky, pravděpodobnost, že se konkrétní číslo objeví v případě, že jedna je stejná jako v případě dvou. Dále v tomto článku o statistice strojového učení pochopíme tento pojem Nezávislost.

Nezávislost

Dvě události O A a B se říká, že jsou nezávislé, pokud výskyt A neovlivní událost B . Pokud například hodíte minci a hodíte kostkou, výsledek kostky nemá žádný vliv na to, zda mince ukazuje hlavy nebo ocasy. Také pro dvě nezávislé události A a B , pravděpodobnost, že A a B mohou nastat společně . Například pokud chcete pravděpodobnost, že mince ukazuje hlavy a kostky, ukazuje 3.

P (A a B) = P (A) * P (B)

Proto P = & frac12 (pravděpodobnost otočení hlav) * ⅙ (pravděpodobnost 3 otočení) = 1/12

V předchozím příkladu pro oba případy P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

Nyní si promluvme o událostech, které nejsou nezávislé. Zvažte následující tabulku:

Obézní Ne obézní
Srdeční problémyČtyři pětpatnáct
Žádné problémy se srdcem1030

Byl proveden průzkum mezi 100 lidmi. 60 mělo problémy se srdcem a 40 ne. Ze 60 pacientů se srdečními problémy bylo 45 obézních. Ze 40 pacientů, kteří neměli problémy se srdcem, bylo 10 obézních. Pokud se vás někdo zeptá -

  1. Jaká je pravděpodobnost potíží se srdcem?
  2. Jaká je pravděpodobnost, že budete mít problémy se srdcem a nebudete obézní?

Odpověď na první otázky je snadná - 60/100. U druhého by to bylo 15/100. Nyní zvažte třetí otázku - Osoba byla vybrána náhodně. Bylo zjištěno, že má srdeční onemocnění. Jaká je pravděpodobnost, že je obézní?

Nyní přemýšlejte o informacích, které vám byly poskytnuty - Je známo, že má srdeční onemocnění. Proto nemůže být ze 40, kteří nemají srdeční choroby. Existuje pouze 60 možných možností (horní řádek v tabulce). Mezi těmito omezenými možnostmi je nyní pravděpodobnost, že je obézní, 45/60. Nyní, když jste věděli, jaké jsou nezávislé události, si v dalším článku o statistice strojového učení vysvětlíme podmíněné pravděpodobnosti.

Podmíněné pravděpodobnosti

Abychom porozuměli podmíněným pravděpodobnostem, pokračujme v diskusi s výše uvedeným příkladem. Stav, kdy jste obézní, a stav, kdy trpíte srdečními problémy, není nezávislý. Pokud by obezita neovlivnila srdeční problémy, pak by počet obézních a neobézních případů u lidí se srdečními problémy byl stejný.

Také nám bylo dáno, že daná osoba má problémy se srdcem, a museli jsme zjistit pravděpodobnost, že je obézní. Pravděpodobnost je tedy v tomto případě údajně podmíněna skutečností, že má problémy se srdcem. Pokud je pravděpodobnost výskytu události A podmíněna událostí B, reprezentujeme ji jako

jak tisknout pole v php

P (A | B)

Nyní existuje věta, která nám pomáhá vypočítat tuto podmíněnou pravděpodobnost. Říká se tomu Bayesovo pravidlo .

P (A | B) = P (A a B) / P (B)

Tuto větu můžete zkontrolovat připojením příkladu, který jsme právě probrali. Pokud jste tomu dosud porozuměli, můžete začít s následujícími - Naivní Bayes . Využívá podmíněné pravděpodobnosti ke klasifikaci, zda je e-mail spam nebo ne. Může provádět mnoho dalších klasifikačních úkolů. V zásadě je ale v zásadě podmíněná pravděpodobnost .

Statistika:

Statistiky jsou slouží k shrnutí a odvození velkého počtu datových bodů. V oblasti datové vědy a strojového učení se často setkáte s následující terminologií

  • Centrální opatření
  • Distribuce (zejména normální)

Centrální opatření a míry spready

Znamenat:

Zlý je jen průměr čísel . Chcete-li zjistit průměr, musíte sečíst čísla a rozdělit je na počet čísel. Například průměr [1,2,3,4,5] je 15/5 = 3.

mean-statistics-for-machine-learning

Medián:

Medián je prostřední prvek sady čísel když jsou seřazeny vzestupně. Například čísla [1,2,4,3,5] jsou uspořádána vzestupně [1,2,3,4,5]. Střední z nich je 3. Proto je medián 3. Ale co když je počet čísel sudý, a proto nemá žádné střední číslo? V takovém případě vezmete průměr dvou středních čísel. Pro posloupnost 2n čísel ve vzestupném pořadí průměrujte n-té a (n + 1)thčíslo pro získání mediánu. Příklad - [1,2,3,4,5,6] má medián (3 + 4) / 2 = 3,5

Režim:

Režim je prostě nejčastější číslo v sadě čísel . Například režim [1,2,3,3,4,5,5,5] je 5.

Varianta:

Rozptyl není mírou ústřednosti. Měří to jak se vaše data šíří průměrně . Je kvantifikován jako

Xje průměr N čísel. Vezmete bod, odečtete průměr, vezmete druhou mocninu tohoto rozdílu. Udělejte to pro všechna čísla N a průměrujte je. Druhá odmocnina rozptylu se nazývá směrodatná odchylka. Dále v tomto článku o statistice strojového učení pochopíme normální rozdělení.

Normální distribuce

Distribuce nám pomáhá pochopit, jak se naše data šíří . Například ve vzorku věků můžeme mít mladé lidi více než starší dospělé, a proto menší hodnoty věku více než vyšší hodnoty. Jak ale definujeme distribuci? Zvažte níže uvedený příklad

Osa y představuje hustotu. Režim této distribuce je 30, protože jde o vrchol, a proto je nejčastější. Můžeme také najít medián. Medián leží v bodě na ose x, kde je pokryta polovina oblasti pod křivkou. Oblast pod jakýmkoli normálním rozdělením je 1, protože součet pravděpodobností všech událostí je 1. Například

Medián ve výše uvedeném případě je kolem 4. To znamená, že oblast pod křivkou před 4 je stejná jako plocha po 4. Zvažte další příklad

Vidíme tři normální rozdělení. Modré a červené mají stejný průměr. Červená má větší rozptyl. Proto je více roztažený než modrý. Ale protože oblast musí být 1, vrchol červené křivky je kratší než modrá křivka, aby byla oblast konstantní.

Doufám, že jste pochopili základní statistiky a normální rozdělení. Nyní, v tomto článku o statistice strojového učení, se pojďme dozvědět více o lineární algebře.

Lineární algebra

Moderní AI by nebyla možná bez lineární algebry. Tvoří jádro Hluboké učení a byl použit i v jednoduchých algoritmech jako . Pojďme začít bez dalšího prodlení.

co je cloud služeb salesforce

Musíte znát vektory. Jsou to jakési geometrické reprezentace v prostoru. Například vektor [3,4] má 3 jednotky podél osy x a 4 jednotky podél osy y. Zvažte následující obrázek -

Vektor d1 má 0,707 jednotek podél osy x a 0,707 jednotek podél osy y. Vektor má 1 rozměr. Musí mít nutně velikost a směr. Například,

Obrázek výše má vektor (4,3). Jeho velikost je 5 a s osou x činí 36,9 stupňů.

Co je to matice? Matice je vícerozměrné pole čísel. Na co se používá? Uvidíme dopředu. Nejprve se ale podívejme na to, jak se používá.

Matice

Matice může mít mnoho dimenzí. Uvažujme o 2-dimenzionální matici. Má řádky (m) a sloupce (n). Proto má m * n prvků.

Například,

Tato matice má 5 řádků a 5 sloupců. Řekněme tomu A. Proto A (2,3) je položka ve druhém řádku a třetím sloupci, což je 8.

Nyní, když víte, co je to matice, pojďme se podívat na různé operace matice.

Maticové operace

Přidání matic

Dvě matice stejný lze přidat rozměry. Přidání se děje po prvcích.

Skalární násobení

Matice může být vynásobena skalární veličinou. Takové násobení vede k tomu, že každá položka v matici se násobí skalárem. Skalár je jen číslo

Maticová transpozice

Maticová transpozice je jednoduchá. Pro matici A (m, n) nechť A 'je její transpozice. Pak

A '(i, j) = A (j, i)

Například,

Násobení matic

To je pravděpodobně trochu složitější než u jiných operací. Než se do toho ponoříme, definujme bodový produkt mezi dvěma vektory.

Uvažujme vektor X = [1,4,6,0] a vektor Y = [2,3,4,5]. Pak je tečkovaný produkt mezi X a Y definován jako

X.Y = 1 * 2 + 4 * 3 + 6 * 4 + 0 * 5 = 38

jak obrátit řetězce v pythonu

Jde tedy o násobení a sčítání po prvcích. Nyní,uvažujme dvě matice A (m, n) a B (n, k), kde m, n, k jsou dimenze, a tedy celá čísla. Násobení matice definujeme jako

Ve výše uvedeném příkladu je první prvek produktu (44) získán tečkovým produktem první řady levé matice s prvním sloupcem pravé matice. Podobně se 72 získá bodovým součinem první řady levé matice s druhým sloupcem pravé matice.

U levé matice by se počet sloupců měl rovnat počtu řádků v pravém sloupci. V našem případě existuje produkt AB, ale ne BA, protože m se nerovná k. Pro dvě matice A (m, n) a B (n, k) je definován součin AB a rozměr součinu je (m, k) (nejvíce vnější rozměry (m, n), (n, k )). Ale BA není definována, pokud m = k.

Tímto ukončujeme tento článek o statistice strojového učení. Doufám, že jste některým porozuměli žargonu o strojovém učení. Tím to ale nekončí. Abyste se ujistili, že jste připraveni na obor, můžete se podívat na kurzy Edureky v oblasti Data Science a AI. Mohou být nalezeny