SQL pro datovou vědu: komplexní řešení pro začátečníky



Tento blogový příspěvek o SQL pro Data Science vám pomůže pochopit, jak lze SQL použít k ukládání, přístupu a načítání dat k provádění analýzy dat.

Od té doby, co se datová věda umístila na prvním místě za nejslibnější práci své doby, se všichni snažíme zapojit do rasy . Tento blogový příspěvek o SQL pro Data Science vám pomůže pochopit, jak lze SQL použít k ukládání, přístupu a načítání dat k provádění analýzy dat.

Zde je seznam témat, která budou v tomto blogu:





    1. Proč je pro datovou vědu potřebný SQL?
    2. Co je to SQL?
    3. Základy SQL
    4. Instalace MySQL
    5. Hands-On

Proč je pro datovou vědu potřebný SQL?

Věděli jste, že každý den generujeme více než 2,5 kvintilionu bajtů dat? Toto tempo generování dat je důvodem popularity populárních špičkových technologií, jako jsou Data Science , , a tak dále.

Odvozování užitečných poznatků z dat je to, co se nazývá Data Science. Data Science zahrnuje extrakci, zpracování a analýzu spousty dat. V současné době potřebujeme které lze použít k ukládání a správě tohoto obrovského množství dat.



android studio krok za krokem

Co je datová věda - Edureka

To je kde SQL přichází.

SQL lze použít k ukládání, přístupu a extrakci obrovského množství dat, aby byl celý proces Data Science proveden plynuleji.



Co je to SQL?

SQL což je zkratka pro Structured Query Language, je dotazovací jazyk zaměřený na správu relačních databází.

Ale co přesně je relační databáze?

Relační databáze je skupina dobře definovaných tabulek, ze kterých lze přistupovat, upravovat, aktualizovat data atd., Aniž byste museli měnit databázové tabulky. SQL je standard (API) pro relační databáze.

Vrátíme-li se k SQL, lze programování SQL použít k provádění více akcí s daty, jako je dotazování, vkládání, aktualizace, mazání záznamů databáze. Mezi příklady relačních databází, které používají SQL, patří MySQL Database, Oracle atd.

Chcete-li se dozvědět více o SQL, můžete projít následující blogy:

  1. Porozumění datovým typům SQL - vše, co potřebujete vědět o datových typech SQL
  2. VYTVOŘIT TABULKU v SQL - vše, co potřebujete vědět o vytváření tabulek v SQL

Než začneme s ukázkou na SQL, seznámíme se se základními příkazy SQL.

Základy SQL

SQL poskytuje sadu jednoduchých příkazů pro úpravu datových tabulek, pojďme si projít některé ze základních příkazů SQL:

  • VYTVOŘIT DATABÁZE - vytvoří novou databázi
  • VYTVOŘIT TABULKU - vytvoří novou tabulku
  • VLOŽ DO - vloží nová data do databáze
  • VYBRAT - extrahuje data z databáze
  • AKTUALIZACE - aktualizuje data v databázi
  • ODSTRANIT - odstraní data z databáze
  • ZMĚNIT DATABÁZE - upraví databázi
  • ZMĚNIT TABULKU - upraví tabulku
  • TABULKA DROP - vymaže tabulku
  • VYTVOŘIT INDEX - vytvoří index pro vyhledávání prvku
  • DROP INDEX - odstraní index

Abychom lépe porozuměli SQL, nainstalujte si MySQL a podívejte se, jak si můžete hrát s daty.

Instalace MySQL

Instalace MySQL je jednoduchý úkol. Tady je průvodce krok za krokem který vám pomůže nainstalovat MySQL do vašeho systému.

Po dokončení instalace MySQL, postupujte podle níže uvedené části, kde najdete jednoduché demo, které vám ukáže, jak můžete vkládat, manipulovat a upravovat data.

SQL pro datovou vědu - ukázka MySQL

V této ukázce uvidíme, jak vytvořit databáze a zpracovat je. Toto je ukázka úrovně pro začátečníky, která vám pomůže začít s analýzou dat v SQL.

Tak pojďme začít!

Krok 1: Vytvoření databáze SQL

Databáze SQL je skladiště, kde lze ukládat data ve strukturovaném formátu. Nyní vytvořme databázi pomocí MySQL :

VYTVOŘIT DATABÁZE edureka POUŽITÍ edureka

Ve výše uvedeném kódu existují dva příkazy SQL:

Poznámka : Příkazy SQL jsou definovány velkými písmeny a středník se používá k ukončení příkazu SQL.

  1. VYTVOŘIT DATABÁZE: Tento příkaz vytvoří databázi nazvanou „edureka“

  2. USE: Tento příkaz se používá k aktivaci databáze. Zde aktivujeme databázi „edureka“.

Krok 2: Vytvořte tabulku s požadovanými datovými funkcemi

Vytvoření tabulky je stejně jednoduché jako vytvoření databáze. Musíte pouze definovat proměnné nebo vlastnosti tabulky s jejich příslušnými datovými typy. Podívejme se, jak toho lze dosáhnout:

VYTVOŘIT TABULKU hračky (TID INTEGER NENÍ NULL PRIMÁRNÍ KLÍČ AUTO_INCREMENT, Item_name TEXT, cena INTEGER, množství INTEGER)

Ve výše uvedeném fragmentu kódu dochází k následujícím věcem:

  1. Pomocí příkazu „VYTVOŘIT TABULKU“ vytvořte tabulku s názvem hračky.
  2. Tabulka hraček obsahuje 4 funkce, jmenovitě TID (ID transakce), Item_name, Cena a Množství.
  3. Každá proměnná je definována svými příslušnými datovými typy.
  4. Proměnná TID je deklarována jako primární klíč. Primární klíč v zásadě označuje proměnnou, která dokáže uložit jedinečnou hodnotu.

Můžete dále zkontrolovat podrobnosti definované tabulky pomocí následujícího příkazu:

POPIS Hračky

Krok 3: Vkládání dat do tabulky

Nyní, když jsme vytvořili tabulku, vyplňme ji některými hodnotami. Dříve v tomto blogu jsem se zmínil o tom, jak můžete přidat data do tabulky pomocí jediného příkazu, tj. INSERT INTO.

Podívejme se, jak se to děje:

VLOŽTE HODNOTY do hraček (NULL, 'Vlak', 550, 88) VLOŽTE DO HODNOT Hračky (NULL, 'Hotwheels_car', 350, 80) VLOŽTE DO HODNOT hraček (NULL, 'Magic_Pencil', 70, 100) VLOŽTE DO HODNOT HODNOTY ( NULL, 'Dog_house', 120, 54) INSERT INTO hračky HODNOTY (NULL, 'Skateboard', 700, 42) INSERT INTO hračky HODNOTY (NULL, 'GI Joe', 300, 120)

Ve výše uvedeném fragmentu kódu jsme jednoduše vložili 6 pozorování do naší tabulky hraček pomocí příkazu INSERT INTO. U každého pozorování jsem v závorkách určil hodnotu každé proměnné nebo prvku, které byly definovány při vytváření tabulky.

Proměnná TID je nastavena na NULL, protože se automaticky zvyšuje od 1.

Nyní si zobrazíme všechna data obsažená v naší tabulce. To lze provést pomocí níže uvedeného příkazu:

VYBERTE * Z Hraček


Krok 4: Upravte zadané údaje

Řekněme, že jste se rozhodli zvýšit cenu G.I. Joe, protože ti získává spoustu zákazníků. Jak byste aktualizovali cenu proměnné v databázi?

Je to jednoduché, stačí použít následující příkaz:

AKTUALIZACE hraček SET Cena = 350 WHID TID = 6

Příkaz UPDATE umožňuje upravit jakékoli hodnoty / proměnné uložené v tabulce. Parametr SET umožňuje vybrat konkrétní funkci a parametr WHERE se používá k identifikaci proměnné / hodnoty, kterou chcete změnit. Ve výše uvedeném příkazu jsem aktualizoval cenu vstupu dat, jehož TID je 6 (G.I. Joe).

Nyní se podívejme na aktualizovanou tabulku:

VYBERTE * Z Hraček

Můžete také upravit, co chcete zobrazit, pouze odkazem na sloupce, které chcete zobrazit. Například následující příkaz zobrazí pouze název hračky a její příslušnou cenu:

VYBRAT Název_položky, Cena Z hraček

Krok 5: Načítání dat

Po vložení dat a jejich úpravách je konečně čas je extrahovat a načíst podle obchodních požadavků. To je místo, kde lze načíst data pro další analýzu dat a modelování dat.

Všimněte si, že je to jednoduchý příklad, jak začít s SQL, ale ve scénářích reálného světa jsou data mnohem komplikovanější a větší. Navzdory tomu zůstávají příkazy SQL stále stejné a díky tomu je SQL tak jednoduchý a srozumitelný. Může zpracovávat složité datové sady pomocí sady jednoduchých příkazů SQL.

Nyní načtěte data několika úpravami. Přečtěte si níže uvedený kód a pokuste se pochopit, co dělá, aniž byste se dívali na výstup:

VYBRAT * Z HRAČEK LIMIT 2

Uhodl jsi to! Zobrazuje první dvě pozorování přítomná v mé tabulce.

Zkusme něco zajímavějšího.

VYBERTE * Z Hraček OBJEDNAT PODLE Cena ASC

Jak je znázorněno na obrázku, hodnoty jsou uspořádány s ohledem na vzestupné pořadí cenové proměnné. Pokud chcete hledat tři nejčastěji nakupované položky, co byste dělali?

Je to docela jednoduché!

VYBRAT * Z HRAČEK OBJEDNAT PODLE Množství POPIS LIMIT 3

Zkusme ještě jednu.

VYBERTE * Z Hraček KDE Cena> 400 OBJEDNAT PODLE Cena ASC


Tento dotaz extrahuje podrobnosti o hračkách, jejichž cena je vyšší než 400, a uspořádá výstup ve vzestupném pořadí podle ceny.

Takto tedy můžete zpracovávat data pomocí SQL. Nyní, když znáte základy SQL pro Data Science, jsem si jistý, že byste se rádi dozvěděli více. Zde je několik blogů, které vám pomohou začít:

  1. Co je datová věda? Průvodce pro začátečníky v oblasti datové vědy
  2. Výukový program MySQL - Průvodce pro začátečníky, jak se naučit MySQL

Pokud se chcete zaregistrovat na kompletní kurz umělé inteligence a strojového učení, Edureka má speciálně připravený kurz díky nimž zvládnete techniky, jako je supervidované učení, nekontrolované učení a zpracování přirozeného jazyka. Zahrnuje školení o nejnovějších pokrokech a technických přístupech v oblasti umělé inteligence a strojového učení, jako je Deep Learning, Graphical Models a Reinforcement Learning.