Podrobnější informace o Apache Drill, dotazovacím stroji New Age



Tento výukový program Apache Drill vám poskytne všechny informace, které potřebujete, abyste mohli začít s vyhledávacím strojem Apache Drill, použití s ​​Hadoop, Big Data & Apache Spark.

Apache Drill je první bezmotorový stroj SQL v oboru. Vrtačka není prvním vyhledávacím strojem na světě, ale je první, která dosahuje jemné rovnováhy mezi flexibilitou a rychlostí. Drill je navržen tak, aby se mohl škálovat na několik tisíc uzlů a dotazovat petabajty dat při interaktivních rychlostech, které prostředí BI / Analytics vyžadují.





Může se integrovat s několika zdroji dat, jako je Hive, HBase, MongoDB, souborový systém, RDBMS. V Drillu lze také snadno použít vstupní formáty jako Avro, CSV, TSV, PSV, Parquet, soubory Hadoop Sequence a mnoho dalších.

Proč Apache Drill?

Největší výhodou aplikace Apache Drill je, že může schéma objevovat za běhu, když zadáváte dotazy na libovolná data. Kromě toho může pracovat s vašimi nástroji BI, jako jsou Tableau, Qlikview, MicroStrategy atd., Pro lepší analýzu.



Zde je nabídka průmyslového analytika, který shrnuje hodnotu nástroje Apache Drill:

'Drill není jen o SQL-on-Hadoop.' Je to o SQL-on-pretty-much-anything, okamžitě a bez formalit. “

- Andrew Burst, Gigaom Research, leden 2015



Drillbit je démon Apache Drill, který běží na každém uzlu v klastru. Používá ZooKeeper pro veškerou komunikaci v klastru a členství v klastru maintaisn. Je odpovědný za přijímání požadavků od klienta, zpracování dotazů a vrácení výsledků klientovi. Vrták, který obdrží požadavek od klienta, se nazývá „mistr“. Generuje plán provádění, fragmenty provádění se odesílají do dalších vrtáků spuštěných v clusteru.

Drillbits-Apache-Drill

Další výhodou je, že instalace a nastavení cvičení je docela jednoduché. Naučme se, jak nainstalovat Apache Drill.

Prvním krokem je stažení balíčku cvičení.

k čemu se používá programování sas

Příkaz: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Příkaz: tar -xvf apache-drill-1.5.0.tar.gz

Příkaz: je

Dále nastavte proměnné prostředí v souboru .bashrc.

Příkaz: sudo gedit .bashrc

export DRILL_HOME = / home / edureka / apache-drill-1.5.0

export PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Tento příkaz aktualizuje změny:

Příkaz: zdroj .bashrc

Nyní přejděte do adresáře conf conf a upravte soubor drill-override.conf s ID klastru a hostitelem a portem zookeeper, spustíme jej v místním klastru.

Příkaz: cd apache-drill-1.5.0

Příkaz: sudo gedit conf / drill-override.conf

Ve výchozím nastavení bude DRILL_MAX_DIRECT_MEMORY v souboru drill-env.sh 8 GB a musíme si ho uchovat podle paměti, kterou máme.

Příkaz: sudo gedit conf / drill-env.sh

Chcete-li instalovat cvičení pouze v jednom uzlu, můžete použít integrovaný režim, kde bude spuštěn místně. Po spuštění tohoto příkazu se automaticky spustí služba drillbit.

Příkaz: ./bin/drill-embedded

Instalaci můžete zkontrolovat spuštěním jednoduchého dotazu.

Příkaz: vyberte * ze sys.options WHERE typ = „SYSTÉM“ a název jako „zabezpečení%“

Chcete-li zkontrolovat webovou konzolu Apache Drill, musíme ve webovém prohlížeči přejít na localhost: 8047.

Dotaz můžete spustit také na kartě Dotaz.

Chcete-li spustit cvičení v distribuovaném režimu, musíte upravit ID klastru a přidat informace ZooKeeper do souboru drill-override.conf, jak je uvedeno níže.

Pak musíme spustit službu ZooKeeper na každém uzlu. Poté musíte pomocí tohoto příkazu spustit službu drillbit na každém uzlu.

co je keyerror v pythonu

Příkaz: ./bin/drillbit.sh start

Příkaz: jps

Nyní použijeme níže uvedený příkaz ke spuštění prostředí drill.

Nyní můžeme provádět naše dotazy na clusteru v distribuovaném režimu.

Toto je první blogový příspěvek v dvousložkové sérii blogů Apache Drill. Druhý blog v řadě bude brzy k dispozici.

Máte na nás dotaz? Uveďte je v sekci komentářů a my se vám ozveme.

Související příspěvky:

Přechod na vrtačku Apache, část 2

Apache Spark Vs Hadoop MapReduce