Apache Drill je první bezmotorový stroj SQL v oboru. Vrtačka není prvním vyhledávacím strojem na světě, ale je první, která dosahuje jemné rovnováhy mezi flexibilitou a rychlostí. Drill je navržen tak, aby se mohl škálovat na několik tisíc uzlů a dotazovat petabajty dat při interaktivních rychlostech, které prostředí BI / Analytics vyžadují.
Může se integrovat s několika zdroji dat, jako je Hive, HBase, MongoDB, souborový systém, RDBMS. V Drillu lze také snadno použít vstupní formáty jako Avro, CSV, TSV, PSV, Parquet, soubory Hadoop Sequence a mnoho dalších.
Proč Apache Drill?
Největší výhodou aplikace Apache Drill je, že může schéma objevovat za běhu, když zadáváte dotazy na libovolná data. Kromě toho může pracovat s vašimi nástroji BI, jako jsou Tableau, Qlikview, MicroStrategy atd., Pro lepší analýzu.
Zde je nabídka průmyslového analytika, který shrnuje hodnotu nástroje Apache Drill:
'Drill není jen o SQL-on-Hadoop.' Je to o SQL-on-pretty-much-anything, okamžitě a bez formalit. “
- Andrew Burst, Gigaom Research, leden 2015
Drillbit je démon Apache Drill, který běží na každém uzlu v klastru. Používá ZooKeeper pro veškerou komunikaci v klastru a členství v klastru maintaisn. Je odpovědný za přijímání požadavků od klienta, zpracování dotazů a vrácení výsledků klientovi. Vrták, který obdrží požadavek od klienta, se nazývá „mistr“. Generuje plán provádění, fragmenty provádění se odesílají do dalších vrtáků spuštěných v clusteru.
Další výhodou je, že instalace a nastavení cvičení je docela jednoduché. Naučme se, jak nainstalovat Apache Drill.
Prvním krokem je stažení balíčku cvičení.
k čemu se používá programování sas
Příkaz: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz
Příkaz: tar -xvf apache-drill-1.5.0.tar.gz
Příkaz: je
Dále nastavte proměnné prostředí v souboru .bashrc.
Příkaz: sudo gedit .bashrc
export DRILL_HOME = / home / edureka / apache-drill-1.5.0
export PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin
Tento příkaz aktualizuje změny:
Příkaz: zdroj .bashrc
Nyní přejděte do adresáře conf conf a upravte soubor drill-override.conf s ID klastru a hostitelem a portem zookeeper, spustíme jej v místním klastru.
Příkaz: cd apache-drill-1.5.0
Příkaz: sudo gedit conf / drill-override.conf
Ve výchozím nastavení bude DRILL_MAX_DIRECT_MEMORY v souboru drill-env.sh 8 GB a musíme si ho uchovat podle paměti, kterou máme.
Příkaz: sudo gedit conf / drill-env.sh
Chcete-li instalovat cvičení pouze v jednom uzlu, můžete použít integrovaný režim, kde bude spuštěn místně. Po spuštění tohoto příkazu se automaticky spustí služba drillbit.
Příkaz: ./bin/drill-embedded
Instalaci můžete zkontrolovat spuštěním jednoduchého dotazu.
Příkaz: vyberte * ze sys.options WHERE typ = „SYSTÉM“ a název jako „zabezpečení%“
Chcete-li zkontrolovat webovou konzolu Apache Drill, musíme ve webovém prohlížeči přejít na localhost: 8047.
Dotaz můžete spustit také na kartě Dotaz.
Chcete-li spustit cvičení v distribuovaném režimu, musíte upravit ID klastru a přidat informace ZooKeeper do souboru drill-override.conf, jak je uvedeno níže.
Pak musíme spustit službu ZooKeeper na každém uzlu. Poté musíte pomocí tohoto příkazu spustit službu drillbit na každém uzlu.
co je keyerror v pythonu
Příkaz: ./bin/drillbit.sh start
Příkaz: jps
Nyní použijeme níže uvedený příkaz ke spuštění prostředí drill.
Nyní můžeme provádět naše dotazy na clusteru v distribuovaném režimu.
Toto je první blogový příspěvek v dvousložkové sérii blogů Apache Drill. Druhý blog v řadě bude brzy k dispozici.
Máte na nás dotaz? Uveďte je v sekci komentářů a my se vám ozveme.
Související příspěvky: