เจาะลึก APACHE DRILL เครื่องมือสืบค้นยุคใหม่

Apache Drill เป็น SQL Engine ที่ไม่มีสคีมาตัวแรกของอุตสาหกรรม Drill ไม่ใช่เครื่องมือสืบค้นข้อมูลเครื่องแรกของโลก แต่เป็นเครื่องมือแรกที่สร้างสมดุลระหว่างความยืดหยุ่นและความเร็ว การเจาะถูกออกแบบมาเพื่อปรับขนาดเป็นโหนดหลายพันโหนดและสืบค้นข้อมูลเพตะไบต์ด้วยความเร็วเชิงโต้ตอบที่สภาพแวดล้อม BI / Analytics ต้องการ

สามารถทำงานร่วมกับแหล่งข้อมูลต่างๆเช่น Hive, HBase, MongoDB, ระบบไฟล์, RDBMS นอกจากนี้รูปแบบการป้อนข้อมูลเช่น Avro, CSV, TSV, PSV, Parquet, ไฟล์ลำดับ Hadoop และอื่น ๆ อีกมากมายสามารถใช้ใน Drill ได้อย่างง่ายดาย

ทำไมต้อง Apache Drill?

ข้อได้เปรียบที่ใหญ่ที่สุดของ Apache Drill คือสามารถค้นพบสคีมาได้ทันทีเมื่อคุณค้นหาข้อมูลใด ๆ นอกจากนี้ยังสามารถทำงานร่วมกับเครื่องมือ BI ของคุณเช่น Tableau, Qlikview, MicroStrategy เป็นต้นเพื่อการวิเคราะห์ที่ดีขึ้น

นี่คือคำพูดจากนักวิเคราะห์อุตสาหกรรมที่สรุปคุณค่าของ Apache Drill:

“ การเจาะลึกไม่ได้เป็นเพียงแค่ SQL-on-Hadoop เท่านั้น มันเกี่ยวกับ SQL-on-pretty-much-anything ทันทีและไม่มีพิธีการ”

- Andrew Burst, Gigaom Research, มกราคม 2558

Drillbit คือภูตของ Apache Drill ที่ทำงานบนแต่ละโหนดในคลัสเตอร์ ใช้ ZooKeeper สำหรับการสื่อสารทั้งหมดในคลัสเตอร์และการเป็นสมาชิกคลัสเตอร์ maintaisn มีหน้าที่รับผิดชอบในการรับคำร้องขอจากไคลเอนต์ประมวลผลการสืบค้นและส่งผลลัพธ์กลับไปยังไคลเอนต์ สว่านบิตที่รับคำขอจากลูกค้าเรียกว่า 'หัวหน้าคนงาน' มันสร้างแผนการดำเนินการส่วนการดำเนินการจะถูกส่งไปยังการเจาะบิตอื่น ๆ ที่ทำงานในคลัสเตอร์

Drillbits-Apache-Drill

ข้อดีอีกอย่างคือการติดตั้งและการตั้งค่าดอกสว่านนั้นค่อนข้างง่าย ให้เราเรียนรู้วิธีการติดตั้ง Apache Drill

ขั้นตอนแรกคือการดาวน์โหลดแพ็คเกจการเจาะ

วิธีสร้างรายการที่เชื่อมโยงในค

คำสั่ง: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

คำสั่ง: tar -xvf apache-drill-1.5.0.tar.gz

คำสั่ง: ls

จากนั้นตั้งค่าตัวแปรสภาพแวดล้อมในไฟล์. bashrc

คำสั่ง: sudo gedit .bashrc

ส่งออก DRILL_HOME = / home / edureka / apache-drill-1.5.0

ส่งออก PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

คำสั่งนี้จะอัปเดตการเปลี่ยนแปลง:

คำสั่ง: ที่มา. bashrc

ไปที่ไดเร็กทอรี drill conf และแก้ไขไฟล์ drill-override.conf ด้วย cluster id และ zookeeper host & port เราจะเรียกใช้บนคลัสเตอร์ภายใน

คำสั่ง: ซีดี apache-drill-1.5.0

คำสั่ง: sudo gedit conf / drill-override.conf

ตามค่าเริ่มต้น DRILL_MAX_DIRECT_MEMORY จะเป็น 8 GB ใน drill-env.sh และเราจำเป็นต้องเก็บไว้ตามหน่วยความจำที่เรามี

คำสั่ง: sudo gedit conf / drill-env.sh

ในการติดตั้งการเจาะเฉพาะในโหนดเดียวคุณสามารถใช้โหมดฝังตัวซึ่งจะทำงานในเครื่อง มันจะเริ่มบริการ drillbit โดยอัตโนมัติเมื่อคุณเรียกใช้คำสั่งนี้

คำสั่ง: ./bin/drill-embedded

คุณสามารถเรียกใช้แบบสอบถามง่ายๆเพื่อตรวจสอบการติดตั้ง

คำสั่ง: เลือก * จาก sys.options WHERE type = 'SYSTEM' และตั้งชื่อเช่น 'security%'

ในการตรวจสอบเว็บคอนโซลของ Apache Drill เราต้องไปที่ localhost: 8047 ในเว็บเบราว์เซอร์

อาร์กิวเมนต์บรรทัดคำสั่งในโค้ดตัวอย่าง java

คุณสามารถเรียกใช้แบบสอบถามของคุณจากแท็บแบบสอบถามได้เช่นกัน

ในการเรียกใช้การเจาะในโหมดกระจายคุณต้องแก้ไข ID คลัสเตอร์และเพิ่มข้อมูล ZooKeeper ใน drill-override.conf ดังต่อไปนี้

จากนั้นเราต้องเริ่มบริการ ZooKeeper ในแต่ละโหนด หลังจากนั้นคุณต้องเริ่มบริการ drillbit ในแต่ละโหนดด้วยคำสั่งนี้

คำสั่ง: ./bin/drillbit.sh เริ่มต้น

คำสั่ง: jps

ตอนนี้เราใช้คำสั่งด้านล่างเพื่อเริ่มการเจาะเชลล์

ตอนนี้เราสามารถดำเนินการค้นหาของเราบนคลัสเตอร์ในโหมดกระจาย

นี่เป็นบล็อกโพสต์แรกในบล็อกชุด Apache Drill สองส่วน บล็อกที่สองในซีรีส์กำลังจะมาเร็ว ๆ นี้

มีคำถามสำหรับเรา? พูดถึงพวกเขาในส่วนความคิดเห็นแล้วเราจะติดต่อกลับไป

กระทู้ที่เกี่ยวข้อง:

เจาะลึก Apache Drill ตอนที่ 2

Apache Spark Vs Hadoop MapReduce

เจาะลึก Apache Drill ซึ่งเป็น Query Engine ยุคใหม่

ทำไมต้อง Apache Drill?

หมวดหมู่

Popular Articles

คำแนะนำโดยย่อเกี่ยวกับรูปแบบการออกแบบใน JavaScript

Tableau Dashboard - นิยามใหม่ของการแสดงข้อมูล

ทุกสิ่งที่คุณต้องการรู้เกี่ยวกับความทึบใน CSS

จะสร้างไฟล์ใน Java ได้อย่างไร? - แนวคิดการจัดการไฟล์

Android Activity Life Cycle คืออะไร

Blockchain Beyond Bitcoin - แพลตฟอร์มและแนวโน้มของ Blockchain

โอกาสในการทำงานด้านวิทยาศาสตร์ข้อมูล: คำแนะนำในการปลดล็อกงานนักวิทยาศาสตร์ข้อมูลชั้นนำ

สิ่งที่คุณต้องรู้เกี่ยวกับคำอธิบายประกอบ TestNG ในซีลีเนียม

ข้อมูลขนาดใหญ่ใน AWS - โซลูชันอัจฉริยะสำหรับข้อมูลขนาดใหญ่

TypeScript vs JavaScript: อะไรคือความแตกต่าง?

วิธีเรียกใช้ Hive Scripts

วิธีใช้ Super Function ใน Python