เจาะลึก Apache Drill ซึ่งเป็น Query Engine ยุคใหม่

บทช่วยสอน Apache Drill นี้ให้ข้อมูลทั้งหมดที่คุณต้องการเพื่อเริ่มต้นใช้งานเครื่องมือสืบค้น Apache Drill การใช้งานกับ Hadoop, Big Data และ Apache Spark

Apache Drill เป็น SQL Engine ที่ไม่มีสคีมาตัวแรกของอุตสาหกรรม Drill ไม่ใช่เครื่องมือสืบค้นข้อมูลเครื่องแรกของโลก แต่เป็นเครื่องมือแรกที่สร้างสมดุลระหว่างความยืดหยุ่นและความเร็ว การเจาะถูกออกแบบมาเพื่อปรับขนาดเป็นโหนดหลายพันโหนดและสืบค้นข้อมูลเพตะไบต์ด้วยความเร็วเชิงโต้ตอบที่สภาพแวดล้อม BI / Analytics ต้องการ





สามารถทำงานร่วมกับแหล่งข้อมูลต่างๆเช่น Hive, HBase, MongoDB, ระบบไฟล์, RDBMS นอกจากนี้รูปแบบการป้อนข้อมูลเช่น Avro, CSV, TSV, PSV, Parquet, ไฟล์ลำดับ Hadoop และอื่น ๆ อีกมากมายสามารถใช้ใน Drill ได้อย่างง่ายดาย

ทำไมต้อง Apache Drill?

ข้อได้เปรียบที่ใหญ่ที่สุดของ Apache Drill คือสามารถค้นพบสคีมาได้ทันทีเมื่อคุณค้นหาข้อมูลใด ๆ นอกจากนี้ยังสามารถทำงานร่วมกับเครื่องมือ BI ของคุณเช่น Tableau, Qlikview, MicroStrategy เป็นต้นเพื่อการวิเคราะห์ที่ดีขึ้น



นี่คือคำพูดจากนักวิเคราะห์อุตสาหกรรมที่สรุปคุณค่าของ Apache Drill:

“ การเจาะลึกไม่ได้เป็นเพียงแค่ SQL-on-Hadoop เท่านั้น มันเกี่ยวกับ SQL-on-pretty-much-anything ทันทีและไม่มีพิธีการ”

- Andrew Burst, Gigaom Research, มกราคม 2558



Drillbit คือภูตของ Apache Drill ที่ทำงานบนแต่ละโหนดในคลัสเตอร์ ใช้ ZooKeeper สำหรับการสื่อสารทั้งหมดในคลัสเตอร์และการเป็นสมาชิกคลัสเตอร์ maintaisn มีหน้าที่รับผิดชอบในการรับคำร้องขอจากไคลเอนต์ประมวลผลการสืบค้นและส่งผลลัพธ์กลับไปยังไคลเอนต์ สว่านบิตที่รับคำขอจากลูกค้าเรียกว่า 'หัวหน้าคนงาน' มันสร้างแผนการดำเนินการส่วนการดำเนินการจะถูกส่งไปยังการเจาะบิตอื่น ๆ ที่ทำงานในคลัสเตอร์

Drillbits-Apache-Drill

ข้อดีอีกอย่างคือการติดตั้งและการตั้งค่าดอกสว่านนั้นค่อนข้างง่าย ให้เราเรียนรู้วิธีการติดตั้ง Apache Drill

ขั้นตอนแรกคือการดาวน์โหลดแพ็คเกจการเจาะ

วิธีสร้างรายการที่เชื่อมโยงในค

คำสั่ง: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

คำสั่ง: tar -xvf apache-drill-1.5.0.tar.gz

คำสั่ง: ls

จากนั้นตั้งค่าตัวแปรสภาพแวดล้อมในไฟล์. bashrc

คำสั่ง: sudo gedit .bashrc

ส่งออก DRILL_HOME = / home / edureka / apache-drill-1.5.0

ส่งออก PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

คำสั่งนี้จะอัปเดตการเปลี่ยนแปลง:

คำสั่ง: ที่มา. bashrc

ไปที่ไดเร็กทอรี drill conf และแก้ไขไฟล์ drill-override.conf ด้วย cluster id และ zookeeper host & port เราจะเรียกใช้บนคลัสเตอร์ภายใน

คำสั่ง: ซีดี apache-drill-1.5.0

คำสั่ง: sudo gedit conf / drill-override.conf

ตามค่าเริ่มต้น DRILL_MAX_DIRECT_MEMORY จะเป็น 8 GB ใน drill-env.sh และเราจำเป็นต้องเก็บไว้ตามหน่วยความจำที่เรามี

คำสั่ง: sudo gedit conf / drill-env.sh

ในการติดตั้งการเจาะเฉพาะในโหนดเดียวคุณสามารถใช้โหมดฝังตัวซึ่งจะทำงานในเครื่อง มันจะเริ่มบริการ drillbit โดยอัตโนมัติเมื่อคุณเรียกใช้คำสั่งนี้

คำสั่ง: ./bin/drill-embedded

คุณสามารถเรียกใช้แบบสอบถามง่ายๆเพื่อตรวจสอบการติดตั้ง

คำสั่ง: เลือก * จาก sys.options WHERE type = 'SYSTEM' และตั้งชื่อเช่น 'security%'

ในการตรวจสอบเว็บคอนโซลของ Apache Drill เราต้องไปที่ localhost: 8047 ในเว็บเบราว์เซอร์

อาร์กิวเมนต์บรรทัดคำสั่งในโค้ดตัวอย่าง java

คุณสามารถเรียกใช้แบบสอบถามของคุณจากแท็บแบบสอบถามได้เช่นกัน

ในการเรียกใช้การเจาะในโหมดกระจายคุณต้องแก้ไข ID คลัสเตอร์และเพิ่มข้อมูล ZooKeeper ใน drill-override.conf ดังต่อไปนี้

จากนั้นเราต้องเริ่มบริการ ZooKeeper ในแต่ละโหนด หลังจากนั้นคุณต้องเริ่มบริการ drillbit ในแต่ละโหนดด้วยคำสั่งนี้

คำสั่ง: ./bin/drillbit.sh เริ่มต้น

คำสั่ง: jps

ตอนนี้เราใช้คำสั่งด้านล่างเพื่อเริ่มการเจาะเชลล์

ตอนนี้เราสามารถดำเนินการค้นหาของเราบนคลัสเตอร์ในโหมดกระจาย

นี่เป็นบล็อกโพสต์แรกในบล็อกชุด Apache Drill สองส่วน บล็อกที่สองในซีรีส์กำลังจะมาเร็ว ๆ นี้

มีคำถามสำหรับเรา? พูดถึงพวกเขาในส่วนความคิดเห็นแล้วเราจะติดต่อกลับไป

กระทู้ที่เกี่ยวข้อง:

เจาะลึก Apache Drill ตอนที่ 2

Apache Spark Vs Hadoop MapReduce