Apache Drill เป็น SQL Engine ที่ไม่มีสคีมาตัวแรกของอุตสาหกรรม Drill ไม่ใช่เครื่องมือสืบค้นข้อมูลเครื่องแรกของโลก แต่เป็นเครื่องมือแรกที่สร้างสมดุลระหว่างความยืดหยุ่นและความเร็ว การเจาะถูกออกแบบมาเพื่อปรับขนาดเป็นโหนดหลายพันโหนดและสืบค้นข้อมูลเพตะไบต์ด้วยความเร็วเชิงโต้ตอบที่สภาพแวดล้อม BI / Analytics ต้องการ
สามารถทำงานร่วมกับแหล่งข้อมูลต่างๆเช่น Hive, HBase, MongoDB, ระบบไฟล์, RDBMS นอกจากนี้รูปแบบการป้อนข้อมูลเช่น Avro, CSV, TSV, PSV, Parquet, ไฟล์ลำดับ Hadoop และอื่น ๆ อีกมากมายสามารถใช้ใน Drill ได้อย่างง่ายดาย
ทำไมต้อง Apache Drill?
ข้อได้เปรียบที่ใหญ่ที่สุดของ Apache Drill คือสามารถค้นพบสคีมาได้ทันทีเมื่อคุณค้นหาข้อมูลใด ๆ นอกจากนี้ยังสามารถทำงานร่วมกับเครื่องมือ BI ของคุณเช่น Tableau, Qlikview, MicroStrategy เป็นต้นเพื่อการวิเคราะห์ที่ดีขึ้น
นี่คือคำพูดจากนักวิเคราะห์อุตสาหกรรมที่สรุปคุณค่าของ Apache Drill:
“ การเจาะลึกไม่ได้เป็นเพียงแค่ SQL-on-Hadoop เท่านั้น มันเกี่ยวกับ SQL-on-pretty-much-anything ทันทีและไม่มีพิธีการ”
- Andrew Burst, Gigaom Research, มกราคม 2558
Drillbit คือภูตของ Apache Drill ที่ทำงานบนแต่ละโหนดในคลัสเตอร์ ใช้ ZooKeeper สำหรับการสื่อสารทั้งหมดในคลัสเตอร์และการเป็นสมาชิกคลัสเตอร์ maintaisn มีหน้าที่รับผิดชอบในการรับคำร้องขอจากไคลเอนต์ประมวลผลการสืบค้นและส่งผลลัพธ์กลับไปยังไคลเอนต์ สว่านบิตที่รับคำขอจากลูกค้าเรียกว่า 'หัวหน้าคนงาน' มันสร้างแผนการดำเนินการส่วนการดำเนินการจะถูกส่งไปยังการเจาะบิตอื่น ๆ ที่ทำงานในคลัสเตอร์
ข้อดีอีกอย่างคือการติดตั้งและการตั้งค่าดอกสว่านนั้นค่อนข้างง่าย ให้เราเรียนรู้วิธีการติดตั้ง Apache Drill
ขั้นตอนแรกคือการดาวน์โหลดแพ็คเกจการเจาะ
วิธีสร้างรายการที่เชื่อมโยงในค
คำสั่ง: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz
คำสั่ง: tar -xvf apache-drill-1.5.0.tar.gz
คำสั่ง: ls
จากนั้นตั้งค่าตัวแปรสภาพแวดล้อมในไฟล์. bashrc
คำสั่ง: sudo gedit .bashrc
ส่งออก DRILL_HOME = / home / edureka / apache-drill-1.5.0
ส่งออก PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin
คำสั่งนี้จะอัปเดตการเปลี่ยนแปลง:
คำสั่ง: ที่มา. bashrc
ไปที่ไดเร็กทอรี drill conf และแก้ไขไฟล์ drill-override.conf ด้วย cluster id และ zookeeper host & port เราจะเรียกใช้บนคลัสเตอร์ภายใน
คำสั่ง: ซีดี apache-drill-1.5.0
คำสั่ง: sudo gedit conf / drill-override.conf
ตามค่าเริ่มต้น DRILL_MAX_DIRECT_MEMORY จะเป็น 8 GB ใน drill-env.sh และเราจำเป็นต้องเก็บไว้ตามหน่วยความจำที่เรามี
คำสั่ง: sudo gedit conf / drill-env.sh
ในการติดตั้งการเจาะเฉพาะในโหนดเดียวคุณสามารถใช้โหมดฝังตัวซึ่งจะทำงานในเครื่อง มันจะเริ่มบริการ drillbit โดยอัตโนมัติเมื่อคุณเรียกใช้คำสั่งนี้
คำสั่ง: ./bin/drill-embedded
คุณสามารถเรียกใช้แบบสอบถามง่ายๆเพื่อตรวจสอบการติดตั้ง
คำสั่ง: เลือก * จาก sys.options WHERE type = 'SYSTEM' และตั้งชื่อเช่น 'security%'
ในการตรวจสอบเว็บคอนโซลของ Apache Drill เราต้องไปที่ localhost: 8047 ในเว็บเบราว์เซอร์
อาร์กิวเมนต์บรรทัดคำสั่งในโค้ดตัวอย่าง java
คุณสามารถเรียกใช้แบบสอบถามของคุณจากแท็บแบบสอบถามได้เช่นกัน
ในการเรียกใช้การเจาะในโหมดกระจายคุณต้องแก้ไข ID คลัสเตอร์และเพิ่มข้อมูล ZooKeeper ใน drill-override.conf ดังต่อไปนี้
จากนั้นเราต้องเริ่มบริการ ZooKeeper ในแต่ละโหนด หลังจากนั้นคุณต้องเริ่มบริการ drillbit ในแต่ละโหนดด้วยคำสั่งนี้
คำสั่ง: ./bin/drillbit.sh เริ่มต้น
คำสั่ง: jps
ตอนนี้เราใช้คำสั่งด้านล่างเพื่อเริ่มการเจาะเชลล์
ตอนนี้เราสามารถดำเนินการค้นหาของเราบนคลัสเตอร์ในโหมดกระจาย
นี่เป็นบล็อกโพสต์แรกในบล็อกชุด Apache Drill สองส่วน บล็อกที่สองในซีรีส์กำลังจะมาเร็ว ๆ นี้
มีคำถามสำหรับเรา? พูดถึงพวกเขาในส่วนความคิดเห็นแล้วเราจะติดต่อกลับไป
กระทู้ที่เกี่ยวข้อง: