การติดตั้ง Apache Hive บน Ubuntu



ในบล็อกนี้เราจะเรียนรู้เกี่ยวกับการติดตั้ง Apache Hive บน Ubuntu และแนวคิดเกี่ยวกับ Hadoop Hive, Hive sql, ฐานข้อมูล Hive, เซิร์ฟเวอร์ Hive และการติดตั้ง Hive

Apache Hive เป็นหนึ่งในกรอบที่สำคัญที่สุดในระบบนิเวศ Hadoop ซึ่งทำให้มันมีความสำคัญมากสำหรับ . ในบล็อกนี้เราจะเรียนรู้เกี่ยวกับการติดตั้ง Apache Hive และ Hive บน Ubuntu

Apache Hive คืออะไร?

อาปาเช่ไฮฟ์ เป็นโครงสร้างพื้นฐานของคลังข้อมูลที่อำนวยความสะดวกในการสืบค้นและจัดการชุดข้อมูลขนาดใหญ่ซึ่งอยู่ในระบบจัดเก็บข้อมูลแบบกระจาย สร้างขึ้นบน Hadoop และพัฒนาโดย Facebook รัง ให้วิธีการสืบค้นข้อมูลโดยใช้ภาษาแบบสอบถามคล้าย SQL ที่เรียกว่า HiveQL (Hive query Language)





ภายในคอมไพเลอร์จะแปล HiveQL งบเป็น MapReduce ซึ่งจะถูกส่งไปยัง Hadoop กรอบ สำหรับการดำเนินการ

ความแตกต่างระหว่าง Hive และ SQL:

รัง มีลักษณะคล้ายกับฐานข้อมูลแบบดั้งเดิมมาก SQL เข้าไป. อย่างไรก็ตามเนื่องจาก รัง ขึ้นอยู่กับ Hadoop และ MapReduce การดำเนินงานมีความแตกต่างที่สำคัญหลายประการ:



เนื่องจาก Hadoop มีไว้สำหรับการสแกนแบบยาวตามลำดับและ รัง ขึ้นอยู่กับ Hadoop คุณคาดว่าข้อความค้นหาจะมีเวลาแฝงสูงมาก หมายความว่า รัง จะไม่เหมาะสำหรับแอปพลิเคชันที่ต้องการเวลาตอบสนองที่รวดเร็วมากอย่างที่คุณคาดหวังกับฐานข้อมูล RDBMS แบบเดิม

สุดท้าย รัง เป็นแบบอ่านตามดังนั้นจึงไม่เหมาะสมสำหรับการประมวลผลธุรกรรมที่มักเกี่ยวข้องกับการดำเนินการเขียนในเปอร์เซ็นต์ที่สูง

talend open studio กวดวิชา pdf

การติดตั้ง Hive บน Ubuntu:

โปรดทำตามขั้นตอนด้านล่างเพื่อติดตั้ง อาปาเช่ไฮฟ์ บน Ubuntu:



ขั้นตอนที่ 1: ดาวน์โหลด น้ำมันดิน

คำสั่ง: wget http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz

ขั้นตอนที่ 2: แตกไฟล์ น้ำมันดิน ไฟล์.

คำสั่ง: tar -xzf apache-hive-2.1.0-bin.tar.gz

คำสั่ง: ls

แพร่กระจายไฟล์ Hive - การติดตั้ง Hive - Edureka

ขั้นตอนที่ 3: แก้ไขไฟล์ “ .bashrc” ไฟล์เพื่ออัพเดตตัวแปรสภาพแวดล้อมสำหรับผู้ใช้

คำสั่ง: sudo gedit .bashrc

เพิ่มสิ่งต่อไปนี้ที่ท้ายไฟล์:

# ตั้งค่า HIVE_HOME

ส่งออก HIVE_HOME = / home / edureka / apache-hive-2.1.0-bin
ส่งออก PATH = $ PATH: /home/edureka/apache-hive-2.1.0-bin/bin

ตรวจสอบให้แน่ใจว่าได้ตั้งค่าเส้นทาง hadoop ไว้ด้วย

เรียกใช้คำสั่งด้านล่างเพื่อให้การเปลี่ยนแปลงทำงานในเทอร์มินัลเดียวกัน

คำสั่ง: ที่มา. bashrc

ขั้นตอนที่ 4: ตรวจสอบเวอร์ชันรัง

กรอบสปริงคืออะไร

ขั้นตอนที่ 5: สร้าง รัง ไดเรกทอรีภายใน HDFS . ไดเร็กทอรี 'คลังสินค้า' เป็นตำแหน่งที่จัดเก็บตารางหรือข้อมูลที่เกี่ยวข้องกับรัง

คำสั่ง:

  • hdfs dfs -mkdir -p / user / hive / warehouse
  • hdfs dfs -mkdir / tmp

ขั้นตอนที่ 6: ตั้งค่าสิทธิ์ในการอ่าน / เขียนสำหรับตาราง

คำสั่ง:

ในคำสั่งนี้เราให้สิทธิ์การเขียนแก่กลุ่ม:

  • hdfs dfs -chmod g + w / user / hive / warehouse
  • hdfs dfs -chmod g + w / tmp

ขั้นตอนที่ 7: ชุด Hadoop เส้นทางใน ive-env.sh

คำสั่ง: ซีดี apache-hive-2.1.0-bin /

คำสั่ง: gedit conf / hive-env.sh

ตั้งค่าพารามิเตอร์ตามที่แสดงในภาพรวมด้านล่าง

ขั้นตอนที่ 8: แก้ไข hive-site.xml

คำสั่ง: gedit conf / hive-site.xml

javax.jdo.option.ConnectionURL jdbc: derby: databaseName = / home / edureka / apache-hive-2.1.0-bin / metastore_dbcreate = สตริงการเชื่อมต่อ JDBC ที่แท้จริงสำหรับการแพร่กระจายของ JDBC ในการใช้ SSL เพื่อเข้ารหัส / พิสูจน์ตัวตนการเชื่อมต่อให้ระบุแฟล็ก SSL เฉพาะฐานข้อมูลใน URL การเชื่อมต่อ ตัวอย่างเช่น jdbc: postgresql: // myhost / db? ssl = true สำหรับฐานข้อมูล postgres hive.metastore.warehouse.dir / user / hive / warehouse location ของฐานข้อมูลดีฟอลต์สำหรับ warehouse hive.metastore.uris Thrift URI สำหรับการแพร่กระจายแบบรีโมต ใช้โดยไคลเอ็นต์ metastore เพื่อเชื่อมต่อกับการแพร่กระจายระยะไกล javax.jdo.option.ConnectionDriverName org.apache.derby.jdbc ชื่อคลาสไดรเวอร์ EmbeddedDriver สำหรับ JDBC metastore javax.jdo.PersistenceManagerFactoryClass org.datanucleus.api.jdo คลาส JDOPersistenceManagerFactory ที่ใช้ jdo persistence

ขั้นตอนที่ 9: โดยค่าเริ่มต้น Hive จะใช้ ดาร์บี้ ฐานข้อมูล. เริ่มต้นฐานข้อมูล Derby

คำสั่ง: bin / schematool -initSchema -dbType ดาร์บี้

ขั้นตอนที่ 10 :เปิด รัง

คำสั่ง: รัง

ขั้นตอนที่ 11 :เรียกใช้แบบสอบถามสองสามรายการใน Hive shell

คำสั่ง: แสดงฐานข้อมูล

คำสั่ง: สร้างพนักงานตาราง (สตริงรหัสสตริงชื่อสตริงฝ่าย) รูปแบบแถวเขตข้อมูลที่คั่นด้วย '' จัดเก็บเป็นไฟล์ข้อความ

คำสั่ง: แสดงตาราง

ขั้นตอนที่ 12: เพื่อออกจาก รัง:

คำสั่ง: ทางออก

c c # c ++

เมื่อคุณติดตั้ง Hive เสร็จแล้วขั้นตอนต่อไปคือลองใช้คำสั่ง Hive บน Hive shell ดังนั้นบล็อกถัดไปของเรา“ คำสั่งยอดนิยมพร้อมตัวอย่างใน HQL ” จะช่วยให้คุณเชี่ยวชาญคำสั่ง Hive

กระทู้ที่เกี่ยวข้อง:

วิธีเรียกใช้ Hive Scripts

คำสั่ง Hive

ข้อมูลเบื้องต้นเกี่ยวกับ Apache Hive