Apache Hive เป็นหนึ่งในกรอบที่สำคัญที่สุดในระบบนิเวศ Hadoop ซึ่งทำให้มันมีความสำคัญมากสำหรับ . ในบล็อกนี้เราจะเรียนรู้เกี่ยวกับการติดตั้ง Apache Hive และ Hive บน Ubuntu
Apache Hive คืออะไร?
อาปาเช่ไฮฟ์ เป็นโครงสร้างพื้นฐานของคลังข้อมูลที่อำนวยความสะดวกในการสืบค้นและจัดการชุดข้อมูลขนาดใหญ่ซึ่งอยู่ในระบบจัดเก็บข้อมูลแบบกระจาย สร้างขึ้นบน Hadoop และพัฒนาโดย Facebook รัง ให้วิธีการสืบค้นข้อมูลโดยใช้ภาษาแบบสอบถามคล้าย SQL ที่เรียกว่า HiveQL (Hive query Language)
ภายในคอมไพเลอร์จะแปล HiveQL งบเป็น MapReduce ซึ่งจะถูกส่งไปยัง Hadoop กรอบ สำหรับการดำเนินการ
ความแตกต่างระหว่าง Hive และ SQL:
รัง มีลักษณะคล้ายกับฐานข้อมูลแบบดั้งเดิมมาก SQL เข้าไป. อย่างไรก็ตามเนื่องจาก รัง ขึ้นอยู่กับ Hadoop และ MapReduce การดำเนินงานมีความแตกต่างที่สำคัญหลายประการ:
เนื่องจาก Hadoop มีไว้สำหรับการสแกนแบบยาวตามลำดับและ รัง ขึ้นอยู่กับ Hadoop คุณคาดว่าข้อความค้นหาจะมีเวลาแฝงสูงมาก หมายความว่า รัง จะไม่เหมาะสำหรับแอปพลิเคชันที่ต้องการเวลาตอบสนองที่รวดเร็วมากอย่างที่คุณคาดหวังกับฐานข้อมูล RDBMS แบบเดิม
สุดท้าย รัง เป็นแบบอ่านตามดังนั้นจึงไม่เหมาะสมสำหรับการประมวลผลธุรกรรมที่มักเกี่ยวข้องกับการดำเนินการเขียนในเปอร์เซ็นต์ที่สูง
talend open studio กวดวิชา pdf
การติดตั้ง Hive บน Ubuntu:
โปรดทำตามขั้นตอนด้านล่างเพื่อติดตั้ง อาปาเช่ไฮฟ์ บน Ubuntu:
ขั้นตอนที่ 1: ดาวน์โหลด น้ำมันดิน
คำสั่ง: wget http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz
ขั้นตอนที่ 2: แตกไฟล์ น้ำมันดิน ไฟล์.
คำสั่ง: tar -xzf apache-hive-2.1.0-bin.tar.gz
คำสั่ง: ls
ขั้นตอนที่ 3: แก้ไขไฟล์ “ .bashrc” ไฟล์เพื่ออัพเดตตัวแปรสภาพแวดล้อมสำหรับผู้ใช้
คำสั่ง: sudo gedit .bashrc
เพิ่มสิ่งต่อไปนี้ที่ท้ายไฟล์:
# ตั้งค่า HIVE_HOME
ส่งออก HIVE_HOME = / home / edureka / apache-hive-2.1.0-bin
ส่งออก PATH = $ PATH: /home/edureka/apache-hive-2.1.0-bin/bin
ตรวจสอบให้แน่ใจว่าได้ตั้งค่าเส้นทาง hadoop ไว้ด้วย
เรียกใช้คำสั่งด้านล่างเพื่อให้การเปลี่ยนแปลงทำงานในเทอร์มินัลเดียวกัน
คำสั่ง: ที่มา. bashrc
ขั้นตอนที่ 4: ตรวจสอบเวอร์ชันรัง
กรอบสปริงคืออะไร
ขั้นตอนที่ 5: สร้าง รัง ไดเรกทอรีภายใน HDFS . ไดเร็กทอรี 'คลังสินค้า' เป็นตำแหน่งที่จัดเก็บตารางหรือข้อมูลที่เกี่ยวข้องกับรัง
คำสั่ง:
- hdfs dfs -mkdir -p / user / hive / warehouse
- hdfs dfs -mkdir / tmp
ขั้นตอนที่ 6: ตั้งค่าสิทธิ์ในการอ่าน / เขียนสำหรับตาราง
คำสั่ง:
ในคำสั่งนี้เราให้สิทธิ์การเขียนแก่กลุ่ม:
- hdfs dfs -chmod g + w / user / hive / warehouse
- hdfs dfs -chmod g + w / tmp
ขั้นตอนที่ 7: ชุด Hadoop เส้นทางใน ซ ive-env.sh
คำสั่ง: ซีดี apache-hive-2.1.0-bin /
คำสั่ง: gedit conf / hive-env.sh
ตั้งค่าพารามิเตอร์ตามที่แสดงในภาพรวมด้านล่าง
ขั้นตอนที่ 8: แก้ไข hive-site.xml
คำสั่ง: gedit conf / hive-site.xml
javax.jdo.option.ConnectionURL jdbc: derby: databaseName = / home / edureka / apache-hive-2.1.0-bin / metastore_dbcreate = สตริงการเชื่อมต่อ JDBC ที่แท้จริงสำหรับการแพร่กระจายของ JDBC ในการใช้ SSL เพื่อเข้ารหัส / พิสูจน์ตัวตนการเชื่อมต่อให้ระบุแฟล็ก SSL เฉพาะฐานข้อมูลใน URL การเชื่อมต่อ ตัวอย่างเช่น jdbc: postgresql: // myhost / db? ssl = true สำหรับฐานข้อมูล postgres hive.metastore.warehouse.dir / user / hive / warehouse location ของฐานข้อมูลดีฟอลต์สำหรับ warehouse hive.metastore.uris Thrift URI สำหรับการแพร่กระจายแบบรีโมต ใช้โดยไคลเอ็นต์ metastore เพื่อเชื่อมต่อกับการแพร่กระจายระยะไกล javax.jdo.option.ConnectionDriverName org.apache.derby.jdbc ชื่อคลาสไดรเวอร์ EmbeddedDriver สำหรับ JDBC metastore javax.jdo.PersistenceManagerFactoryClass org.datanucleus.api.jdo คลาส JDOPersistenceManagerFactory ที่ใช้ jdo persistence
ขั้นตอนที่ 9: โดยค่าเริ่มต้น Hive จะใช้ ดาร์บี้ ฐานข้อมูล. เริ่มต้นฐานข้อมูล Derby
คำสั่ง: bin / schematool -initSchema -dbType ดาร์บี้
ขั้นตอนที่ 10 :เปิด รัง
คำสั่ง: รัง
ขั้นตอนที่ 11 :เรียกใช้แบบสอบถามสองสามรายการใน Hive shell
คำสั่ง: แสดงฐานข้อมูล
คำสั่ง: สร้างพนักงานตาราง (สตริงรหัสสตริงชื่อสตริงฝ่าย) รูปแบบแถวเขตข้อมูลที่คั่นด้วย '' จัดเก็บเป็นไฟล์ข้อความ
คำสั่ง: แสดงตาราง
ขั้นตอนที่ 12: เพื่อออกจาก รัง:
คำสั่ง: ทางออก
c c # c ++
เมื่อคุณติดตั้ง Hive เสร็จแล้วขั้นตอนต่อไปคือลองใช้คำสั่ง Hive บน Hive shell ดังนั้นบล็อกถัดไปของเรา“ คำสั่งยอดนิยมพร้อมตัวอย่างใน HQL ” จะช่วยให้คุณเชี่ยวชาญคำสั่ง Hive
กระทู้ที่เกี่ยวข้อง: