ติดตั้ง Hadoop: การตั้งค่าคลัสเตอร์ Hadoop โหนดเดียว



บทช่วยสอนนี้เป็นคำแนะนำทีละขั้นตอนในการติดตั้งคลัสเตอร์ Hadoop และกำหนดค่าบนโหนดเดียว ขั้นตอนการติดตั้ง Hadoop ทั้งหมดใช้สำหรับเครื่อง CentOS

ติดตั้ง Hadoop: การตั้งค่าคลัสเตอร์ Hadoop โหนดเดียว

จากบล็อกก่อนหน้าของเราเกี่ยวกับ คุณต้องมีความคิดเชิงทฤษฎีเกี่ยวกับ Hadoop, HDFS และสถาปัตยกรรมของมันแต่จะได้รับ คุณต้องการความรู้ที่ดีฉันหวังว่าคุณจะชอบบล็อกก่อนหน้านี้ของเราใน ตอนนี้ฉันจะนำคุณไปสู่ความรู้เชิงปฏิบัติเกี่ยวกับ Hadoop และ HDFS ขั้นตอนแรกคือการติดตั้ง Hadoop

มีสองวิธีในการติดตั้ง Hadoop นั่นคือ โหนดเดียว และ หลายโหนด .





คลัสเตอร์โหนดเดียว หมายถึง DataNode เพียงตัวเดียวที่รันและตั้งค่า NameNode, DataNode, ResourceManager และ NodeManager ทั้งหมดในเครื่องเดียว ใช้เพื่อการศึกษาและทดสอบ ตัวอย่างเช่นให้เราพิจารณาชุดข้อมูลตัวอย่างในอุตสาหกรรมการดูแลสุขภาพ ดังนั้นสำหรับการทดสอบว่างาน Oozie ได้จัดกำหนดการกระบวนการทั้งหมดเช่นการรวบรวมการรวมการจัดเก็บและการประมวลผลข้อมูลตามลำดับที่เหมาะสมหรือไม่เราจึงใช้คลัสเตอร์โหนดเดียว สามารถทดสอบเวิร์กโฟลว์ตามลำดับได้อย่างง่ายดายและมีประสิทธิภาพในสภาพแวดล้อมที่เล็กกว่าเมื่อเทียบกับสภาพแวดล้อมขนาดใหญ่ซึ่งมีข้อมูลจำนวนเทราไบต์ที่กระจายอยู่ในเครื่องหลายร้อยเครื่อง

ขณะอยู่ใน คลัสเตอร์หลายโหนด มี DataNode มากกว่าหนึ่งตัวที่ทำงานอยู่และ DataNode แต่ละตัวทำงานบนเครื่องที่แตกต่างกัน คลัสเตอร์แบบหลายโหนดถูกนำไปใช้ในองค์กรเพื่อวิเคราะห์ข้อมูลขนาดใหญ่ เมื่อพิจารณาจากตัวอย่างข้างต้นในแบบเรียลไทม์เมื่อเราจัดการกับข้อมูลเพตะไบต์จำเป็นต้องกระจายไปยังเครื่องหลายร้อยเครื่องเพื่อประมวลผล ดังนั้นที่นี่เราจึงใช้คลัสเตอร์หลายโหนด



ในเวลาคอมไพเลอร์ java

ในบล็อกนี้ฉันจะแสดงวิธีการติดตั้ง Hadoop บนคลัสเตอร์โหนดเดียว

ข้อกำหนดเบื้องต้น

  • กล่องเสมือนจริง : ใช้สำหรับติดตั้งระบบปฏิบัติการ
  • ระบบปฏิบัติการ : คุณสามารถติดตั้ง Hadoop บนระบบปฏิบัติการที่ใช้ Linux ได้ Ubuntu และ CentOS มักใช้กันมาก ในบทช่วยสอนนี้เรากำลังใช้ CentOS
  • JAVA : คุณต้องติดตั้งแพ็คเกจ Java 8 บนระบบของคุณ
  • HADOOP : คุณต้องการแพ็คเกจ Hadoop 2.7.3

ติดตั้ง Hadoop

ขั้นตอนที่ 1: คลิกที่นี่ เพื่อดาวน์โหลด Java 8 Package บันทึกไฟล์นี้ในโฮมไดเร็กทอรีของคุณ

ขั้นตอนที่ 2: แตกไฟล์ Java Tar

คำสั่ง : tar -xvf jdk-8u101-linux-i586.tar.gz

Smear Java - ติดตั้ง Hadoop - Edureka



รูป: Hadoop Installation - การแตกไฟล์ Java

ขั้นตอนที่ 3: ดาวน์โหลดแพ็คเกจ Hadoop 2.7.3

คำสั่ง : wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

รูป: การติดตั้ง Hadoop - การดาวน์โหลด Hadoop

ขั้นตอนที่ 4: แตกไฟล์ Hadoop tar

คำสั่ง : tar -xvf hadoop-2.7.3.tar.gz

รูป: การติดตั้ง Hadoop - การแตกไฟล์ Hadoop

ขั้นตอนที่ 5: เพิ่มพา ธ Hadoop และ Java ในไฟล์ bash (.bashrc)

เปิด . bashrc ไฟล์. ตอนนี้เพิ่ม Hadoop และ Java Path ดังที่แสดงด้านล่าง

คำสั่ง : vi. bashrc

รูป: การติดตั้ง Hadoop - การตั้งค่าตัวแปรสภาพแวดล้อม

จากนั้นบันทึกไฟล์ bash และปิด

สำหรับการนำการเปลี่ยนแปลงทั้งหมดนี้ไปใช้กับ Terminal ปัจจุบันให้รันคำสั่ง source

คำสั่ง : ที่มา. bashrc

รูป: การติดตั้ง Hadoop - การรีเฟรชตัวแปรสภาพแวดล้อม

เพื่อให้แน่ใจว่า Java และ Hadoop ได้รับการติดตั้งอย่างถูกต้องบนระบบของคุณและสามารถเข้าถึงได้ผ่าน Terminal ex ดำเนินการคำสั่ง java -version และ hadoop version

คำสั่ง : java- รุ่น

รูป: การติดตั้ง Hadoop - การตรวจสอบเวอร์ชัน Java

คำสั่ง : Hadoopรุ่น

รูป: การติดตั้ง Hadoop - การตรวจสอบเวอร์ชัน Hadoop

ขั้นตอนที่ 6 : แก้ไขไฟล์ .

คำสั่ง: ซีดี hadoop-2.7.3 / etc / hadoop /

คำสั่ง: ls

ไฟล์กำหนดค่า Hadoop ทั้งหมดอยู่ใน hadoop-2.7.3 / etc / hadoop ไดเรกทอรีดังที่คุณเห็นในภาพรวมด้านล่าง:

รูป: การติดตั้ง Hadoop - ไฟล์การกำหนดค่า Hadoop

ขั้นตอนที่ 7 : เปิด core-site.xml และแก้ไขคุณสมบัติที่กล่าวถึงด้านล่างภายในแท็กการกำหนดค่า:

core-site.xml แจ้ง Hadoop daemon โดยที่ NameNode ทำงานในคลัสเตอร์ ประกอบด้วยการตั้งค่าคอนฟิกูเรชันของ Hadoop core เช่นการตั้งค่า I / O ที่ใช้กับ HDFS และ MapReduce

คำสั่ง : vi core-site.xml

รูป: การติดตั้ง Hadoop - การกำหนดค่า core-site.xml

fs.default.name hdfs: // localhost: 9000

ขั้นตอนที่ 8: แก้ไข hdfs-site.xml และแก้ไขคุณสมบัติที่กล่าวถึงด้านล่างภายในแท็กการกำหนดค่า:

hdfs-site.xml มีการตั้งค่าคอนฟิกูเรชันของ HDFS daemons (เช่น NameNode, DataNode, Secondary NameNode) นอกจากนี้ยังรวมถึงปัจจัยการจำลองแบบและขนาดบล็อกของ HDFS

คำสั่ง : vi hdfs-site.xml

รูป: การติดตั้ง Hadoop - การกำหนดค่า hdfs-site.xml

dfs.replication 1 dfs.permission เท็จ

ขั้นตอนที่ 9 : แก้ไขไฟล์ mapred-site.xml ไฟล์และแก้ไขคุณสมบัติที่กล่าวถึงด้านล่างภายในแท็กการกำหนดค่า:

mapred-site.xml ประกอบด้วยการตั้งค่าการกำหนดค่าของแอปพลิเคชัน MapReduce เช่นจำนวน JVM ที่สามารถทำงานแบบขนานขนาดของตัวทำแผนที่และกระบวนการลดแกน CPU ที่พร้อมใช้งานสำหรับกระบวนการ ฯลฯ

ในบางกรณีไฟล์ mapred-site.xml จะไม่พร้อมใช้งาน ดังนั้นเราต้องสร้างไฟล์ mapred-site.xmlโดยใช้เทมเพลต mapred-site.xml

คำสั่ง : cp mapred-site.xml.template mapred-site.xml

คำสั่ง : เรา แผนที่เว็บไซต์.xml.

รูป: การติดตั้ง Hadoop - การกำหนดค่า mapred-site.xml

mapreduce.framework.name เส้นด้าย

ขั้นตอนที่ 10: แก้ไข เส้นด้าย site.xml และแก้ไขคุณสมบัติที่กล่าวถึงด้านล่างภายในแท็กการกำหนดค่า:

เส้นด้าย site.xml ประกอบด้วยการตั้งค่าคอนฟิกของ ResourceManager และ NodeManager เช่นขนาดการจัดการหน่วยความจำของแอปพลิเคชันการดำเนินการที่จำเป็นในโปรแกรมและอัลกอริทึม ฯลฯ

คำสั่ง : vi yarn-site.xml

รูป: การติดตั้ง Hadoop - การกำหนดค่า yarn-site.xml

yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

ขั้นตอนที่ 11: แก้ไข hadoop-env.sh และเพิ่ม Java Path ดังที่กล่าวไว้ด้านล่าง:

hadoop-env.sh มีตัวแปรสภาพแวดล้อมที่ใช้ในสคริปต์เพื่อเรียกใช้ Hadoop เช่น Java home path เป็นต้น

คำสั่ง : เรา Hadoop-env.

รูป: การติดตั้ง Hadoop - การกำหนดค่า hadoop-env.sh

ขั้นตอนที่ 12: ไปที่ไดเร็กทอรีโฮม Hadoop และจัดรูปแบบ NameNode

คำสั่ง : ซีดี

คำสั่ง : ซีดี hadoop-2.7.3

คำสั่ง : bin / hadoop วัตถุประสงค์ - ฟอร์แมต

รูป: Hadoop Installation - การจัดรูปแบบ NameNode

รูปแบบนี้ HDFS ผ่าน NameNode คำสั่งนี้ดำเนินการเป็นครั้งแรกเท่านั้น การจัดรูปแบบระบบไฟล์หมายถึงการเริ่มต้นไดเร็กทอรีที่ระบุโดยตัวแปร dfs.name.dir

ไม่ต้องฟอร์แมตและรันระบบไฟล์ Hadoop คุณจะสูญเสียข้อมูลทั้งหมดที่จัดเก็บไว้ใน HDFS

ขั้นตอนที่ 13: เมื่อฟอร์แมต NameNode แล้วให้ไปที่ไดเร็กทอรี hadoop-2.7.3 / sbin และเริ่มต้น daemons ทั้งหมด

คำสั่ง: ซีดี hadoop-2.7.3 / sbin

คุณสามารถเริ่ม daemons ทั้งหมดด้วยคำสั่งเดียวหรือทำทีละรายการ

คำสั่ง: ./ start-all.sh

คำสั่งดังกล่าวเป็นการรวมกันของ start-dfs.sh, start-yarn.sh & mr-jobhistory-daemon.sh

หรือคุณสามารถเรียกใช้บริการทั้งหมดทีละรายการด้านล่าง:

ชื่อเริ่มต้นโหนด:

NameNode เป็นศูนย์กลางของระบบไฟล์ HDFS มันเก็บแผนผังไดเร็กทอรีของไฟล์ทั้งหมดที่จัดเก็บใน HDFS และติดตามไฟล์ทั้งหมดที่จัดเก็บในคลัสเตอร์

คำสั่ง: ./hadoop-daemon.sh จุดประสงค์เริ่มต้น

รูป: การติดตั้ง Hadoop - โหนดชื่อเริ่มต้น

เริ่ม DataNode:

เมื่อเริ่มต้น DataNode จะเชื่อมต่อกับ Namenode และตอบสนองต่อคำร้องขอจาก Namenode สำหรับการดำเนินการต่างๆ

คำสั่ง: ./hadoop-daemon.sh เริ่มต้น datanode

รูป: การติดตั้ง Hadoop - เริ่มต้น DataNode

เริ่ม ResourceManager:

ResourceManager เป็นหลักที่ตัดสินทรัพยากรคลัสเตอร์ที่มีอยู่ทั้งหมดและช่วยในการจัดการแอปพลิเคชันแบบกระจายที่ทำงานบนระบบ YARN งานของมันคือการจัดการ NodeManagers และ ApplicationMaster ของแต่ละแอปพลิเคชัน

คำสั่ง: ./เส้นด้าย-daemon.sh เริ่มต้น resourcemanager

รูป: การติดตั้ง Hadoop - การเริ่มต้น ResourceManager

เริ่ม NodeManager:

NodeManager ในแต่ละเฟรมเวิร์กของเครื่องคือเอเจนต์ที่รับผิดชอบในการจัดการคอนเทนเนอร์ตรวจสอบการใช้ทรัพยากรและรายงานแบบเดียวกันไปยัง ResourceManager

คำสั่ง: ./เส้นด้าย-daemon.sh เริ่ม nodemanager

รูป: การติดตั้ง Hadoop - การเริ่มต้น NodeManager

เริ่ม JobHistoryServer:

JobHistoryServer รับผิดชอบในการให้บริการคำขอที่เกี่ยวข้องกับประวัติงานทั้งหมดจากลูกค้า

คำสั่ง : ./mr-jobhistory-daemon.sh start historyserver

ขั้นตอนที่ 14: ในการตรวจสอบว่าบริการ Hadoop ทั้งหมดทำงานอยู่ให้เรียกใช้คำสั่งด้านล่าง

คำสั่ง: jps

รูป: การติดตั้ง Hadoop - การตรวจสอบ Daemons

ขั้นตอนที่ 15: ตอนนี้เปิดเบราว์เซอร์ Mozilla แล้วไปที่ localhost : 50070 / dfshealth.html เพื่อตรวจสอบอินเทอร์เฟซ NameNode

รูป: การติดตั้ง Hadoop - การเริ่มต้น WebUI

ขอแสดงความยินดีคุณติดตั้งคลัสเตอร์ Hadoop โหนดเดียวสำเร็จในครั้งเดียวในบล็อกถัดไปของเรา เราจะกล่าวถึงวิธีการติดตั้ง Hadoop บนคลัสเตอร์แบบหลายโหนดด้วย

ตอนนี้คุณเข้าใจวิธีการติดตั้ง Hadoop แล้วให้ตรวจสอบไฟล์ โดย Edureka บริษัท การเรียนรู้ออนไลน์ที่เชื่อถือได้ซึ่งมีเครือข่ายผู้เรียนที่พึงพอใจมากกว่า 250,000 คนกระจายอยู่ทั่วโลก หลักสูตรการฝึกอบรม Edureka Big Data Hadoop Certification ช่วยให้ผู้เรียนมีความเชี่ยวชาญใน HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume และ Sqoop โดยใช้กรณีการใช้งานแบบเรียลไทม์ในโดเมนการค้าปลีกโซเชียลมีเดียการบินการท่องเที่ยวการเงิน

มีคำถามสำหรับเรา? โปรดระบุไว้ในส่วนความคิดเห็นแล้วเราจะติดต่อกลับไป