วิธีสร้างคลัสเตอร์ HADOOP ด้วย AMAZON EMR

ในบทความนี้เกี่ยวกับวิธีการสร้าง คลัสเตอร์ด้วย Amazon EMR เราจะมาดูวิธีเรียกใช้และปรับขนาดแอปพลิเคชัน Hadoop และ Big Data ได้อย่างง่ายดาย คำแนะนำต่อไปนี้จะกล่าวถึงในบทความนี้

วิธีสร้าง Hadoop Cluster ด้วย Amazon EMR
การสาธิต: การสร้างคลัสเตอร์ EMR ใน AWS

ต่อไปนี้จะสร้างคลัสเตอร์ Hadoop ด้วย Amazon EMR ได้อย่างไร

วิธีสร้าง Hadoop Cluster ด้วย Amazon EMR

เมื่อเราค้นหาบางสิ่งใน Google หรือ Yahoo เราจะได้รับคำตอบในเสี้ยววินาที เป็นไปได้อย่างไรที่ Google, Yahoo และเครื่องมือค้นหาอื่น ๆ ให้ผลลัพธ์อย่างรวดเร็วจากเว็บที่เติบโตขึ้นเรื่อย ๆ เครื่องมือค้นหาจะรวบรวมข้อมูลผ่านอินเทอร์เน็ตดาวน์โหลดหน้าเว็บและสร้างดัชนีดังที่แสดงด้านล่าง สำหรับคำถามใด ๆ จากเราพวกเขาใช้ดัชนีเพื่อค้นหาว่าหน้าเว็บทั้งหมดที่มีข้อความที่เรากำลังค้นหาคืออะไร จากการดูดัชนีด้านล่างทางด้านขวาเราสามารถทราบได้อย่างชัดเจนว่า Hadoop มีหน้าเว็บ 1, 2 และ 3

รูปภาพ - วิธีสร้างคลัสเตอร์ Hadoop ด้วย Amazon EMR - Edureka จากนั้นไฟล์ อัลกอริทึม PageRanking ใช้ซึ่งขึ้นอยู่กับวิธีการเชื่อมต่อเพจเพื่อดูว่าเพจใดที่จะแสดงที่ด้านบนและเพจที่อยู่ด้านล่าง ในสถานการณ์ด้านล่าง W1 เป็น 'ที่นิยมมากที่สุด' เพราะทุกคนกำลังเชื่อมโยงไปยัง W4 และ W4 นั้น 'ได้รับความนิยมน้อยที่สุด' เนื่องจากไม่มีใครเชื่อมโยงไปถึงมัน ดังนั้น W1 จะแสดงที่ด้านบนและ W4 ที่ด้านล่างในผลการค้นหา

ด้วยการระเบิดของหน้าเว็บเครื่องมือค้นหาเหล่านี้กำลังค้นหาความท้าทายในการสร้างดัชนีและทำการคำนวณ PageRanking นี่คือจุดเริ่มต้นของ Hadoop ใน Yahoo และต่อมากลายเป็น FOSS (ซอฟต์แวร์เสรีและโอเพ่นซอร์ส) ภายใต้ ASF (Apache Software Foundation) ครั้งหนึ่งภายใต้ ASF บริษัท หลายแห่งเริ่มให้ความสนใจ Hadoop และเริ่มมีส่วนร่วมในการปรับปรุง Hadoop เป็นผู้เริ่มต้นการปฏิวัติ Big Data แต่มีโปรแกรมอื่น ๆ อีกมากมายเช่น Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume เริ่มพัฒนาเพื่อแก้ไขข้อ จำกัด และช่องว่างใน Hadoop

เครื่องมือค้นหาเว็บเป็นเครื่องมือแรกที่ใช้ Hadoop แต่ต่อมากรณีการใช้งานจำนวนมากเริ่มมีวิวัฒนาการเมื่อมีการสร้างข้อมูลมากขึ้น มาดูตัวอย่างแอปพลิเคชันอีคอมเมิร์ซที่ใช้สำหรับแนะนำหนังสือให้กับผู้ใช้ ตามแผนภาพด้านล่าง user1 ซื้อ book1, book2 และ book3, user2 ซื้อหนังสือบางเล่มและอื่น ๆ เมื่อมองอย่างใกล้ชิดเราสามารถสังเกตได้ว่า user1 และ user2 มีรสนิยมที่คล้ายคลึงกันเมื่อซื้อ book1 และ book2 ดังนั้น book3 สามารถแนะนำให้กับ user2 และ book4 สามารถแนะนำให้ user1 ได้ สิ่งนี้เรียกว่า Collaborative Filtering ซึ่งเป็นอัลกอริธึม Machine Learning ประเภทหนึ่ง เราสามารถพลิกแผนภาพด้านล่างและรับหนังสือที่คล้ายกัน

ในกรณีข้างต้นเราได้สร้างดัชนี PageRanked และแนะนำให้กับผู้ใช้ขนาดของข้อมูลมีขนาดเล็กดังนั้นเราจึงสามารถเห็นภาพข้อมูลและสรุปผลลัพธ์บางส่วนได้ เนื่องจากขนาดของข้อมูลมีขนาดใหญ่ขึ้นในแต่ละวันและไม่สามารถควบคุมได้นี่คือจุดที่เครื่องมือ Big Data เช่น Hadoop เข้ามาเป็นภาพ

Hadoop แก้ปัญหาได้มากมาย แต่การติดตั้ง Hadoop และซอฟต์แวร์ Big Data อื่น ๆ ไม่เคยเป็นเรื่องง่าย มีพารามิเตอร์การกำหนดค่ามากมายที่ต้องปรับแต่งเช่นปัญหาการรวมการติดตั้งและการกำหนดค่าที่จะใช้งานได้ นี่คือที่ที่ บริษัท ต่างๆเช่น Cloudera และ Databricks ช่วย ทำให้การติดตั้งซอฟต์แวร์ Big Data ง่ายขึ้นและให้การสนับสนุนเชิงพาณิชย์เช่นสมมติว่ามีบางอย่างเกิดขึ้นในการผลิต Amazon EMR (Elastic MapReduce) ช่วยให้ใช้ Hadoop และอื่น ๆ ได้ง่ายขึ้นมาก ชื่อ Elastic MapReduce เป็นชื่อที่ผิดเนื่องจาก EMR ยังรองรับโมเดลคอมพิวเตอร์แบบกระจายอื่น ๆ เช่น Resilient Distributed Datasets ไม่ใช่แค่ MapReduce

ในบทช่วยสอนนี้เราจะสำรวจวิธีการตั้งค่าคลัสเตอร์ EMR บน AWS Cloud และในบทช่วยสอนที่กำลังจะมาถึงเราจะสำรวจวิธีเรียกใช้ Spark, Hive และโปรแกรมอื่น ๆ ที่อยู่ด้านบน

ต่อไปนี้จะสร้างคลัสเตอร์ Hadoop ด้วย Amazon EMR ได้อย่างไร

การสาธิต: การสร้างคลัสเตอร์ EMR ใน AWS

ขั้นตอนที่ 1: ไปที่ EMR Management Console และคลิกที่“ สร้างคลัสเตอร์” ในคอนโซลข้อมูลเมตาสำหรับ คลัสเตอร์ที่ถูกยกเลิก นอกจากนี้ยังบันทึกเป็นเวลาสองเดือนฟรี สิ่งนี้ช่วยให้คลัสเตอร์ที่ถูกยกเลิกสามารถถูกโคลนและสร้างขึ้นอีกครั้ง

ขั้นตอนที่ 2 : จากหน้าจอตัวเลือกด่วนคลิกที่“ ไปที่ตัวเลือกขั้นสูง” เพื่อระบุรายละเอียดเพิ่มเติมเกี่ยวกับคลัสเตอร์

ขั้นตอนที่ 3: ในแท็บตัวเลือกขั้นสูงเราสามารถเลือกซอฟต์แวร์อื่นที่จะติดตั้งบนคลัสเตอร์ EMR สำหรับอินเทอร์เฟซ SQL สามารถเลือก Hive ได้ สำหรับอินเทอร์เฟซภาษาโฟลว์ข้อมูลสามารถเลือก Pig ได้ สำหรับการประสานงานแอปพลิเคชันแบบกระจายคุณสามารถเลือก ZooKeeper และอื่น ๆ แท็บนี้ยังช่วยให้เราสามารถเพิ่มขั้นตอนซึ่งเป็นงานเสริม ขั้นตอนคืองานประมวลผลข้อมูลขนาดใหญ่โดยใช้ MapReduce, Pig, Hive เป็นต้นสามารถเพิ่มได้ในแท็บนี้หรือในภายหลังเมื่อสร้างคลัสเตอร์แล้ว คลิกที่“ ถัดไป” เพื่อเลือกฮาร์ดแวร์ที่จำเป็นสำหรับคลัสเตอร์ EMR

tostring () วิธี java

ขั้นตอนที่ 4: Hadoop เป็นไปตามสถาปัตยกรรมของผู้ปฏิบัติงานหลักโดยที่ผู้เชี่ยวชาญทำหน้าที่ประสานงานทั้งหมดเช่นการจัดตารางเวลาและมอบหมายงานและตรวจสอบความคืบหน้าในขณะที่คนงานทำงานจริงในการประมวลผลและจัดเก็บข้อมูล ต้นแบบเดียวคือ Single-Point-Of-Failure (SPOF) Amazon EMR รองรับ multi-master สำหรับ High Availability (HA) ขั้นตอนก่อนหน้าอนุญาตให้ตั้งค่าคลัสเตอร์แบบหลายหลักใน EMR

EMR อนุญาตให้ใช้โหนดสองประเภทคือ Core และ Task โหนดหลักใช้สำหรับการประมวลผลและจัดเก็บข้อมูลโหนดงานใช้สำหรับการประมวลผลข้อมูลเท่านั้น สำหรับบทช่วยสอนนี้เราสามารถเลือกได้เพียงคอร์เดียวและไม่มีโหนดงานเนื่องจากมีค่าใช้จ่ายน้อยกว่าสำหรับเรา นอกจากนี้เลือก จุดอินสแตนซ์ เกิน ตามความต้องการ เนื่องจากอินสแตนซ์ Spot มีราคาถูกกว่า การจับด้วยอินสแตนซ์ Spot คือ AWS สามารถยกเลิกได้โดยอัตโนมัติด้วย a แจ้งให้ทราบล่วงหน้าสองนาที . นี่เป็นประโยชน์สำหรับการฝึกฝนและในบางสถานการณ์จริงด้วย อินสแตนซ์ Spot ถูกยกเลิกโดยอัตโนมัติเนื่องจากมีลำดับความสำคัญต่ำกว่าอินสแตนซ์ประเภทอื่น ๆ คลิกที่“ ถัดไป”

ขั้นตอนที่ 5: ระบุชื่อคลัสเตอร์ และคลิกที่“ ถัดไป” โปรดสังเกตว่า 'การป้องกันการสิ้นสุด' เปิดอยู่โดยค่าเริ่มต้นซึ่งจะทำให้แน่ใจว่าคลัสเตอร์ EMR ไม่ได้ถูกลบโดยไม่ได้ตั้งใจโดยการแนะนำขั้นตอนสองสามขั้นตอนในขณะที่ยกเลิกคลัสเตอร์

ขั้นตอนที่ 6: ในแท็บตัวเลือกการรักษาความปลอดภัยที่แตกต่างกันสำหรับคลัสเตอร์ EMR ถูกระบุ ต้องเลือก KeyPair เพื่อเข้าสู่อินสแตนซ์ EC2 EMR จะสร้างบทบาทและกลุ่มความปลอดภัยที่เหมาะสมโดยอัตโนมัติและแนบเข้ากับโหนดหลักและโหนด EC2 ของผู้ปฏิบัติงาน คลิกที่ 'สร้างคลัสเตอร์'

การสร้างคลัสเตอร์จะใช้เวลาสองสามนาทีเนื่องจากต้องซื้ออินสแตนซ์ EC2 และต้องติดตั้งและกำหนดค่าซอฟต์แวร์ Big Data อื่น ในขั้นต้นสถานะคลัสเตอร์จะอยู่ในสถานะ 'เริ่มต้น' และไปยังสถานะ 'กำลังรอ' ในสถานะ 'กำลังรอ' คลัสเตอร์ EMR กำลังรอให้เราส่งงานการประมวลผลข้อมูลขนาดใหญ่ต่างๆเช่น MR, Spark, Hive เป็นต้น

นอกจากนี้โปรดสังเกตจากคอนโซลการจัดการ EC2 และโปรดทราบว่าอินสแตนซ์ EC2 หลักและผู้ปฏิบัติงานควรอยู่ในสถานะกำลังทำงาน นี่คืออินสแตนซ์ Spot ที่สร้างขึ้นเพื่อเป็นส่วนหนึ่งของการสร้างคลัสเตอร์ EMR EC2 เดียวกันสามารถสังเกตได้จากแท็บฮาร์ดแวร์ใน EMR Management Console ด้วย โปรดทราบว่าในแท็บฮาร์ดแวร์ราคาสำหรับอินสแตนซ์ Spot EC2 ระบุไว้ที่ 0.032 $ / ชั่วโมง ราคาของอินสแตนซ์ Spot เปลี่ยนแปลงไปเรื่อย ๆ ตามเวลาและต่ำกว่าราคา EC2 ตามความต้องการมาก

ขั้นตอนที่ 7: เมื่อเพิ่มคลัสเตอร์ EMR เรียบร้อยแล้วสามารถเพิ่มขั้นตอนหรืองานการประมวลผลข้อมูลขนาดใหญ่ได้ ไปที่แท็บขั้นตอนและคลิกที่“ เพิ่มขั้นตอน” และเลือกประเภทของขั้นตอน (MR, Hive, Spark ฯลฯ ) เราจะสำรวจสิ่งเดียวกันในบทช่วยสอนที่กำลังจะมาถึง ตอนนี้คลิกที่ยกเลิก

ขั้นตอนที่ 8: ตอนนี้เราได้เห็นวิธีเริ่ม EMR แล้วมาดูกันว่าจะหยุดสิ่งเดียวกันได้อย่างไร

ขั้นตอนที่ 8.1: คลิกที่ยุติ

ขั้นตอนที่ 8.2: ดังที่ได้กล่าวไว้ในขั้นตอนก่อนหน้านี้ 'การป้องกันการสิ้นสุด' เปิดอยู่สำหรับคลัสเตอร์ EMR และปุ่มยุติถูกปิดใช้งาน คลิกที่เปลี่ยน

ขั้นตอนที่ 8.3: เลือกปุ่มตัวเลือก“ ปิด” และคลิกที่เครื่องหมายถูก ตอนนี้ควรเปิดใช้งานปุ่มยุติ นี่เป็นขั้นตอนเพิ่มเติมที่ EMR ได้แนะนำเพื่อให้แน่ใจว่าเราจะไม่ลบคลัสเตอร์ EMR โดยไม่ได้ตั้งใจ

ตั้งค่า eclipse สำหรับ java

โปรดสังเกตว่าคลัสเตอร์ EMR จะอยู่ในสถานะยุติและ EC2s จะถูกยกเลิก ในที่สุดคลัสเตอร์ EMR จะถูกย้ายไปยังสถานะสิ้นสุดจากที่นี่การเรียกเก็บเงินของเรากับ AWS จะหยุดลง อย่าลืมยุติคลัสเตอร์เพื่อไม่ให้มีค่าใช้จ่าย AWS เพิ่มเติม

สรุป

ในบทช่วยสอนนี้เราได้เห็นวิธีเริ่มคลัสเตอร์ EMR ภายในไม่กี่นาทีจากเว็บคอนโซล (เบราว์เซอร์) ซึ่งสามารถทำได้โดยอัตโนมัติโดยใช้ , AWS SDK หรือโดยใช้ AWS CloudFormation . ตามที่สังเกตเห็นการตั้งค่าคลัสเตอร์ EMR สามารถทำได้โดยใช้เวลาเพียงไม่กี่นาทีและการประมวลผลข้อมูลขนาดใหญ่สามารถเริ่มต้นได้ทันทีเมื่อประมวลผลเสร็จแล้วผลลัพธ์จะถูกเก็บไว้ใน S3 หรือ DynamoDB และปิดคลัสเตอร์เพื่อหยุดการเรียกเก็บเงิน เนื่องจากรูปแบบการกำหนดราคานี้และความสะดวกในการใช้งาน EMR จึงเป็นที่นิยมอย่างมากสำหรับผู้ที่ดำเนินการประมวลผลข้อมูลขนาดใหญ่ ไม่จำเป็นต้องซื้อเซิร์ฟเวอร์จำนวนมากรับใบอนุญาตสำหรับซอฟต์แวร์ Big Data และดูแลรักษา '

นี่คือพวกเรามาถึงตอนท้ายของบทความนี้เกี่ยวกับวิธีสร้างคลัสเตอร์ Hadoop ด้วย Amazon EMR?ในกรณีที่คุณต้องการเพิ่มพูนความเชี่ยวชาญในเรื่องนี้ Edureka ได้จัดทำหลักสูตรที่ครอบคลุมสิ่งที่คุณจะต้องใช้ในการทดสอบ Solution Architect! คุณสามารถดูรายละเอียดหลักสูตรสำหรับ การฝึกอบรม.

ในกรณีที่มีข้อสงสัยเกี่ยวกับบล็อกนี้โปรดอย่าลังเลที่จะตั้งคำถามในส่วนความคิดเห็นด้านล่างและเรายินดีเป็นอย่างยิ่งที่จะตอบกลับคุณโดยเร็วที่สุด

วิธีสร้าง Hadoop Cluster ด้วย Amazon EMR

ในบทความนี้เราจะสำรวจ AWS EMR Service และในขั้นตอนนี้เราจะได้เรียนรู้วิธีสร้าง Hadoop Cluster ด้วย Amazon EMR?

วิธีสร้าง Hadoop Cluster ด้วย Amazon EMR

การสาธิต: การสร้างคลัสเตอร์ EMR ใน AWS

หมวดหมู่

Popular Articles

ทุกสิ่งที่คุณต้องการรู้เกี่ยวกับตัวดำเนินการ Bitwise ใน Java

เมทริกซ์ความสับสนในการเรียนรู้ของเครื่อง: โซลูชันครบวงจรของคุณ

Swing ใน Java: รู้วิธีสร้าง GUI ด้วยตัวอย่าง

รู้จักความท้าทาย 10 อันดับแรกของการใช้งาน RPA

จะใช้ Background Image ใน CSS ได้อย่างไร?

Informatica Certification: สิ่งที่ต้องรู้

Coupling ใน Java คืออะไรและประเภทต่างๆ?

วิธีการติดตั้งรายการที่เชื่อมโยงใน Python

สถาปัตยกรรมไมโครเซอร์วิส - เรียนรู้สร้างและปรับใช้ไมโครเซอร์วิส

วิธีสร้างประวัติย่อของนักพัฒนา Tableau ที่น่าประทับใจ

เหตุใด Salesforce จึงเป็น บริษัท คอมพิวเตอร์ระบบคลาวด์อันดับต้น ๆ ของโลก

อาชีพการเรียนรู้ของเครื่องและขอบเขตในอนาคต