วิธีสร้าง Hadoop Cluster ด้วย Amazon EMR



ในบทความนี้เราจะสำรวจ AWS EMR Service และในขั้นตอนนี้เราจะได้เรียนรู้วิธีสร้าง Hadoop Cluster ด้วย Amazon EMR?

ในบทความนี้เกี่ยวกับวิธีการสร้าง คลัสเตอร์ด้วย Amazon EMR เราจะมาดูวิธีเรียกใช้และปรับขนาดแอปพลิเคชัน Hadoop และ Big Data ได้อย่างง่ายดาย คำแนะนำต่อไปนี้จะกล่าวถึงในบทความนี้

ต่อไปนี้จะสร้างคลัสเตอร์ Hadoop ด้วย Amazon EMR ได้อย่างไร





วิธีสร้าง Hadoop Cluster ด้วย Amazon EMR

เมื่อเราค้นหาบางสิ่งใน Google หรือ Yahoo เราจะได้รับคำตอบในเสี้ยววินาที เป็นไปได้อย่างไรที่ Google, Yahoo และเครื่องมือค้นหาอื่น ๆ ให้ผลลัพธ์อย่างรวดเร็วจากเว็บที่เติบโตขึ้นเรื่อย ๆ เครื่องมือค้นหาจะรวบรวมข้อมูลผ่านอินเทอร์เน็ตดาวน์โหลดหน้าเว็บและสร้างดัชนีดังที่แสดงด้านล่าง สำหรับคำถามใด ๆ จากเราพวกเขาใช้ดัชนีเพื่อค้นหาว่าหน้าเว็บทั้งหมดที่มีข้อความที่เรากำลังค้นหาคืออะไร จากการดูดัชนีด้านล่างทางด้านขวาเราสามารถทราบได้อย่างชัดเจนว่า Hadoop มีหน้าเว็บ 1, 2 และ 3

รูปภาพ - วิธีสร้างคลัสเตอร์ Hadoop ด้วย Amazon EMR - Edurekaจากนั้นไฟล์ อัลกอริทึม PageRanking ใช้ซึ่งขึ้นอยู่กับวิธีการเชื่อมต่อเพจเพื่อดูว่าเพจใดที่จะแสดงที่ด้านบนและเพจที่อยู่ด้านล่าง ในสถานการณ์ด้านล่าง W1 เป็น 'ที่นิยมมากที่สุด' เพราะทุกคนกำลังเชื่อมโยงไปยัง W4 และ W4 นั้น 'ได้รับความนิยมน้อยที่สุด' เนื่องจากไม่มีใครเชื่อมโยงไปถึงมัน ดังนั้น W1 จะแสดงที่ด้านบนและ W4 ที่ด้านล่างในผลการค้นหา



ด้วยการระเบิดของหน้าเว็บเครื่องมือค้นหาเหล่านี้กำลังค้นหาความท้าทายในการสร้างดัชนีและทำการคำนวณ PageRanking นี่คือจุดเริ่มต้นของ Hadoop ใน Yahoo และต่อมากลายเป็น FOSS (ซอฟต์แวร์เสรีและโอเพ่นซอร์ส) ภายใต้ ASF (Apache Software Foundation) ครั้งหนึ่งภายใต้ ASF บริษัท หลายแห่งเริ่มให้ความสนใจ Hadoop และเริ่มมีส่วนร่วมในการปรับปรุง Hadoop เป็นผู้เริ่มต้นการปฏิวัติ Big Data แต่มีโปรแกรมอื่น ๆ อีกมากมายเช่น Spark, Hive, Pig, Sqoop, Zookeeper, HBase, Cassandra, Flume เริ่มพัฒนาเพื่อแก้ไขข้อ จำกัด และช่องว่างใน Hadoop

เครื่องมือค้นหาเว็บเป็นเครื่องมือแรกที่ใช้ Hadoop แต่ต่อมากรณีการใช้งานจำนวนมากเริ่มมีวิวัฒนาการเมื่อมีการสร้างข้อมูลมากขึ้น มาดูตัวอย่างแอปพลิเคชันอีคอมเมิร์ซที่ใช้สำหรับแนะนำหนังสือให้กับผู้ใช้ ตามแผนภาพด้านล่าง user1 ซื้อ book1, book2 และ book3, user2 ซื้อหนังสือบางเล่มและอื่น ๆ เมื่อมองอย่างใกล้ชิดเราสามารถสังเกตได้ว่า user1 และ user2 มีรสนิยมที่คล้ายคลึงกันเมื่อซื้อ book1 และ book2 ดังนั้น book3 สามารถแนะนำให้กับ user2 และ book4 สามารถแนะนำให้ user1 ได้ สิ่งนี้เรียกว่า Collaborative Filtering ซึ่งเป็นอัลกอริธึม Machine Learning ประเภทหนึ่ง เราสามารถพลิกแผนภาพด้านล่างและรับหนังสือที่คล้ายกัน

ในกรณีข้างต้นเราได้สร้างดัชนี PageRanked และแนะนำให้กับผู้ใช้ขนาดของข้อมูลมีขนาดเล็กดังนั้นเราจึงสามารถเห็นภาพข้อมูลและสรุปผลลัพธ์บางส่วนได้ เนื่องจากขนาดของข้อมูลมีขนาดใหญ่ขึ้นในแต่ละวันและไม่สามารถควบคุมได้นี่คือจุดที่เครื่องมือ Big Data เช่น Hadoop เข้ามาเป็นภาพ



Hadoop แก้ปัญหาได้มากมาย แต่การติดตั้ง Hadoop และซอฟต์แวร์ Big Data อื่น ๆ ไม่เคยเป็นเรื่องง่าย มีพารามิเตอร์การกำหนดค่ามากมายที่ต้องปรับแต่งเช่นปัญหาการรวมการติดตั้งและการกำหนดค่าที่จะใช้งานได้ นี่คือที่ที่ บริษัท ต่างๆเช่น Cloudera และ Databricks ช่วย ทำให้การติดตั้งซอฟต์แวร์ Big Data ง่ายขึ้นและให้การสนับสนุนเชิงพาณิชย์เช่นสมมติว่ามีบางอย่างเกิดขึ้นในการผลิต Amazon EMR (Elastic MapReduce) ช่วยให้ใช้ Hadoop และอื่น ๆ ได้ง่ายขึ้นมาก ชื่อ Elastic MapReduce เป็นชื่อที่ผิดเนื่องจาก EMR ยังรองรับโมเดลคอมพิวเตอร์แบบกระจายอื่น ๆ เช่น Resilient Distributed Datasets ไม่ใช่แค่ MapReduce

ในบทช่วยสอนนี้เราจะสำรวจวิธีการตั้งค่าคลัสเตอร์ EMR บน AWS Cloud และในบทช่วยสอนที่กำลังจะมาถึงเราจะสำรวจวิธีเรียกใช้ Spark, Hive และโปรแกรมอื่น ๆ ที่อยู่ด้านบน

ต่อไปนี้จะสร้างคลัสเตอร์ Hadoop ด้วย Amazon EMR ได้อย่างไร

การสาธิต: การสร้างคลัสเตอร์ EMR ใน AWS

ขั้นตอนที่ 1: ไปที่ EMR Management Console และคลิกที่“ สร้างคลัสเตอร์” ในคอนโซลข้อมูลเมตาสำหรับ คลัสเตอร์ที่ถูกยกเลิก นอกจากนี้ยังบันทึกเป็นเวลาสองเดือนฟรี สิ่งนี้ช่วยให้คลัสเตอร์ที่ถูกยกเลิกสามารถถูกโคลนและสร้างขึ้นอีกครั้ง

ขั้นตอนที่ 2 : จากหน้าจอตัวเลือกด่วนคลิกที่“ ไปที่ตัวเลือกขั้นสูง” เพื่อระบุรายละเอียดเพิ่มเติมเกี่ยวกับคลัสเตอร์

ขั้นตอนที่ 3: ในแท็บตัวเลือกขั้นสูงเราสามารถเลือกซอฟต์แวร์อื่นที่จะติดตั้งบนคลัสเตอร์ EMR สำหรับอินเทอร์เฟซ SQL สามารถเลือก Hive ได้ สำหรับอินเทอร์เฟซภาษาโฟลว์ข้อมูลสามารถเลือก Pig ได้ สำหรับการประสานงานแอปพลิเคชันแบบกระจายคุณสามารถเลือก ZooKeeper และอื่น ๆ แท็บนี้ยังช่วยให้เราสามารถเพิ่มขั้นตอนซึ่งเป็นงานเสริม ขั้นตอนคืองานประมวลผลข้อมูลขนาดใหญ่โดยใช้ MapReduce, Pig, Hive เป็นต้นสามารถเพิ่มได้ในแท็บนี้หรือในภายหลังเมื่อสร้างคลัสเตอร์แล้ว คลิกที่“ ถัดไป” เพื่อเลือกฮาร์ดแวร์ที่จำเป็นสำหรับคลัสเตอร์ EMR

tostring () วิธี java

ขั้นตอนที่ 4: Hadoop เป็นไปตามสถาปัตยกรรมของผู้ปฏิบัติงานหลักโดยที่ผู้เชี่ยวชาญทำหน้าที่ประสานงานทั้งหมดเช่นการจัดตารางเวลาและมอบหมายงานและตรวจสอบความคืบหน้าในขณะที่คนงานทำงานจริงในการประมวลผลและจัดเก็บข้อมูล ต้นแบบเดียวคือ Single-Point-Of-Failure (SPOF) Amazon EMR รองรับ multi-master สำหรับ High Availability (HA) ขั้นตอนก่อนหน้าอนุญาตให้ตั้งค่าคลัสเตอร์แบบหลายหลักใน EMR

EMR อนุญาตให้ใช้โหนดสองประเภทคือ Core และ Task โหนดหลักใช้สำหรับการประมวลผลและจัดเก็บข้อมูลโหนดงานใช้สำหรับการประมวลผลข้อมูลเท่านั้น สำหรับบทช่วยสอนนี้เราสามารถเลือกได้เพียงคอร์เดียวและไม่มีโหนดงานเนื่องจากมีค่าใช้จ่ายน้อยกว่าสำหรับเรา นอกจากนี้เลือก จุดอินสแตนซ์ เกิน ตามความต้องการ เนื่องจากอินสแตนซ์ Spot มีราคาถูกกว่า การจับด้วยอินสแตนซ์ Spot คือ AWS สามารถยกเลิกได้โดยอัตโนมัติด้วย a แจ้งให้ทราบล่วงหน้าสองนาที . นี่เป็นประโยชน์สำหรับการฝึกฝนและในบางสถานการณ์จริงด้วย อินสแตนซ์ Spot ถูกยกเลิกโดยอัตโนมัติเนื่องจากมีลำดับความสำคัญต่ำกว่าอินสแตนซ์ประเภทอื่น ๆ คลิกที่“ ถัดไป”

ขั้นตอนที่ 5: ระบุชื่อคลัสเตอร์ และคลิกที่“ ถัดไป” โปรดสังเกตว่า 'การป้องกันการสิ้นสุด' เปิดอยู่โดยค่าเริ่มต้นซึ่งจะทำให้แน่ใจว่าคลัสเตอร์ EMR ไม่ได้ถูกลบโดยไม่ได้ตั้งใจโดยการแนะนำขั้นตอนสองสามขั้นตอนในขณะที่ยกเลิกคลัสเตอร์

ขั้นตอนที่ 6: ในแท็บตัวเลือกการรักษาความปลอดภัยที่แตกต่างกันสำหรับคลัสเตอร์ EMR ถูกระบุ ต้องเลือก KeyPair เพื่อเข้าสู่อินสแตนซ์ EC2 EMR จะสร้างบทบาทและกลุ่มความปลอดภัยที่เหมาะสมโดยอัตโนมัติและแนบเข้ากับโหนดหลักและโหนด EC2 ของผู้ปฏิบัติงาน คลิกที่ 'สร้างคลัสเตอร์'

การสร้างคลัสเตอร์จะใช้เวลาสองสามนาทีเนื่องจากต้องซื้ออินสแตนซ์ EC2 และต้องติดตั้งและกำหนดค่าซอฟต์แวร์ Big Data อื่น ในขั้นต้นสถานะคลัสเตอร์จะอยู่ในสถานะ 'เริ่มต้น' และไปยังสถานะ 'กำลังรอ' ในสถานะ 'กำลังรอ' คลัสเตอร์ EMR กำลังรอให้เราส่งงานการประมวลผลข้อมูลขนาดใหญ่ต่างๆเช่น MR, Spark, Hive เป็นต้น

นอกจากนี้โปรดสังเกตจากคอนโซลการจัดการ EC2 และโปรดทราบว่าอินสแตนซ์ EC2 หลักและผู้ปฏิบัติงานควรอยู่ในสถานะกำลังทำงาน นี่คืออินสแตนซ์ Spot ที่สร้างขึ้นเพื่อเป็นส่วนหนึ่งของการสร้างคลัสเตอร์ EMR EC2 เดียวกันสามารถสังเกตได้จากแท็บฮาร์ดแวร์ใน EMR Management Console ด้วย โปรดทราบว่าในแท็บฮาร์ดแวร์ราคาสำหรับอินสแตนซ์ Spot EC2 ระบุไว้ที่ 0.032 $ / ชั่วโมง ราคาของอินสแตนซ์ Spot เปลี่ยนแปลงไปเรื่อย ๆ ตามเวลาและต่ำกว่าราคา EC2 ตามความต้องการมาก

ขั้นตอนที่ 7: เมื่อเพิ่มคลัสเตอร์ EMR เรียบร้อยแล้วสามารถเพิ่มขั้นตอนหรืองานการประมวลผลข้อมูลขนาดใหญ่ได้ ไปที่แท็บขั้นตอนและคลิกที่“ เพิ่มขั้นตอน” และเลือกประเภทของขั้นตอน (MR, Hive, Spark ฯลฯ ) เราจะสำรวจสิ่งเดียวกันในบทช่วยสอนที่กำลังจะมาถึง ตอนนี้คลิกที่ยกเลิก

ขั้นตอนที่ 8: ตอนนี้เราได้เห็นวิธีเริ่ม EMR แล้วมาดูกันว่าจะหยุดสิ่งเดียวกันได้อย่างไร

ขั้นตอนที่ 8.1: คลิกที่ยุติ

ขั้นตอนที่ 8.2: ดังที่ได้กล่าวไว้ในขั้นตอนก่อนหน้านี้ 'การป้องกันการสิ้นสุด' เปิดอยู่สำหรับคลัสเตอร์ EMR และปุ่มยุติถูกปิดใช้งาน คลิกที่เปลี่ยน

ขั้นตอนที่ 8.3: เลือกปุ่มตัวเลือก“ ปิด” และคลิกที่เครื่องหมายถูก ตอนนี้ควรเปิดใช้งานปุ่มยุติ นี่เป็นขั้นตอนเพิ่มเติมที่ EMR ได้แนะนำเพื่อให้แน่ใจว่าเราจะไม่ลบคลัสเตอร์ EMR โดยไม่ได้ตั้งใจ

ตั้งค่า eclipse สำหรับ java

โปรดสังเกตว่าคลัสเตอร์ EMR จะอยู่ในสถานะยุติและ EC2s จะถูกยกเลิก ในที่สุดคลัสเตอร์ EMR จะถูกย้ายไปยังสถานะสิ้นสุดจากที่นี่การเรียกเก็บเงินของเรากับ AWS จะหยุดลง อย่าลืมยุติคลัสเตอร์เพื่อไม่ให้มีค่าใช้จ่าย AWS เพิ่มเติม

สรุป

ในบทช่วยสอนนี้เราได้เห็นวิธีเริ่มคลัสเตอร์ EMR ภายในไม่กี่นาทีจากเว็บคอนโซล (เบราว์เซอร์) ซึ่งสามารถทำได้โดยอัตโนมัติโดยใช้ , AWS SDK หรือโดยใช้ AWS CloudFormation . ตามที่สังเกตเห็นการตั้งค่าคลัสเตอร์ EMR สามารถทำได้โดยใช้เวลาเพียงไม่กี่นาทีและการประมวลผลข้อมูลขนาดใหญ่สามารถเริ่มต้นได้ทันทีเมื่อประมวลผลเสร็จแล้วผลลัพธ์จะถูกเก็บไว้ใน S3 หรือ DynamoDB และปิดคลัสเตอร์เพื่อหยุดการเรียกเก็บเงิน เนื่องจากรูปแบบการกำหนดราคานี้และความสะดวกในการใช้งาน EMR จึงเป็นที่นิยมอย่างมากสำหรับผู้ที่ดำเนินการประมวลผลข้อมูลขนาดใหญ่ ไม่จำเป็นต้องซื้อเซิร์ฟเวอร์จำนวนมากรับใบอนุญาตสำหรับซอฟต์แวร์ Big Data และดูแลรักษา '

นี่คือพวกเรามาถึงตอนท้ายของบทความนี้เกี่ยวกับวิธีสร้างคลัสเตอร์ Hadoop ด้วย Amazon EMR?ในกรณีที่คุณต้องการเพิ่มพูนความเชี่ยวชาญในเรื่องนี้ Edureka ได้จัดทำหลักสูตรที่ครอบคลุมสิ่งที่คุณจะต้องใช้ในการทดสอบ Solution Architect! คุณสามารถดูรายละเอียดหลักสูตรสำหรับ การฝึกอบรม.

ในกรณีที่มีข้อสงสัยเกี่ยวกับบล็อกนี้โปรดอย่าลังเลที่จะตั้งคำถามในส่วนความคิดเห็นด้านล่างและเรายินดีเป็นอย่างยิ่งที่จะตอบกลับคุณโดยเร็วที่สุด