ข้อมูลขนาดใหญ่ใน AWS | เริ่มต้นใช้งาน BIG DATA ใน AWS

แนวคิดเรื่อง Big Data ไม่ใช่เรื่องใหม่ แต่มีอยู่ทั่วไป ผลกระทบของข้อมูลขนาดใหญ่มีอยู่ทุกหนทุกแห่งตั้งแต่ธุรกิจไปจนถึงวิทยาศาสตร์จากรัฐบาลไปจนถึงศิลปะและอื่น ๆ ไม่มีเพื่อนที่ดีไปกว่า เพื่อประมวลผลและวิเคราะห์ข้อมูลขนาดใหญ่ ในบทความนี้ฉันจะแสดงให้เห็นว่า AWS จัดการกับความท้าทายของ Big Data อย่างไรและคำแนะนำที่ฉันจะกล่าวถึงมีดังต่อไปนี้:

Big Data คืออะไร?
ทำไมต้องใช้ Big Data ใน AWS
AWS สามารถแก้ปัญหาความท้าทายของ Big Data ได้อย่างไร
การสาธิต

Big Data คืออะไร?

ลักษณะข้อมูลขนาดใหญ่

คุณสามารถพิจารณาข้อมูลขนาดใหญ่เป็นสินทรัพย์ข้อมูลปริมาณมากความเร็วสูงและ / หรือความหลากหลายสูงที่ต้องการรูปแบบการประมวลผลข้อมูลที่คุ้มค่าและเป็นนวัตกรรมใหม่ที่ช่วยเพิ่มความเข้าใจการตัดสินใจและกระบวนการอัตโนมัติ

Big Data ประกอบด้วย V ที่สำคัญ 5 ตัวซึ่งกำหนดลักษณะของ Big Data ให้เราพูดคุยเรื่องเหล่านี้ก่อนที่จะย้ายไปที่ AWS

AWS คืออะไร

ประกอบด้วยผลิตภัณฑ์และบริการคลาวด์คอมพิวติ้งที่แตกต่างกันมากมาย แผนก Amazon ที่ทำกำไรได้สูงให้บริการเซิร์ฟเวอร์พื้นที่เก็บข้อมูลเครือข่ายคอมพิวเตอร์ระยะไกลอีเมลการพัฒนาอุปกรณ์เคลื่อนที่พร้อมกับความปลอดภัย นอกจากนี้ AWS ประกอบด้วยผลิตภัณฑ์หลัก 2 รายการ ได้แก่ EC2 บริการเครื่องเสมือนของ Amazon และ S3 ซึ่งเป็นระบบจัดเก็บข้อมูลโดย Amazon มีขนาดใหญ่มากและมีอยู่ในโลกของคอมพิวเตอร์ซึ่งปัจจุบันมีขนาดอย่างน้อย 10 เท่าของคู่แข่งที่ใกล้ที่สุดและโฮสต์เว็บไซต์ยอดนิยมเช่น Netflix และ Instagram

AWS แบ่งออกเป็น 12 ภูมิภาคทั่วโลกซึ่งแต่ละแห่งมีโซนความพร้อมใช้งานหลายโซนที่เซิร์ฟเวอร์ตั้งอยู่พื้นที่ที่ให้บริการเหล่านี้ถูกแบ่งออกเพื่อให้ผู้ใช้สามารถกำหนดขีด จำกัด ทางภูมิศาสตร์สำหรับบริการของตนได้ แต่ยังให้ความปลอดภัยด้วยการกระจายตำแหน่งทางกายภาพที่เก็บข้อมูล

ทำไมต้องใช้ Big Data ใน AWS

นักวิทยาศาสตร์นักพัฒนาและผู้ที่ชื่นชอบเทคโนโลยีอื่น ๆ จากโดเมนต่างๆจำนวนมากกำลังใช้ประโยชน์จาก AWS เพื่อทำการวิเคราะห์ข้อมูลขนาดใหญ่และตอบสนองความท้าทายที่สำคัญของข้อมูลดิจิทัลที่เพิ่มมากขึ้น AWS นำเสนอบริการคลาวด์คอมพิวติ้งเพื่อช่วยจัดการข้อมูลขนาดใหญ่โดยการลดต้นทุนอย่างมากปรับขนาดให้ตรงกับความต้องการและเพิ่มความเร็วของนวัตกรรม

Amazon Web Services ให้บริการ ผลงานแบบครบวงจร ของบริการคลาวด์คอมพิวติ้ง นอกจากนี้ยังช่วยให้คุณสร้างรักษาความปลอดภัยและปรับใช้แอปพลิเคชันข้อมูลขนาดใหญ่ของคุณ นอกจากนี้ด้วย AWS คุณไม่จำเป็นต้องใช้ฮาร์ดแวร์ในการจัดหาและโครงสร้างพื้นฐานเพื่อบำรุงรักษาและปรับขนาด ด้วยเหตุนี้คุณจึงสามารถมุ่งเน้นทรัพยากรของคุณไปที่การเปิดเผยข้อมูลเชิงลึกใหม่ ๆเนื่องจากมีการเพิ่มคุณลักษณะใหม่ ๆ อย่างต่อเนื่องคุณจึงสามารถใช้ประโยชน์จากเทคโนโลยีล่าสุดได้ตลอดเวลาโดยไม่ต้องผูกมัดการลงทุนระยะยาว

AWS สามารถแก้ปัญหาความท้าทายของ Big Data ได้อย่างไร

โซลูชัน AWS สำหรับ Big Data

AWS มีโซลูชันมากมายสำหรับวัตถุประสงค์ในการพัฒนาและการปรับใช้ทั้งหมด นอกจากนี้ในสาขาวิทยาศาสตร์ข้อมูลและข้อมูลขนาดใหญ่ AWS ได้พัฒนาล่าสุดในแง่มุมต่างๆของการจัดการข้อมูลขนาดใหญ่ ก่อนที่จะข้ามไปยังเครื่องมือโปรดให้เราเข้าใจแง่มุมต่างๆของ Big Data ซึ่ง AWS สามารถนำเสนอโซลูชันได้

การส่งผ่านข้อมูล
การรวบรวมข้อมูลดิบไม่ว่าจะเป็นธุรกรรมบันทึกอุปกรณ์เคลื่อนที่และอื่น ๆ เป็นความท้าทายแรกที่หลายองค์กรต้องเผชิญเมื่อต้องรับมือกับข้อมูลขนาดใหญ่ แพลตฟอร์มข้อมูลขนาดใหญ่ที่ดีทำให้ขั้นตอนนี้ง่ายขึ้นช่วยให้นักพัฒนานำเข้าข้อมูลที่หลากหลายตั้งแต่แบบมีโครงสร้างไปจนถึงไม่มีโครงสร้างด้วยความเร็วใดก็ได้ตั้งแต่แบบเรียลไทม์ไปจนถึงแบทช์
การจัดเก็บข้อมูล
แพลตฟอร์มข้อมูลขนาดใหญ่ต้องการพื้นที่เก็บข้อมูลที่ปลอดภัยปรับขนาดได้และทนทานเพื่อจัดเก็บข้อมูลก่อนหรือหลังการประมวลผลงาน ทั้งนี้ขึ้นอยู่กับข้อกำหนดเฉพาะของคุณคุณอาจต้องมีร้านค้าชั่วคราวสำหรับการส่งข้อมูล
การประมวลผลข้อมูล
นี่คือขั้นตอนที่การแปลงข้อมูลเกิดขึ้นจากสถานะดิบเป็นรูปแบบที่บริโภคได้ - โดยปกติจะใช้วิธีการเรียงลำดับการรวมการรวมเข้าด้วยกันและแม้กระทั่งการดำเนินการฟังก์ชันและอัลกอริทึมขั้นสูง ชุดข้อมูลที่เป็นผลลัพธ์จะได้รับการจัดเก็บเพื่อการประมวลผลเพิ่มเติมหรือทำให้พร้อมใช้งานผ่านระบบธุรกิจอัจฉริยะและเครื่องมือแสดงข้อมูล
การแสดงภาพ

หลักสูตรวิทยาศาสตร์ข้อมูลคืออะไร
ข้อมูลขนาดใหญ่เป็นข้อมูลเกี่ยวกับการรับข้อมูลเชิงลึกที่มีมูลค่าสูงและนำไปใช้ได้จริงจากเนื้อหาข้อมูลของคุณ ตามหลักการแล้วข้อมูลจะพร้อมใช้งานสำหรับผู้มีส่วนได้ส่วนเสียผ่านระบบธุรกิจอัจฉริยะแบบบริการตนเองและเครื่องมือแสดงภาพข้อมูลที่คล่องตัวซึ่งช่วยให้สามารถสำรวจชุดข้อมูลได้อย่างรวดเร็วและง่ายดาย

AWS Tools สำหรับ Big Data

ในส่วนก่อนหน้านี้เราได้ดูช่องต่างๆใน Big Data ซึ่ง AWS สามารถให้บริการโซลูชั่นได้ นอกจากนี้ AWS ยังมีเครื่องมือและบริการมากมายในคลังแสงเพื่อให้ลูกค้าสามารถใช้งาน Big Data ได้

ให้เราดูโซลูชันต่างๆที่ AWS จัดเตรียมไว้สำหรับการจัดการขั้นตอนต่างๆที่เกี่ยวข้องกับการจัดการข้อมูลขนาดใหญ่

การกลืนกิน

คิเนซิส
Amazon Kinesis Firehose เป็นบริการที่มีการจัดการเต็มรูปแบบสำหรับการส่งข้อมูลสตรีมมิ่งแบบเรียลไทม์ไปยัง Amazon S3 โดยตรง Kinesis Firehose จะปรับขนาดโดยอัตโนมัติเพื่อให้ตรงกับปริมาณและปริมาณข้อมูลสตรีมมิ่งและไม่จำเป็นต้องมีการดูแลอย่างต่อเนื่อง คุณสามารถกำหนดค่า Kinesis Firehose เพื่อแปลงข้อมูลสตรีมมิ่งก่อนที่จะจัดเก็บใน Amazon S3
สโนว์บอล
คุณสามารถใช้ได้ AWS Snowball เพื่อโยกย้ายข้อมูลจำนวนมากอย่างปลอดภัยและมีประสิทธิภาพจากแพลตฟอร์มการจัดเก็บข้อมูลในองค์กรและคลัสเตอร์ Hadoop ไปยังที่เก็บข้อมูล S3 หลังจากที่คุณสร้างงานใน AWS Management Console คุณจะได้รับอุปกรณ์ Snowball โดยอัตโนมัติ หลังจากที่ Snowball มาถึงให้เชื่อมต่อกับเครือข่ายท้องถิ่นของคุณติดตั้งไคลเอนต์ Snowball บนแหล่งข้อมูลภายในองค์กรของคุณจากนั้นใช้ไคลเอนต์ Snowball เพื่อเลือกและถ่ายโอนไดเร็กทอรีไฟล์ไปยังอุปกรณ์ Snowball

การจัดเก็บ

Amazon S3

Amazon S3 เป็นพื้นที่จัดเก็บอ็อบเจ็กต์ที่ปลอดภัยปรับขนาดได้สูงและทนทานพร้อมเวลาในการตอบสนองมิลลิวินาทีสำหรับการเข้าถึงข้อมูล S3 สามารถจัดเก็บข้อมูลประเภทใดก็ได้จากทุกที่ไม่ว่าจะเป็นเว็บไซต์และแอปมือถือแอปพลิเคชันขององค์กรและข้อมูลจากเซ็นเซอร์หรืออุปกรณ์ IoT นอกจากนี้ยังสามารถจัดเก็บและดึงข้อมูลจำนวนเท่าใดก็ได้โดยมีความพร้อมใช้งานที่ไม่ตรงกันและสร้างขึ้นตั้งแต่ต้นจนจบเพื่อมอบความทนทาน 99.999999999% (11 เก้า)

2. AWS กาว

Glue เป็นบริการที่มีการจัดการเต็มรูปแบบซึ่งมีแคตตาล็อกข้อมูลเพื่อให้ข้อมูลใน Data Lake สามารถค้นพบได้ นอกจากนี้ยังมีความสามารถในการแยกแปลงและโหลด (ETL) เพื่อเตรียมข้อมูลสำหรับการวิเคราะห์ นอกจากนี้แค็ตตาล็อกข้อมูลที่สร้างขึ้นยังเปรียบเสมือนที่เก็บข้อมูลเมตาแบบถาวรสำหรับเนื้อหาข้อมูลทั้งหมดทำให้ข้อมูลทั้งหมดสามารถค้นหาได้และสืบค้นได้ในมุมมองเดียว

กำลังประมวลผล

EMR
สำหรับการประมวลผลข้อมูลขนาดใหญ่โดยใช้ Spark และ Hadoop Amazon EMR ให้บริการที่มีการจัดการซึ่งทำให้ง่ายรวดเร็วและประหยัดค่าใช้จ่ายในการประมวลผลข้อมูลจำนวนมาก นอกจากนี้ EMR ยังรองรับโครงการโอเพ่นซอร์ส 19 โครงการรวมถึง Hadoop , จุดประกาย และ นอกจากนี้ยังมาพร้อมกับสมุดบันทึก EMR ที่มีการจัดการสำหรับวิศวกรรมข้อมูลการพัฒนาวิทยาศาสตร์ข้อมูลและการทำงานร่วมกัน
Redshift
สำหรับคลังข้อมูล Amazon Redshift ให้ความสามารถในการเรียกใช้การสืบค้นเชิงวิเคราะห์ที่ซับซ้อนเทียบกับเพตาไบต์ของข้อมูลที่มีโครงสร้าง นอกจากนี้ยังรวมถึง Redshift สเปกตรัม ที่เรียกใช้แบบสอบถาม SQL โดยตรงกับ Exabytes ของข้อมูลที่มีโครงสร้างหรือไม่มีโครงสร้างใน S3 โดยไม่จำเป็นต้องมีการเคลื่อนย้ายข้อมูลที่ไม่จำเป็น

การแสดงภาพ

Amazon QuickSight

สำหรับแดชบอร์ดและการแสดงภาพ Amazon Quicksight ให้บริการวิเคราะห์ธุรกิจที่ทำงานบนคลาวด์ได้อย่างรวดเร็ว ทำให้ง่ายต่อการสร้างการแสดงภาพที่สวยงามและแดชบอร์ดที่หลากหลาย นอกจากนี้คุณสามารถเข้าถึงได้จากเบราว์เซอร์หรืออุปกรณ์เคลื่อนที่

การสาธิต - การวิเคราะห์ข้อมูลของพืชและสัตว์ที่ใกล้สูญพันธุ์ในออสเตรเลีย

ในการสาธิตนี้เราจะใช้ข้อมูลตัวอย่างของพันธุ์พืชและสัตว์ที่ใกล้สูญพันธุ์จากรัฐและดินแดนของออสเตรเลีย ที่นี่เราจะสร้างคลัสเตอร์ EMR และกำหนดค่าให้เรียกใช้งาน Apache Hive แบบหลายขั้นตอน คลัสเตอร์ EMR จะมี Apache Hive ติดตั้งอยู่ คลัสเตอร์นี้จะใช้ EMRFS เป็นระบบไฟล์เพื่อให้ตำแหน่งอินพุตและเอาต์พุตข้อมูลถูกจับคู่กับบัคเก็ต S3 คลัสเตอร์จะใช้ที่เก็บข้อมูล S3 เดียวกันในการจัดเก็บไฟล์บันทึก

ตอนนี้เราจะสร้างขั้นตอน EMR จำนวนหนึ่งในคลัสเตอร์เพื่อประมวลผลชุดข้อมูลตัวอย่าง ที่นี่แต่ละขั้นตอนเหล่านี้จะเรียกใช้สคริปต์ Hive และผลลัพธ์สุดท้ายจะถูกบันทึกลงในถัง S3 ขั้นตอนเหล่านี้จะสร้างบันทึก MapReduce และนั่นเป็นเพราะคำสั่ง Hive ถูกแปลเป็นงาน MapReduce ในขณะทำงาน ไฟล์บันทึกสำหรับแต่ละขั้นตอนจะรวมจากคอนเทนเนอร์ที่มันวางไข่

ข้อมูลตัวอย่าง

ชุดข้อมูลตัวอย่างสำหรับกรณีการใช้งานนี้เปิดเผยต่อสาธารณะจากไฟล์ เว็บไซต์ข้อมูลแบบเปิดของรัฐบาลออสเตรเลีย . ชุดข้อมูลนี้เกี่ยวกับสัตว์และพันธุ์พืชที่ถูกคุกคามจากรัฐและดินแดนต่างๆในออสเตรเลีย คุณสามารถดูและดาวน์โหลดคำอธิบายช่องของชุดข้อมูลนี้และไฟล์ CSV ได้ ที่นี่ .

ขั้นตอนการประมวลผล

ขั้นตอนแรกของงาน EMR ที่นี่เกี่ยวข้องกับการสร้างตาราง Hive เป็นสคีมาสำหรับไฟล์ต้นฉบับใน S3 ในขั้นตอนงานที่สองตอนนี้เราจะเรียกใช้แบบสอบถามที่ประสบความสำเร็จกับข้อมูล ในทำนองเดียวกันเราจะเรียกใช้แบบสอบถามที่สามและสี่

เราจะทำซ้ำสี่ขั้นตอนเหล่านี้สองสามครั้งในหนึ่งชั่วโมงโดยจำลองการรันงานแบตช์แบบหลายขั้นตอนต่อเนื่องกัน อย่างไรก็ตามในสถานการณ์จริงความแตกต่างของเวลาระหว่างการรันแต่ละชุดตามปกติอาจสูงกว่านี้มาก ช่องว่างเล็ก ๆ ระหว่างการวิ่งต่อเนื่องมีจุดมุ่งหมายเพื่อเร่งการทดสอบของเรา

S3 ถังและโฟลเดอร์

ก่อนที่จะสร้างคลัสเตอร์ EMR ของเราที่นี่เราต้องสร้างที่เก็บข้อมูล S3 เพื่อโฮสต์ไฟล์ ในตัวอย่างของเราเราตั้งชื่อที่เก็บข้อมูลนี้ว่า 'arvind1-bucket' โฟลเดอร์ที่อยู่ใต้ที่เก็บข้อมูลนี้แสดงไว้ด้านล่างใน AWS Console สำหรับ S3:

โฟลเดอร์อินพุตเก็บข้อมูลตัวอย่าง
โฟลเดอร์สคริปต์มีไฟล์สคริปต์ไฮฟ์สำหรับขั้นตอนงาน EMR
โฟลเดอร์ผลลัพธ์จะเก็บเอาต์พุตโปรแกรม Hive ไว้อย่างชัดเจน
คลัสเตอร์ EMR ใช้โฟลเดอร์บันทึกเพื่อบันทึกไฟล์บันทึก

Hive Scripts สำหรับ EMR Job Steps

1. ขั้นตอนงานนี้เรียกใช้สคริปต์ไฮฟ์เพื่อสร้างตาราง Hive ภายนอก ตารางนี้อธิบายสคีมาแบบตารางของไฟล์ข้อมูล CSV ที่อยู่ภายใต้ สคริปต์สำหรับสิ่งนี้มีดังนี้:

สร้างตารางภายนอก 'สายพันธุ์ที่ถูกคุกคาม' (สตริง 'ชื่อวิทยาศาสตร์', สตริง 'ชื่อสามัญ', สตริง 'ชื่อวิทยาศาสตร์ปัจจุบัน', สตริง 'สถานะที่ถูกคุกคาม', สตริง 'การกระทำ', สตริง 'nsw', สตริง 'nt', 'qld` สตริง, สตริง 'sa', สตริง 'tas', สตริง 'vic', สตริง 'วา', สตริง 'aci', สตริง 'cki', สตริง 'ci', สตริง 'csi', สตริง 'jbt', 'nfi' string, สตริง 'hmi', สตริง 'aat', สตริง 'cma', 'sprat taxonid' bigint ที่ระบุ,, 'sprat taxonid' bigint ปัจจุบัน, สตริง 'kingdom', สตริง 'class', สตริง 'profile`,' วันที่ที่แยก ' สตริง, สตริง 'ชื่อ nsl', สตริง 'ตระกูล', สตริง 'ประเภท', สตริง 'สปีชีส์', สตริง 'อันดับที่ไม่เกี่ยวข้อง, สตริง' อินฟราสปีซีส์ ', สตริงผู้สร้างสปีชีส์, สตริง' ผู้เขียนอินฟาเรด TERMINATED BY ',' STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' LOCATION 's3: // arvind1-bucket / script /

2. ขั้นตอนงานนี้เรียกใช้แบบสอบถามเพื่อคำนวณสัตว์ใกล้สูญพันธุ์ห้าอันดับแรกในรัฐนิวเซาท์เวลส์ (NSW) ชื่อไฟล์เคียวรี Hive คือ ที่ใกล้สูญพันธุ์ชนิด NSW.q และแสดงไว้ด้านล่าง:

เลือกชนิด COUNT (nsw) เป็น number_of_endangered_species จากสายพันธุ์ที่ถูกคุกคาม WHERE (nsw = 'ใช่' หรือ nsw = 'ใกล้สูญพันธุ์') และ 'สถานะที่ถูกคุกคาม' = 'กลุ่มที่ใกล้สูญพันธุ์' ตามชนิด HAVING COUNT (nsw)> 1 ORDER BY number_of_endangered_species LIMITCies

3.ขั้นตอนงานนี้เรียกใช้แบบสอบถามเพื่อคำนวณจำนวนพันธุ์พืชที่ใกล้สูญพันธุ์ทั้งหมดสำหรับพืชแต่ละตระกูลในออสเตรเลีย ชื่อไฟล์เคียวรี Hive คือendangeredPlantSpecies.qและแสดงไว้ด้านล่าง

SELECT family, COUNT (species) AS number_of_endangered_species FROM confident_species2 WHERE kingdom = 'Plantae' AND 'ข่มขู่ status' = 'Endangered' GROUP BY family

4. ขั้นตอนนี้แสดงรายชื่อทางวิทยาศาสตร์ของสัตว์ที่สูญพันธุ์ในรัฐควีนส์แลนด์ของออสเตรเลีย ไฟล์สคริปต์เรียกว่า สัตว์สูญพันธุ์ และแสดงด้านล่าง:

SELECT 'ชื่อสามัญ', 'ชื่อวิทยาศาสตร์' FROM confident_species WHERE kingdom = 'Animalia' AND (qld = 'Yes' OR qld = 'Extinct') AND 'ข่มขู่สถานะ' = 'สูญพันธุ์'

Log Aggregation

ที่นี่เราได้อัปโหลดไฟล์ JSON ชื่อ logAggregation.json ในโฟลเดอร์สคริปต์ของถัง S3 เราใช้ไฟล์นี้เพื่อรวบรวมไฟล์บันทึก YARN การรวมบันทึกถูกกำหนดค่าในไฟล์คอนฟิกูเรชัน yarn-site.xml เมื่อคลัสเตอร์เริ่มทำงาน เนื้อหาของไฟล์ logAggregation.json มีดังนี้:

[{“ Classification”:“ yarn-site”,“ Properties”: {“ yarn.log-aggregation-enable”:“ true”,“ yarn.log-aggregation.retain-seconds”:“ -1”,“ yarn .nodemanager.remote-app-log-dir”:“ s3: // arvind1-bucket / logs”}}]

หลังจากที่คุณสร้างบัคเก็ต S3 และคัดลอกข้อมูลและไฟล์สคริปต์ไปยังโฟลเดอร์ที่เกี่ยวข้องแล้วตอนนี้ก็ถึงเวลาตั้งค่าคลัสเตอร์ EMR สแน็ปช็อตต่อไปนี้อธิบายกระบวนการเมื่อเราสร้างคลัสเตอร์โดยใช้การตั้งค่าเริ่มต้นเป็นส่วนใหญ่

การตั้งค่าคลัสเตอร์ EMR

ในภาพแรกในการกำหนดค่าคลัสเตอร์ในคอนโซล AWS เราได้เก็บแอปพลิเคชันทั้งหมดที่ EMR แนะนำไว้รวมถึง Hive เราไม่จำเป็นต้องใช้ AWS Glue ในการจัดเก็บข้อมูลเมตาของ Hive และเราไม่ได้เพิ่มขั้นตอนงานใด ๆ ในขณะนี้ อย่างไรก็ตามเราจำเป็นต้องเพิ่มการตั้งค่าซอฟต์แวร์สำหรับ Hive ที่นี่คุณต้องสังเกตอย่างรอบคอบว่าเราระบุเส้นทางไปยังไฟล์ JSON การรวมบันทึกในช่องนี้อย่างไร

ในขั้นตอนต่อไปเราได้เก็บการตั้งค่าเริ่มต้นทั้งหมดไว้ เพื่อประโยชน์ในการทดสอบของเราคลัสเตอร์จะมีโหนดหลักหนึ่งโหนดและโหนดหลักสองโหนด แต่ละโหนดในที่นี้เป็นอินสแตนซ์ m3.xlarge และมีปริมาณรูท 10 GB เรากำลังตั้งชื่อคลัสเตอร์ arvind1-cluster ในขั้นตอนถัดไปและระบุตำแหน่ง s3 ที่กำหนดเองสำหรับล็อกไฟล์

สุดท้ายเราได้ระบุคู่คีย์ EC2 เพื่อวัตถุประสงค์ในการเข้าถึงโหนดหลักของคลัสเตอร์ ไม่มีการเปลี่ยนแปลงในบทบาท IAM เริ่มต้นสำหรับ EMR โปรไฟล์อินสแตนซ์ EC2 และตัวเลือกการปรับขนาดอัตโนมัติ นอกจากนี้โหนดหลักและโหนดหลักยังใช้โดยกลุ่มความปลอดภัยเริ่มต้นที่มีอยู่ โดยปกตินี่เป็นการตั้งค่าเริ่มต้นสำหรับคลัสเตอร์ EMR เมื่อทุกอย่างพร้อมแล้วคลัสเตอร์จะอยู่ในสถานะ“ รอ” ดังที่แสดงด้านล่าง:

ส่ง Hive Job Steps

หลังจากนี้เราต้องอนุญาตการเข้าถึง SSH

เปิดคอนโซล Amazon EMR ที่ https://console.aws.amazon.com/elasticmapreduce/ .
เลือก คลัสเตอร์ .
เลือก ชื่อ ของคลัสเตอร์
ภายใต้ ความปลอดภัยและการเข้าถึง เลือก กลุ่มความปลอดภัยสำหรับ Master ลิงค์.
เลือก ElasticMapReduce-master จากรายการ
เลือก ขาเข้า , แก้ไข .
ค้นหากฎด้วยการตั้งค่าต่อไปนี้และเลือก x ไอคอนเพื่อลบ:
- ประเภท สสส
- ท่าเรือ 22
- ที่มา กำหนดเอง 0.0.0.0/0
เลื่อนไปที่ด้านล่างของรายการกฎแล้วเลือก เพิ่มกฎ .
สำหรับ ประเภท เลือก สสส ซึ่งจะเข้าสู่โดยอัตโนมัติ TCP สำหรับ มาตรการ และ 22 สำหรับ ช่วงพอร์ต .
สำหรับแหล่งที่มาให้เลือก IP ของฉัน การดำเนินการนี้จะเพิ่มที่อยู่ IP ของคอมพิวเตอร์ไคลเอนต์ของคุณเป็นที่อยู่ต้นทางโดยอัตโนมัติ หรือคุณสามารถเพิ่มช่วงของ กำหนดเอง ที่อยู่ IP ของไคลเอ็นต์ที่เชื่อถือได้และเลือกที่จะ เพิ่มกฎ เพื่อสร้างกฎเพิ่มเติมสำหรับลูกค้ารายอื่น ในสภาพแวดล้อมเครือข่ายจำนวนมากคุณจัดสรรที่อยู่ IP แบบไดนามิกดังนั้นคุณอาจต้องแก้ไขกฎกลุ่มความปลอดภัยเป็นระยะเพื่ออัปเดตที่อยู่ IP ของไคลเอ็นต์ที่เชื่อถือได้
เลือก บันทึก .
อีกทางหนึ่งคือเลือก ElasticMapReduce-slave จากรายการและทำซ้ำขั้นตอนข้างต้นเพื่ออนุญาตให้ไคลเอ็นต์ SSH เข้าถึงโหนดหลักและโหนดงานจากไคลเอนต์ที่เชื่อถือได้

เนื่องจากคลัสเตอร์ EMR เริ่มทำงานแล้วเราจึงได้เพิ่มขั้นตอนงานสี่ขั้นตอน นี่คือขั้นตอนที่ EMR จะทำงานทีละขั้นตอน ภาพต่อไปนี้แสดงขั้นตอนจากคอนโซล AWS EMR:

เมื่อเพิ่มสี่ขั้นตอนแล้วเราสามารถตรวจสอบสถานะของขั้นตอนเหล่านี้ว่าเสร็จสิ้น แม้ว่าจะมีปัญหาในการดำเนินการตามขั้นตอนเหล่านี้ แต่ในกรณีเช่นนี้สามารถแก้ไขได้โดยใช้ไฟล์บันทึกของขั้นตอนเหล่านี้

นี่คือจากฝั่งของฉันในบทความเรื่อง Big Data ใน AWS ฉันหวังว่าคุณจะเข้าใจทุกสิ่งที่ฉันได้อธิบายไว้ที่นี่

หากคุณพบว่าข้อมูลขนาดใหญ่นี้ใน AWS เกี่ยวข้องคุณสามารถดูหลักสูตรสดและนำโดยผู้สอนของ Edureka ได้ใน ร่วมสร้างโดยผู้ปฏิบัติงานในอุตสาหกรรม

มีคำถามสำหรับเรา? โปรดระบุไว้ในส่วนความคิดเห็นของวิธีการปรับใช้ Java Web Application ใน AWS แล้วเราจะติดต่อกลับไป

ข้อมูลขนาดใหญ่ใน AWS - โซลูชันอัจฉริยะสำหรับข้อมูลขนาดใหญ่

Big Data คืออะไร?

AWS คืออะไร

ทำไมต้องใช้ Big Data ใน AWS

AWS สามารถแก้ปัญหาความท้าทายของ Big Data ได้อย่างไร

โซลูชัน AWS สำหรับ Big Data

การแสดงภาพ

AWS Tools สำหรับ Big Data

การกลืนกิน

การจัดเก็บ

กำลังประมวลผล

การแสดงภาพ

การสาธิต - การวิเคราะห์ข้อมูลของพืชและสัตว์ที่ใกล้สูญพันธุ์ในออสเตรเลีย

ข้อมูลตัวอย่าง

ขั้นตอนการประมวลผล

S3 ถังและโฟลเดอร์

Hive Scripts สำหรับ EMR Job Steps

Log Aggregation

การตั้งค่าคลัสเตอร์ EMR

ส่ง Hive Job Steps

หมวดหมู่

Popular Articles

Blockchain Mining- สิ่งที่คุณต้องรู้

Java Enum Tutorial: มันคืออะไรและจะใช้งานได้อย่างไร?

ฟังก์ชันโอเวอร์โหลดใน C ++: สิ่งที่คุณต้องรู้

การใช้ Hadoop กับ Data Science

Scaled Agile Framework (SAFe) คืออะไร?

ทุกสิ่งที่คุณต้องการรู้เกี่ยวกับฟังก์ชันใน C?

การใช้ K-mean Clustering บน Crime Dataset

คีย์หลักใน SQL: ทุกสิ่งที่คุณต้องการทราบเกี่ยวกับการทำงานของคีย์หลัก

สร้างตารางใน SQL - ทุกสิ่งที่คุณต้องการทราบเกี่ยวกับการสร้างตารางใน SQL

วิธีการใช้ Echo ใน PHP ให้ดีที่สุด?

คุณสมบัติและการปรับปรุง Java 9

วิธีสร้างประวัติย่อของนักพัฒนา Tableau ที่น่าประทับใจ