Hadoop ซึ่งเป็นเฟรมเวิร์กการประมวลผลข้อมูลที่กลายเป็นแพลตฟอร์มสำหรับตัวมันเองจะดียิ่งขึ้นไปอีกเมื่อมีการเชื่อมต่อส่วนประกอบที่ดีเข้ากับมัน ข้อบกพร่องบางประการของ Hadoop เช่นส่วนประกอบ MapReduce ของ Hadoop มีชื่อเสียงในเรื่องความช้าในการวิเคราะห์ข้อมูลแบบเรียลไทม์
เข้าสู่ Apache Spark ซึ่งเป็นระบบประมวลผลข้อมูลที่ใช้ Hadoop ซึ่งออกแบบมาสำหรับทั้งปริมาณงานแบบแบตช์และสตรีมมิ่งตอนนี้อยู่ในเวอร์ชัน 1.0 และมาพร้อมกับคุณสมบัติที่แสดงให้เห็นว่า Hadoop กำลังผลักดันให้รวมงานประเภทใดบ้าง Spark ทำงานบนคลัสเตอร์ Hadoop ที่มีอยู่เพื่อมอบฟังก์ชันการทำงานที่ได้รับการปรับปรุงและเพิ่มเติม
มาดูคุณสมบัติหลักของ spark และวิธีการทำงานร่วมกับ Hadoop และ .
ประโยชน์หลักของ Apache Spark:
คุณสมบัติที่ยอดเยี่ยมของ Spark:
- การรวม Hadoop - Spark สามารถทำงานกับไฟล์ที่จัดเก็บใน HDFS
- Spark’s Interactive Shell - Spark เขียนด้วยภาษา Scala และมีล่าม Scala ในเวอร์ชันของตัวเอง
- Spark’s Analytic Suite - Spark มาพร้อมกับเครื่องมือสำหรับการวิเคราะห์แบบสอบถามเชิงโต้ตอบการประมวลผลและวิเคราะห์กราฟขนาดใหญ่และการวิเคราะห์แบบเรียลไทม์
- ชุดข้อมูลแบบกระจายที่ยืดหยุ่น (RDD’s) - RDD คืออ็อบเจ็กต์แบบกระจายที่สามารถแคชไว้ในหน่วยความจำข้ามคลัสเตอร์ของโหนดการคำนวณ เป็นวัตถุข้อมูลหลักที่ใช้ใน Spark
- ตัวดำเนินการแบบกระจาย - นอกจาก MapReduce แล้วยังมีโอเปอเรเตอร์อื่น ๆ อีกมากมายที่สามารถใช้กับ RDD ได้
ข้อดีของการใช้ Apache Spark กับ Hadoop:
เรียนรู้ ssis ทีละขั้นตอน
Apache Spark เข้ากับชุมชนโอเพนซอร์ส Hadoop สร้างที่ด้านบนของ Hadoop Distributed File System (HDFS) อย่างไรก็ตาม Spark ไม่ได้เชื่อมโยงกับกระบวนทัศน์ MapReduce สองขั้นตอนและสัญญาว่าประสิทธิภาพจะเร็วกว่า Hadoop MapReduce ถึง 100 เท่าสำหรับแอปพลิเคชันบางอย่าง
เหมาะอย่างยิ่งกับอัลกอริทึมการเรียนรู้ของเครื่อง - Spark มีพื้นฐานสำหรับการประมวลผลคลัสเตอร์ในหน่วยความจำที่ช่วยให้โปรแกรมของผู้ใช้โหลดข้อมูลลงในหน่วยความจำของคลัสเตอร์และสืบค้นซ้ำ ๆ
วิ่งเร็วขึ้น 100 เท่า - Spark ซอฟต์แวร์วิเคราะห์ยังสามารถเร่งงานที่ทำงานบนแพลตฟอร์มการประมวลผลข้อมูล Hadoop ได้รับการขนานนามว่า“ Hadoop Swiss Army knife” Apache Spark ให้ความสามารถในการสร้างงานวิเคราะห์ข้อมูลที่ทำงานได้เร็วกว่างานที่ทำงานบน Apache Hadoop MapReduce มาตรฐานถึง 100 เท่า MapReduce ได้รับการวิพากษ์วิจารณ์อย่างกว้างขวางว่าเป็นคอขวดในคลัสเตอร์ Hadoop เนื่องจากดำเนินการงานในโหมดแบตช์ซึ่งหมายความว่าไม่สามารถวิเคราะห์ข้อมูลแบบเรียลไทม์ได้
ทางเลือกสำหรับ MapReduce - Spark เป็นทางเลือกให้กับ MapReduce มันดำเนินการงานในช่วงสั้น ๆ ของไมโครแบทช์ที่ห่างกันห้าวินาทีหรือน้อยกว่า นอกจากนี้ยังให้ความเสถียรมากกว่าเฟรมเวิร์ก Hadoop ที่เน้นสตรีมแบบเรียลไทม์เช่น Twitter Storm ซอฟต์แวร์สามารถใช้กับงานที่หลากหลายเช่นการวิเคราะห์ข้อมูลสดอย่างต่อเนื่องและด้วยไลบรารีซอฟต์แวร์งานเชิงลึกในเชิงคำนวณที่เกี่ยวข้องกับการเรียนรู้ของเครื่องและการประมวลผลกราฟ
รองรับหลายภาษา - การใช้ Spark นักพัฒนาสามารถเขียนงานวิเคราะห์ข้อมูลใน Java, Scala หรือ Python โดยใช้ชุดตัวดำเนินการระดับสูงมากกว่า 80 ตัว
วิธีรวบรวมรหัส java
การสนับสนุนห้องสมุด - ไลบรารีของ Spark ได้รับการออกแบบมาเพื่อเสริมประเภทของงานประมวลผลที่กำลังสำรวจอย่างจริงจังยิ่งขึ้นด้วยการปรับใช้ Hadoop ที่ได้รับการสนับสนุนในเชิงพาณิชย์ล่าสุด MLlib ใช้อัลกอริธึมการเรียนรู้ของเครื่องทั่วไปเช่นการจำแนกแบบ Bayesian ที่ไร้เดียงสาหรือการจัดกลุ่ม Spark Streaming ช่วยให้สามารถประมวลผลข้อมูลที่นำเข้าจากหลายแหล่งได้ด้วยความเร็วสูงและ GraphX ช่วยให้สามารถคำนวณข้อมูลกราฟได้
API ที่เสถียร - ด้วยเวอร์ชัน 1.0 Apache Spark นำเสนอ API ที่เสถียร (อินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชัน) ซึ่งนักพัฒนาสามารถใช้โต้ตอบกับ Spark ผ่านแอปพลิเคชันของตนเองได้ สิ่งนี้ช่วยให้ใช้ Storm ได้ง่ายขึ้นในการปรับใช้ตาม Hadoop
ส่วนประกอบ SPARK SQL - ส่วนประกอบ Spark SQL สำหรับการเข้าถึงข้อมูลที่มีโครงสร้างช่วยให้สามารถสอบถามข้อมูลควบคู่ไปกับข้อมูลที่ไม่มีโครงสร้างในงานวิเคราะห์ Spark SQL ซึ่งเป็นเฉพาะในอัลฟาในขณะนี้อนุญาตให้เรียกใช้การสืบค้นที่คล้าย SQL กับข้อมูลที่จัดเก็บใน Apache Hive การดึงข้อมูลจาก Hadoop ผ่านแบบสอบถาม SQL เป็นอีกรูปแบบหนึ่งของฟังก์ชันการสืบค้นแบบเรียลไทม์ที่เกิดขึ้นรอบ ๆ Hadoop
ความเข้ากันได้ของ Apache Spark กับ Hadoop [HDFS, HBASE และ YARN] - Apache Spark เข้ากันได้อย่างสมบูรณ์กับ Hadoop’s Distributed File System (HDFS) รวมถึงส่วนประกอบ Hadoop อื่น ๆ เช่น YARN (Yet Another Resource Negotiator) และฐานข้อมูลแบบกระจาย HBase
ผู้ยอมรับในอุตสาหกรรม:
บริษัท ไอทีเช่น Cloudera, Pivotal, IBM, Intel และ MapR ต่างก็พับ Spark ไว้ในสแต็ค Hadoop ของตน Databricks ซึ่งเป็น บริษัท ที่ก่อตั้งโดยผู้พัฒนา Spark บางรายให้การสนับสนุนเชิงพาณิชย์สำหรับซอฟต์แวร์ ทั้ง Yahoo และ NASA ต่างใช้ซอฟต์แวร์สำหรับการดำเนินการข้อมูลประจำวัน
สรุป:
สิ่งที่ Spark นำเสนอนั้นถือเป็นการดึงดูดผู้ใช้และผู้ขายเชิงพาณิชย์ของ Hadoop ผู้ใช้ที่ต้องการใช้ Hadoop และผู้ที่สร้างระบบการวิเคราะห์จำนวนมากของพวกเขารอบ ๆ Hadoop นั้นติดใจกับแนวคิดที่จะสามารถใช้ Hadoop เป็นระบบประมวลผลแบบเรียลไทม์ได้
Spark 1.0 มอบฟังก์ชันการทำงานที่หลากหลายเพื่อสนับสนุนหรือสร้างรายการที่เป็นกรรมสิทธิ์รอบ ๆ ในความเป็นจริง Cloudera ผู้จำหน่าย Hadoop รายใหญ่หนึ่งในสามรายได้ให้การสนับสนุนเชิงพาณิชย์สำหรับ Spark ผ่านข้อเสนอของ Cloudera Enterprise Hortonworks ยังเสนอ Spark เป็นส่วนประกอบของการจัดจำหน่าย Hadoop การนำ Spark ไปใช้ในวงกว้างโดย บริษัท ชั้นนำบ่งบอกถึงความสำเร็จและศักยภาพในการประมวลผลแบบเรียลไทม์
มีคำถามสำหรับเรา? พูดถึงพวกเขาในส่วนความคิดเห็นแล้วเราจะติดต่อกลับไป
กระทู้ที่เกี่ยวข้อง:
วิธีการติดตั้ง php 7 บน windows 10