Apache Spark พร้อม Hadoop - ทำไมจึงสำคัญ?



การนำ Apache Spark ไปใช้กับ Hadoop ในระดับใหญ่โดย บริษัท ชั้นนำบ่งบอกถึงความสำเร็จและศักยภาพในการประมวลผลแบบเรียลไทม์

Hadoop ซึ่งเป็นเฟรมเวิร์กการประมวลผลข้อมูลที่กลายเป็นแพลตฟอร์มสำหรับตัวมันเองจะดียิ่งขึ้นไปอีกเมื่อมีการเชื่อมต่อส่วนประกอบที่ดีเข้ากับมัน ข้อบกพร่องบางประการของ Hadoop เช่นส่วนประกอบ MapReduce ของ Hadoop มีชื่อเสียงในเรื่องความช้าในการวิเคราะห์ข้อมูลแบบเรียลไทม์





เข้าสู่ Apache Spark ซึ่งเป็นระบบประมวลผลข้อมูลที่ใช้ Hadoop ซึ่งออกแบบมาสำหรับทั้งปริมาณงานแบบแบตช์และสตรีมมิ่งตอนนี้อยู่ในเวอร์ชัน 1.0 และมาพร้อมกับคุณสมบัติที่แสดงให้เห็นว่า Hadoop กำลังผลักดันให้รวมงานประเภทใดบ้าง Spark ทำงานบนคลัสเตอร์ Hadoop ที่มีอยู่เพื่อมอบฟังก์ชันการทำงานที่ได้รับการปรับปรุงและเพิ่มเติม

มาดูคุณสมบัติหลักของ spark และวิธีการทำงานร่วมกับ Hadoop และ .



ประโยชน์หลักของ Apache Spark:

img2-R

คุณสมบัติที่ยอดเยี่ยมของ Spark:

  • การรวม Hadoop - Spark สามารถทำงานกับไฟล์ที่จัดเก็บใน HDFS
  • Spark’s Interactive Shell - Spark เขียนด้วยภาษา Scala และมีล่าม Scala ในเวอร์ชันของตัวเอง
  • Spark’s Analytic Suite - Spark มาพร้อมกับเครื่องมือสำหรับการวิเคราะห์แบบสอบถามเชิงโต้ตอบการประมวลผลและวิเคราะห์กราฟขนาดใหญ่และการวิเคราะห์แบบเรียลไทม์
  • ชุดข้อมูลแบบกระจายที่ยืดหยุ่น (RDD’s) - RDD คืออ็อบเจ็กต์แบบกระจายที่สามารถแคชไว้ในหน่วยความจำข้ามคลัสเตอร์ของโหนดการคำนวณ เป็นวัตถุข้อมูลหลักที่ใช้ใน Spark
  • ตัวดำเนินการแบบกระจาย - นอกจาก MapReduce แล้วยังมีโอเปอเรเตอร์อื่น ๆ อีกมากมายที่สามารถใช้กับ RDD ได้

ข้อดีของการใช้ Apache Spark กับ Hadoop:

เรียนรู้ ssis ทีละขั้นตอน
  • Apache Spark เข้ากับชุมชนโอเพนซอร์ส Hadoop สร้างที่ด้านบนของ Hadoop Distributed File System (HDFS) อย่างไรก็ตาม Spark ไม่ได้เชื่อมโยงกับกระบวนทัศน์ MapReduce สองขั้นตอนและสัญญาว่าประสิทธิภาพจะเร็วกว่า Hadoop MapReduce ถึง 100 เท่าสำหรับแอปพลิเคชันบางอย่าง



  • เหมาะอย่างยิ่งกับอัลกอริทึมการเรียนรู้ของเครื่อง - Spark มีพื้นฐานสำหรับการประมวลผลคลัสเตอร์ในหน่วยความจำที่ช่วยให้โปรแกรมของผู้ใช้โหลดข้อมูลลงในหน่วยความจำของคลัสเตอร์และสืบค้นซ้ำ ๆ

  • วิ่งเร็วขึ้น 100 เท่า - Spark ซอฟต์แวร์วิเคราะห์ยังสามารถเร่งงานที่ทำงานบนแพลตฟอร์มการประมวลผลข้อมูล Hadoop ได้รับการขนานนามว่า“ Hadoop Swiss Army knife” Apache Spark ให้ความสามารถในการสร้างงานวิเคราะห์ข้อมูลที่ทำงานได้เร็วกว่างานที่ทำงานบน Apache Hadoop MapReduce มาตรฐานถึง 100 เท่า MapReduce ได้รับการวิพากษ์วิจารณ์อย่างกว้างขวางว่าเป็นคอขวดในคลัสเตอร์ Hadoop เนื่องจากดำเนินการงานในโหมดแบตช์ซึ่งหมายความว่าไม่สามารถวิเคราะห์ข้อมูลแบบเรียลไทม์ได้

  • ทางเลือกสำหรับ MapReduce - Spark เป็นทางเลือกให้กับ MapReduce มันดำเนินการงานในช่วงสั้น ๆ ของไมโครแบทช์ที่ห่างกันห้าวินาทีหรือน้อยกว่า นอกจากนี้ยังให้ความเสถียรมากกว่าเฟรมเวิร์ก Hadoop ที่เน้นสตรีมแบบเรียลไทม์เช่น Twitter Storm ซอฟต์แวร์สามารถใช้กับงานที่หลากหลายเช่นการวิเคราะห์ข้อมูลสดอย่างต่อเนื่องและด้วยไลบรารีซอฟต์แวร์งานเชิงลึกในเชิงคำนวณที่เกี่ยวข้องกับการเรียนรู้ของเครื่องและการประมวลผลกราฟ

  • รองรับหลายภาษา - การใช้ Spark นักพัฒนาสามารถเขียนงานวิเคราะห์ข้อมูลใน Java, Scala หรือ Python โดยใช้ชุดตัวดำเนินการระดับสูงมากกว่า 80 ตัว

    วิธีรวบรวมรหัส java
  • การสนับสนุนห้องสมุด - ไลบรารีของ Spark ได้รับการออกแบบมาเพื่อเสริมประเภทของงานประมวลผลที่กำลังสำรวจอย่างจริงจังยิ่งขึ้นด้วยการปรับใช้ Hadoop ที่ได้รับการสนับสนุนในเชิงพาณิชย์ล่าสุด MLlib ใช้อัลกอริธึมการเรียนรู้ของเครื่องทั่วไปเช่นการจำแนกแบบ Bayesian ที่ไร้เดียงสาหรือการจัดกลุ่ม Spark Streaming ช่วยให้สามารถประมวลผลข้อมูลที่นำเข้าจากหลายแหล่งได้ด้วยความเร็วสูงและ GraphX ​​ช่วยให้สามารถคำนวณข้อมูลกราฟได้

  • API ที่เสถียร - ด้วยเวอร์ชัน 1.0 Apache Spark นำเสนอ API ที่เสถียร (อินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชัน) ซึ่งนักพัฒนาสามารถใช้โต้ตอบกับ Spark ผ่านแอปพลิเคชันของตนเองได้ สิ่งนี้ช่วยให้ใช้ Storm ได้ง่ายขึ้นในการปรับใช้ตาม Hadoop

  • ส่วนประกอบ SPARK SQL - ส่วนประกอบ Spark SQL สำหรับการเข้าถึงข้อมูลที่มีโครงสร้างช่วยให้สามารถสอบถามข้อมูลควบคู่ไปกับข้อมูลที่ไม่มีโครงสร้างในงานวิเคราะห์ Spark SQL ซึ่งเป็นเฉพาะในอัลฟาในขณะนี้อนุญาตให้เรียกใช้การสืบค้นที่คล้าย SQL กับข้อมูลที่จัดเก็บใน Apache Hive การดึงข้อมูลจาก Hadoop ผ่านแบบสอบถาม SQL เป็นอีกรูปแบบหนึ่งของฟังก์ชันการสืบค้นแบบเรียลไทม์ที่เกิดขึ้นรอบ ๆ Hadoop

  • ความเข้ากันได้ของ Apache Spark กับ Hadoop [HDFS, HBASE และ YARN] - Apache Spark เข้ากันได้อย่างสมบูรณ์กับ Hadoop’s Distributed File System (HDFS) รวมถึงส่วนประกอบ Hadoop อื่น ๆ เช่น YARN (Yet Another Resource Negotiator) และฐานข้อมูลแบบกระจาย HBase

ผู้ยอมรับในอุตสาหกรรม:

บริษัท ไอทีเช่น Cloudera, Pivotal, IBM, Intel และ MapR ต่างก็พับ Spark ไว้ในสแต็ค Hadoop ของตน Databricks ซึ่งเป็น บริษัท ที่ก่อตั้งโดยผู้พัฒนา Spark บางรายให้การสนับสนุนเชิงพาณิชย์สำหรับซอฟต์แวร์ ทั้ง Yahoo และ NASA ต่างใช้ซอฟต์แวร์สำหรับการดำเนินการข้อมูลประจำวัน

สรุป:

สิ่งที่ Spark นำเสนอนั้นถือเป็นการดึงดูดผู้ใช้และผู้ขายเชิงพาณิชย์ของ Hadoop ผู้ใช้ที่ต้องการใช้ Hadoop และผู้ที่สร้างระบบการวิเคราะห์จำนวนมากของพวกเขารอบ ๆ Hadoop นั้นติดใจกับแนวคิดที่จะสามารถใช้ Hadoop เป็นระบบประมวลผลแบบเรียลไทม์ได้

Spark 1.0 มอบฟังก์ชันการทำงานที่หลากหลายเพื่อสนับสนุนหรือสร้างรายการที่เป็นกรรมสิทธิ์รอบ ๆ ในความเป็นจริง Cloudera ผู้จำหน่าย Hadoop รายใหญ่หนึ่งในสามรายได้ให้การสนับสนุนเชิงพาณิชย์สำหรับ Spark ผ่านข้อเสนอของ Cloudera Enterprise Hortonworks ยังเสนอ Spark เป็นส่วนประกอบของการจัดจำหน่าย Hadoop การนำ Spark ไปใช้ในวงกว้างโดย บริษัท ชั้นนำบ่งบอกถึงความสำเร็จและศักยภาพในการประมวลผลแบบเรียลไทม์

มีคำถามสำหรับเรา? พูดถึงพวกเขาในส่วนความคิดเห็นแล้วเราจะติดต่อกลับไป

กระทู้ที่เกี่ยวข้อง:

วิธีการติดตั้ง php 7 บน windows 10