การประมวลผลข้อมูลขนาดใหญ่ด้วย Apache Spark & ​​Scala



Apache Spark เป็นพัฒนาการที่ยอดเยี่ยมในการประมวลผลข้อมูลขนาดใหญ่

การแคสต์ประเภทข้อมูลใน java

IST: 07:00 - 08:00 น. 17 ตุลาคม 14





PDT: 18.30 - 19.30 น. วันที่ 16 ต.ค. 57

ที่นั่งจำนวน จำกัด !! กรอกแบบฟอร์มทางด้านขวาและจองสล็อตของคุณวันนี้



สวัสดีทุกคนเรากำลังจัดสัมมนาออนไลน์ฟรีเกี่ยวกับ Apache Spark และ Scala ในวันที่ 18 ตุลาคม 2557 ชื่อของการสัมมนาทางเว็บคือ ‘การประมวลผลข้อมูลขนาดใหญ่ด้วย Apache Spark และ Scala’ . ในการสัมมนาทางเว็บนี้จะมีการพูดคุยหัวข้อสำคัญเกี่ยวกับ Apache Spark และ Scala คำถามหรือข้อสงสัยใด ๆ สามารถชี้แจงได้ในระหว่างเซสชัน

หัวข้อที่จะครอบคลุม:

  • Big Data คืออะไร?
  • Spark คืออะไร?
  • ทำไมต้อง Spark?
  • จุดประกายระบบนิเวศ
  • หมายเหตุเกี่ยวกับ Scala
  • ทำไมต้อง Scala?
  • สวัสดี Spark - ลงมือทำ

ทำไมต้อง Spark?

Apache Spark เป็นเฟรมเวิร์กการประมวลผลคลัสเตอร์แบบโอเพนซอร์สสำหรับคลัสเตอร์ชุมชน Hadoop มันมีคุณสมบัติที่จะเป็นหนึ่งในเครื่องมือวิเคราะห์ข้อมูลและประมวลผลข้อมูลที่ดีที่สุดสำหรับข้อมูลขนาดใหญ่ด้วยความเร็วที่ไม่มีใครเทียบได้ใช้งานง่ายและการวิเคราะห์ที่ซับซ้อน ต่อไปนี้เป็นข้อดีและคุณสมบัติที่ทำให้ Apache Spark เป็นครอสโอเวอร์สำหรับการวิเคราะห์เชิงปฏิบัติการและเชิงสืบสวน:

  • โปรแกรมที่พัฒนาบน Spark ทำงานได้เร็วกว่าโปรแกรมที่พัฒนาใน Hadoop MapReduce ถึง 100 เท่า
  • Spark รวบรวมผู้ปฏิบัติงานระดับสูง 80 คน
  • Spark Streaming เปิดใช้งานการประมวลผลข้อมูลแบบเรียลไทม์
  • GraphX ​​เป็นไลบรารีสำหรับการคำนวณแบบกราฟิก
  • MLib คือไลบรารีการเรียนรู้ของเครื่องสำหรับ Spark
  • เขียนโดยทั่วไปใน Scala Spark สามารถฝังอยู่ในระบบปฏิบัติการที่ใช้ JVM ใดก็ได้ในขณะเดียวกันยังสามารถใช้ในวิธี REPL (อ่านประเมินกระบวนการและโหลด)
  • มีความสามารถในการแคชและการคงอยู่ของดิสก์ที่มีประสิทธิภาพ
  • Spark SQL ช่วยให้สามารถจัดการคิวรี SQL ได้อย่างเชี่ยวชาญ
  • Apache Spark สามารถใช้งานผ่าน Apache Mesos, Yarn ใน HDFS, HBase, Cassandra หรือ Spark Cluster Manager (ตัวจัดการคลัสเตอร์ของ Spark เอง)
  • Spark จำลองรูปแบบการทำงานและคอลเล็กชัน API ของ Scala ซึ่งเป็นข้อได้เปรียบที่ดีสำหรับนักพัฒนา Scala และ Java

ต้องการ Apache Spark:

Spark กำลังให้ประโยชน์อย่างมากต่ออุตสาหกรรมในแง่ของความเร็วงานที่หลากหลายที่สามารถทำได้ความยืดหยุ่นการวิเคราะห์ข้อมูลที่มีคุณภาพความคุ้มทุนและอื่น ๆ ซึ่งเป็นความต้องการในแต่ละวัน มอบโซลูชันการวิเคราะห์ข้อมูลขนาดใหญ่แบบเรียลไทม์ระดับไฮเอนด์ให้กับอุตสาหกรรมไอทีเพื่อตอบสนองความต้องการของลูกค้าที่เพิ่มขึ้น การวิเคราะห์ตามเวลาจริงใช้ประโยชน์จากความสามารถทางธุรกิจเป็นจำนวนมาก ความเข้ากันได้กับ Hadoop ทำให้ง่ายมากสำหรับ บริษัท ต่างๆในการนำมาใช้อย่างรวดเร็ว มีความต้องการอย่างสูงสำหรับผู้เชี่ยวชาญและนักพัฒนาที่เรียนรู้จาก Spark เนื่องจากเป็นเทคโนโลยีที่ค่อนข้างใหม่ซึ่งได้รับการนำมาใช้มากขึ้นเรื่อย ๆ