การใช้ Hadoop กับ Data Science



ด้วย Hadoop ที่ทำหน้าที่เป็นทั้งแพลตฟอร์มข้อมูลที่ปรับขนาดได้และเครื่องมือคำนวณวิทยาศาสตร์ข้อมูลจึงเกิดขึ้นอีกครั้งในฐานะศูนย์กลางของนวัตกรรมระดับองค์กร Hadoop เป็นประโยชน์สำหรับนักวิทยาศาสตร์ข้อมูล

Apache Hadoop กำลังกลายเป็นเทคโนโลยีทางเลือกสำหรับองค์กรที่ลงทุนในข้อมูลขนาดใหญ่อย่างรวดเร็วโดยขับเคลื่อนสถาปัตยกรรมข้อมูลรุ่นใหม่ ด้วย Hadoop ที่ทำหน้าที่เป็นทั้งแพลตฟอร์มข้อมูลที่ปรับขนาดได้และเครื่องมือคำนวณวิทยาศาสตร์ข้อมูลจึงเกิดขึ้นอีกครั้งในฐานะศูนย์กลางของนวัตกรรมขององค์กรด้วยโซลูชันข้อมูลที่ประยุกต์ใช้เช่นการแนะนำผลิตภัณฑ์ออนไลน์การตรวจจับการฉ้อโกงอัตโนมัติและการวิเคราะห์ความรู้สึกของลูกค้า

ในบทความนี้เราให้ภาพรวมของวิทยาศาสตร์ข้อมูลและวิธีใช้ประโยชน์จาก Hadoop สำหรับโครงการวิทยาศาสตร์ข้อมูลขนาดใหญ่





Hadoop มีประโยชน์ต่อนักวิทยาศาสตร์ข้อมูลอย่างไร?

Hadoop เป็นประโยชน์ต่อนักวิทยาศาสตร์ข้อมูล มาดูกันว่า Hadoop ช่วยเพิ่มประสิทธิภาพการทำงานของ Data Scientists ได้อย่างไร Hadoop มีความสามารถพิเศษที่สามารถจัดเก็บและดึงข้อมูลทั้งหมดได้จากที่เดียว ด้วยวิธีนี้สามารถทำได้ดังต่อไปนี้:

  • ความสามารถในการจัดเก็บข้อมูลทั้งหมดในรูปแบบ RAW
  • การบรรจบกันของไซโลข้อมูล
  • นักวิทยาศาสตร์ข้อมูลจะค้นพบการใช้ประโยชน์จากสินทรัพย์ข้อมูลรวมอย่างสร้างสรรค์

Hadoop-with-ds11



กุญแจสู่พลังของ Hadoop:

  • ลดเวลาและต้นทุน - Hadoop ช่วยลดเวลาและต้นทุนในการสร้างผลิตภัณฑ์ข้อมูลขนาดใหญ่ได้อย่างมาก
  • การคำนวณอยู่ร่วมกับข้อมูล - ระบบข้อมูลและการคำนวณเป็นรหัสที่ออกแบบมาเพื่อทำงานร่วมกัน
  • ราคาไม่แพงในระดับ - สามารถใช้โหนดฮาร์ดแวร์ 'สินค้าโภคภัณฑ์' ซึ่งสามารถรักษาตัวเองได้ดีเยี่ยมในการประมวลผลชุดข้อมูลขนาดใหญ่
  • ออกแบบมาสำหรับการเขียนหนึ่งครั้งและการอ่านหลายครั้ง - ไม่มีการเขียนแบบสุ่มและเป็นเหมาะสำหรับการค้นหาขั้นต่ำบนฮาร์ดไดรฟ์

ทำไมต้อง Hadoop กับ Data Science?

เหตุผล # 1: สำรวจชุดข้อมูลขนาดใหญ่

เหตุผลแรกและสำคัญที่สุดคือสามารถทำได้ สำรวจชุดข้อมูลขนาดใหญ่ โดยตรงกับ Hadoop โดย รวม Hadoop ใน ขั้นตอนการวิเคราะห์ข้อมูล .

สิ่งนี้ทำได้โดยใช้สถิติง่ายๆเช่น:



  • ค่าเฉลี่ย
  • ค่ามัธยฐาน
  • Quantile
  • การประมวลผลล่วงหน้า: grep, regex

คุณยังสามารถใช้ Ad-hoc Sampling / filtering เพื่อให้บรรลุ สุ่ม: มีหรือไม่มีการเปลี่ยนตัวอย่างด้วยคีย์เฉพาะและการตรวจสอบความถูกต้องข้าม K-fold

เหตุผล # 2: ความสามารถในการขุดชุดข้อมูลขนาดใหญ่

อัลกอริทึมการเรียนรู้ที่มีชุดข้อมูลขนาดใหญ่มีความท้าทายในตัวเอง ความท้าทายคือ:

  • ข้อมูลจะไม่พอดีกับหน่วยความจำ
  • การเรียนรู้ใช้เวลานานกว่ามาก

เมื่อใช้ Hadoop เราสามารถทำหน้าที่ต่างๆเช่นกระจายข้อมูลข้ามโหนดในคลัสเตอร์ Hadoop และใช้อัลกอริทึมแบบกระจาย / ขนาน สำหรับคำแนะนำสามารถใช้อัลกอริทึม Alternate Least Square และสำหรับการรวมกลุ่ม K-Means ได้

โครงสร้างข้อมูล java และอัลกอริทึม

เหตุผล # 3: การเตรียมข้อมูลขนาดใหญ่

เราทุกคนทราบดีว่า 80% ของงาน Data Science เกี่ยวข้องกับ 'การเตรียมข้อมูล' Hadoop เหมาะอย่างยิ่งสำหรับการเตรียมชุดและการล้างชุดข้อมูลขนาดใหญ่

เหตุผล # 4: เร่งนวัตกรรมที่ขับเคลื่อนด้วยข้อมูล:

สถาปัตยกรรมข้อมูลแบบดั้งเดิมมีอุปสรรคต่อความเร็ว RDBMS ใช้ สคีมาเกี่ยวกับการเขียน ดังนั้นการเปลี่ยนแปลงจึงมีราคาแพง นอกจากนี้ยังเป็นไฟล์ อุปสรรคสูง สำหรับนวัตกรรมที่ขับเคลื่อนด้วยข้อมูล

Hadoop ใช้ “ สคีมาเมื่ออ่าน” ซึ่งหมายความว่า เวลาเร็วขึ้นในการสร้างสรรค์นวัตกรรม และเพิ่มไฟล์ อุปสรรคต่ำ นวัตกรรมที่ขับเคลื่อนด้วยข้อมูล

ดังนั้นเพื่อสรุปเหตุผลหลักสี่ประการที่เราต้องการ Hadoop กับ Data Science คือ:

  1. ขุดชุดข้อมูลขนาดใหญ่
  2. การสำรวจข้อมูลพร้อมชุดข้อมูลแบบเต็ม
  3. การประมวลผลล่วงหน้าตามขนาด
  4. รอบการขับเคลื่อนข้อมูลที่เร็วขึ้น

เราจึงเห็นว่าองค์กรต่างๆสามารถใช้ประโยชน์จาก Hadoop เพื่อประโยชน์ในการขุดข้อมูลและรวบรวมผลลัพธ์ที่เป็นประโยชน์จากมันได้

มีคำถามสำหรับเรา ?? โปรดระบุไว้ในส่วนความคิดเห็นแล้วเราจะติดต่อกลับไป

ฟังก์ชั่นโอเวอร์โหลดในตัวอย่าง c ++

กระทู้ที่เกี่ยวข้อง:

ความสำคัญของ Data Science กับ Cassandra