4 วิธีในการใช้ R และ Hadoop ร่วมกัน



R และ Hadoop เสริมซึ่งกันและกันได้ดีในแง่ของการแสดงภาพและการวิเคราะห์ข้อมูลขนาดใหญ่ บล็อกโพสต์นี้พูดถึง 4 วิธีในการใช้งานด้วยกัน

Hadoop เป็นเฟรมเวิร์กการเขียนโปรแกรมบน Java ที่ก่อกวนซึ่งสนับสนุนการประมวลผลชุดข้อมูลขนาดใหญ่ในสภาพแวดล้อมการประมวลผลแบบกระจายในขณะที่ R เป็นภาษาโปรแกรมและสภาพแวดล้อมซอฟต์แวร์สำหรับการคำนวณทางสถิติและกราฟิก ภาษา R ใช้กันอย่างแพร่หลายในหมู่นักสถิติและนักขุดข้อมูลเพื่อพัฒนาซอฟต์แวร์ทางสถิติและทำการวิเคราะห์ข้อมูล ในด้านการวิเคราะห์ข้อมูลเชิงโต้ตอบสถิติวัตถุประสงค์ทั่วไปและการสร้างแบบจำลองเชิงคาดการณ์ R ได้รับความนิยมอย่างมากเนื่องจากความสามารถในการจัดหมวดหมู่การจัดกลุ่มและการจัดอันดับ

KM





Hadoop และ R เสริมซึ่งกันและกันได้ดีในแง่ของการแสดงภาพและการวิเคราะห์ข้อมูลขนาดใหญ่

ใช้ R และ Hadoop

มีสี่วิธีในการใช้ Hadoop และ R ด้วยกัน:



1. RHadoop

RHadoop เป็นชุดของแพ็คเกจ R สามชุด: rmr, rhdfs และ rhbase แพ็คเกจ rmr มีฟังก์ชัน Hadoop MapReduce ใน R, rhdfs ให้การจัดการไฟล์ HDFS ใน R และ rhbase ให้การจัดการฐานข้อมูล HBase จากภายใน R แต่ละแพ็คเกจหลักเหล่านี้สามารถใช้เพื่อวิเคราะห์และจัดการข้อมูลเฟรมเวิร์ก Hadoop ได้ดีขึ้น

2. ORCH



ORCH ย่อมาจาก Oracle R Connector สำหรับ Hadoop เป็นชุดของแพ็คเกจ R ที่จัดเตรียมอินเทอร์เฟซที่เกี่ยวข้องเพื่อทำงานกับตาราง Hive โครงสร้างพื้นฐานการประมวลผล Apache Hadoop สภาพแวดล้อม R ในเครื่องและตารางฐานข้อมูล Oracle นอกจากนี้ ORCH ยังมีเทคนิคการวิเคราะห์เชิงคาดการณ์ที่สามารถนำไปใช้กับข้อมูลในไฟล์ HDFS

3. RHIPE

RHIPE เป็นแพ็คเกจ R ซึ่งมี API เพื่อใช้ Hadoop RHIPE ย่อมาจาก R และ Hadoop Integrated Programming Environment และโดยพื้นฐานแล้วคือ RHadoop ที่มี API อื่น

สี่. สตรีมมิ่ง Hadoop

Hadoop Streaming เป็นยูทิลิตี้ที่ช่วยให้ผู้ใช้สามารถสร้างและรันงานโดยใช้ไฟล์ปฏิบัติการใด ๆ เป็นตัวทำแผนที่และ / หรือตัวลด การใช้ระบบสตรีมมิ่งเราสามารถพัฒนางาน Hadoop ที่ใช้งานได้โดยมีความรู้เกี่ยวกับ Java เพียงพอที่จะเขียนเชลล์สคริปต์สองตัวที่ทำงานควบคู่กันได้

การรวมกันของ R และ Hadoop กลายเป็นชุดเครื่องมือที่ต้องมีสำหรับผู้ที่ทำงานกับสถิติและชุดข้อมูลขนาดใหญ่ อย่างไรก็ตามผู้ที่ชื่นชอบ Hadoop บางคนได้ยกธงสีแดงในขณะที่จัดการกับชิ้นส่วนข้อมูลขนาดใหญ่ที่มีขนาดใหญ่มาก พวกเขาอ้างว่าข้อได้เปรียบของ R ไม่ใช่ไวยากรณ์ แต่เป็นไลบรารีดั้งเดิมที่ละเอียดถี่ถ้วนสำหรับการแสดงภาพและสถิติ ไลบรารีเหล่านี้ไม่มีการแจกจ่ายโดยพื้นฐานทำให้การดึงข้อมูลเป็นเรื่องที่ต้องใช้เวลานาน นี่เป็นข้อบกพร่องโดยธรรมชาติของ R และหากคุณเลือกที่จะมองข้ามข้อบกพร่องนั้น R และ Hadoop ควบคู่กันไปก็ยังสามารถทำงานได้อย่างมหัศจรรย์

ตอนนี้เรามาดูการสาธิต:

c ++ โดยใช้เนมสเปซ

มีคำถามสำหรับเรา? โปรดระบุไว้ในส่วนความคิดเห็นแล้วเราจะติดต่อกลับไป

กระทู้ที่เกี่ยวข้อง: