Apache Flink: กรอบการวิเคราะห์ข้อมูลขนาดใหญ่รุ่นต่อไปสำหรับการประมวลผลข้อมูลสตรีมและแบทช์



เรียนรู้เกี่ยวกับ Apache Flink และการตั้งค่าคลัสเตอร์ Flink ในบล็อกนี้ Flink รองรับการประมวลผลแบบเรียลไทม์และเป็นกลุ่มและเป็นเทคโนโลยี Big Data ที่ต้องดูสำหรับ Big Data Analytics

Apache Flink เป็นแพลตฟอร์มโอเพ่นซอร์สสำหรับสตรีมแบบกระจายและการประมวลผลข้อมูลแบบกลุ่ม สามารถทำงานบน Windows, Mac OS และ Linux OS ในบล็อกโพสต์นี้เราจะพูดถึงวิธีตั้งค่าคลัสเตอร์ Flink ในเครื่อง คล้ายกับ Spark ในหลาย ๆ ด้าน - มี API สำหรับการประมวลผลกราฟและการเรียนรู้ของเครื่องเช่น Apache Spark - แต่ Apache Flink และ Apache Spark นั้นไม่เหมือนกันทุกประการ





ในการตั้งค่าคลัสเตอร์ Flink คุณต้องติดตั้ง java 7.x ขึ้นไปในระบบของคุณ เนื่องจากฉันติดตั้ง Hadoop-2.2.0 ที่ส่วนท้ายของฉันบน CentOS (Linux) ฉันจึงดาวน์โหลดแพ็คเกจ Flink ซึ่งเข้ากันได้กับ Hadoop 2.x เรียกใช้คำสั่งด้านล่างเพื่อดาวน์โหลดแพ็คเกจ Flink

คำสั่ง: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz



Command-Apache-Flink

ถอนไฟล์เพื่อรับไดเร็กทอรี flink

การซิงโครไนซ์เธรดในตัวอย่าง java

คำสั่ง: tar -xvf ดาวน์โหลด / flink-1.0.0-bin-hadoop2-scala_2.10.tgz



คำสั่ง: ls

เพิ่มตัวแปรสภาพแวดล้อม Flink ในไฟล์. bashrc

คำสั่ง: sudo gedit .bashrc

คุณต้องรันคำสั่งด้านล่างเพื่อเปิดใช้งานการเปลี่ยนแปลงในไฟล์. bashrc

คำสั่ง: ที่มา. bashrc

ตอนนี้ไปที่ไดเร็กทอรี flink และเริ่มคลัสเตอร์ในเครื่อง

คำสั่ง: ซีดีหนัก -1.0.0

คำสั่ง: bin / start-local.sh

เมื่อคุณเริ่มคลัสเตอร์คุณจะสามารถเห็น daemon JobManager ใหม่ที่กำลังทำงานอยู่

คำสั่ง: jps

เปิดเบราว์เซอร์และไปที่ http: // localhost: 8081 เพื่อดู UI ของเว็บ Apache Flink

ให้เราเรียกใช้ตัวอย่างการนับจำนวนคำง่ายๆโดยใช้ Apache Flink

ก่อนรันตัวอย่างติดตั้ง netcat บนระบบของคุณ (sudo yum install nc)

ตอนนี้ในเทอร์มินัลใหม่ให้รันคำสั่งด้านล่าง

คำสั่ง: nc -lk 9000

รายละเอียดงานนักพัฒนาข้อมูลขนาดใหญ่

เรียกใช้คำสั่งที่กำหนดด้านล่างในเทอร์มินัล Flink คำสั่งนี้เรียกใช้โปรแกรมที่รับข้อมูลที่สตรีมเป็นอินพุตและดำเนินการนับจำนวนคำบนข้อมูลที่สตรีมนั้น

คำสั่ง: bin / flink รันตัวอย่าง / สตรีมมิ่ง / SocketTextStreamWordCount.jar –hostname localhost –port 9000

ใน UI ของเว็บคุณจะสามารถเห็นงานที่กำลังทำงานอยู่

เรียกใช้คำสั่งด้านล่างในเทอร์มินัลใหม่ซึ่งจะพิมพ์ข้อมูลที่สตรีมและประมวลผล

คำสั่ง: หาง -f log / flink - * - jobmanager - *. out

ตอนนี้ไปที่เทอร์มินัลที่คุณเริ่ม netcat แล้วพิมพ์บางอย่าง

ทันทีที่คุณกดปุ่ม Enter บนคีย์เวิร์ดของคุณหลังจากที่คุณพิมพ์ข้อมูลบางอย่างบนเทอร์มินัล netcat การดำเนินการนับจำนวนคำจะถูกนำไปใช้กับข้อมูลนั้นและผลลัพธ์จะถูกพิมพ์ที่นี่ (บันทึกการทำงานของผู้ดูแลระบบ flink) ภายในมิลลิวินาที!

ภายในช่วงเวลาสั้น ๆ ข้อมูลจะถูกสตรีมประมวลผลและพิมพ์

มีอะไรอีกมากมายให้เรียนรู้เกี่ยวกับ Apache Flink เราจะพูดถึงหัวข้อ Flink อื่น ๆ ในบล็อกที่กำลังจะมาถึง

ลำดับจากน้อยไปมาก c ++

มีคำถามสำหรับเรา? พูดถึงพวกเขาในส่วนความคิดเห็นแล้วเราจะติดต่อกลับไป

กระทู้ที่เกี่ยวข้อง:

Apache Falcon: แพลตฟอร์มการจัดการข้อมูลใหม่สำหรับ Hadoop Ecosystem