APACHE FLINK: NEXT GEN BIG DATA ANALYTICS FRAMEWORK | บล็อก

Apache Flink เป็นแพลตฟอร์มโอเพ่นซอร์สสำหรับสตรีมแบบกระจายและการประมวลผลข้อมูลแบบกลุ่ม สามารถทำงานบน Windows, Mac OS และ Linux OS ในบล็อกโพสต์นี้เราจะพูดถึงวิธีตั้งค่าคลัสเตอร์ Flink ในเครื่อง คล้ายกับ Spark ในหลาย ๆ ด้าน - มี API สำหรับการประมวลผลกราฟและการเรียนรู้ของเครื่องเช่น Apache Spark - แต่ Apache Flink และ Apache Spark นั้นไม่เหมือนกันทุกประการ

ในการตั้งค่าคลัสเตอร์ Flink คุณต้องติดตั้ง java 7.x ขึ้นไปในระบบของคุณ เนื่องจากฉันติดตั้ง Hadoop-2.2.0 ที่ส่วนท้ายของฉันบน CentOS (Linux) ฉันจึงดาวน์โหลดแพ็คเกจ Flink ซึ่งเข้ากันได้กับ Hadoop 2.x เรียกใช้คำสั่งด้านล่างเพื่อดาวน์โหลดแพ็คเกจ Flink

คำสั่ง: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz

Command-Apache-Flink

ถอนไฟล์เพื่อรับไดเร็กทอรี flink

การซิงโครไนซ์เธรดในตัวอย่าง java

คำสั่ง: tar -xvf ดาวน์โหลด / flink-1.0.0-bin-hadoop2-scala_2.10.tgz

คำสั่ง: ls

เพิ่มตัวแปรสภาพแวดล้อม Flink ในไฟล์. bashrc

คำสั่ง: sudo gedit .bashrc

คุณต้องรันคำสั่งด้านล่างเพื่อเปิดใช้งานการเปลี่ยนแปลงในไฟล์. bashrc

คำสั่ง: ที่มา. bashrc

ตอนนี้ไปที่ไดเร็กทอรี flink และเริ่มคลัสเตอร์ในเครื่อง

คำสั่ง: ซีดีหนัก -1.0.0

คำสั่ง: bin / start-local.sh

เมื่อคุณเริ่มคลัสเตอร์คุณจะสามารถเห็น daemon JobManager ใหม่ที่กำลังทำงานอยู่

คำสั่ง: jps

เปิดเบราว์เซอร์และไปที่ http: // localhost: 8081 เพื่อดู UI ของเว็บ Apache Flink

ให้เราเรียกใช้ตัวอย่างการนับจำนวนคำง่ายๆโดยใช้ Apache Flink

ก่อนรันตัวอย่างติดตั้ง netcat บนระบบของคุณ (sudo yum install nc)

ตอนนี้ในเทอร์มินัลใหม่ให้รันคำสั่งด้านล่าง

คำสั่ง: nc -lk 9000

รายละเอียดงานนักพัฒนาข้อมูลขนาดใหญ่

เรียกใช้คำสั่งที่กำหนดด้านล่างในเทอร์มินัล Flink คำสั่งนี้เรียกใช้โปรแกรมที่รับข้อมูลที่สตรีมเป็นอินพุตและดำเนินการนับจำนวนคำบนข้อมูลที่สตรีมนั้น

คำสั่ง: bin / flink รันตัวอย่าง / สตรีมมิ่ง / SocketTextStreamWordCount.jar –hostname localhost –port 9000

ใน UI ของเว็บคุณจะสามารถเห็นงานที่กำลังทำงานอยู่

เรียกใช้คำสั่งด้านล่างในเทอร์มินัลใหม่ซึ่งจะพิมพ์ข้อมูลที่สตรีมและประมวลผล

คำสั่ง: หาง -f log / flink - * - jobmanager - *. out

ตอนนี้ไปที่เทอร์มินัลที่คุณเริ่ม netcat แล้วพิมพ์บางอย่าง

ทันทีที่คุณกดปุ่ม Enter บนคีย์เวิร์ดของคุณหลังจากที่คุณพิมพ์ข้อมูลบางอย่างบนเทอร์มินัล netcat การดำเนินการนับจำนวนคำจะถูกนำไปใช้กับข้อมูลนั้นและผลลัพธ์จะถูกพิมพ์ที่นี่ (บันทึกการทำงานของผู้ดูแลระบบ flink) ภายในมิลลิวินาที!

ภายในช่วงเวลาสั้น ๆ ข้อมูลจะถูกสตรีมประมวลผลและพิมพ์

มีอะไรอีกมากมายให้เรียนรู้เกี่ยวกับ Apache Flink เราจะพูดถึงหัวข้อ Flink อื่น ๆ ในบล็อกที่กำลังจะมาถึง

ลำดับจากน้อยไปมาก c ++

มีคำถามสำหรับเรา? พูดถึงพวกเขาในส่วนความคิดเห็นแล้วเราจะติดต่อกลับไป

กระทู้ที่เกี่ยวข้อง:

Apache Falcon: แพลตฟอร์มการจัดการข้อมูลใหม่สำหรับ Hadoop Ecosystem

Apache Flink: กรอบการวิเคราะห์ข้อมูลขนาดใหญ่รุ่นต่อไปสำหรับการประมวลผลข้อมูลสตรีมและแบทช์

หมวดหมู่

Popular Articles

บทช่วยสอน RDS AWS: เริ่มต้นใช้งานบริการฐานข้อมูลเชิงสัมพันธ์

การวิเคราะห์ข้อมูลขนาดใหญ่ - เปลี่ยนข้อมูลเชิงลึกสู่การปฏิบัติ

บทแนะนำการจัดส่งแบบต่อเนื่อง - การสร้างท่อส่งสินค้าแบบต่อเนื่องโดยใช้ Jenkins

Spark Streaming Tutorial - การวิเคราะห์ความรู้สึกโดยใช้ Apache Spark

วิธีการติดตั้ง Volatile Keyword ใน Java

HTML Meta Tags คืออะไร? จำเป็นจริงหรือ?

Hive Data Models

ExecutorService ใน Java คืออะไรและจะสร้างได้อย่างไร

Dynamic Array ใน Java คืออะไร?

Git vs Github - ทำให้เข้าใจถึงความแตกต่าง

บทแนะนำ Robotic Process Automation (RPA) - เรียนรู้การทำงานอัตโนมัติใน RPA

เงินเดือนนักพัฒนา Power BI: ข้อมูลเชิงลึกและเทรนด์ที่คุณต้องรู้