Apache Flink เป็นแพลตฟอร์มโอเพ่นซอร์สสำหรับสตรีมแบบกระจายและการประมวลผลข้อมูลแบบกลุ่ม สามารถทำงานบน Windows, Mac OS และ Linux OS ในบล็อกโพสต์นี้เราจะพูดถึงวิธีตั้งค่าคลัสเตอร์ Flink ในเครื่อง คล้ายกับ Spark ในหลาย ๆ ด้าน - มี API สำหรับการประมวลผลกราฟและการเรียนรู้ของเครื่องเช่น Apache Spark - แต่ Apache Flink และ Apache Spark นั้นไม่เหมือนกันทุกประการ
ในการตั้งค่าคลัสเตอร์ Flink คุณต้องติดตั้ง java 7.x ขึ้นไปในระบบของคุณ เนื่องจากฉันติดตั้ง Hadoop-2.2.0 ที่ส่วนท้ายของฉันบน CentOS (Linux) ฉันจึงดาวน์โหลดแพ็คเกจ Flink ซึ่งเข้ากันได้กับ Hadoop 2.x เรียกใช้คำสั่งด้านล่างเพื่อดาวน์โหลดแพ็คเกจ Flink
คำสั่ง: wget http://archive.apache.org/dist/flink/flink-1.0.0/flink-1.0.0-bin-hadoop2-scala_2.10.tgz
ถอนไฟล์เพื่อรับไดเร็กทอรี flink
การซิงโครไนซ์เธรดในตัวอย่าง java
คำสั่ง: tar -xvf ดาวน์โหลด / flink-1.0.0-bin-hadoop2-scala_2.10.tgz
คำสั่ง: ls
เพิ่มตัวแปรสภาพแวดล้อม Flink ในไฟล์. bashrc
คำสั่ง: sudo gedit .bashrc
คุณต้องรันคำสั่งด้านล่างเพื่อเปิดใช้งานการเปลี่ยนแปลงในไฟล์. bashrc
คำสั่ง: ที่มา. bashrc
ตอนนี้ไปที่ไดเร็กทอรี flink และเริ่มคลัสเตอร์ในเครื่อง
คำสั่ง: ซีดีหนัก -1.0.0
คำสั่ง: bin / start-local.sh
เมื่อคุณเริ่มคลัสเตอร์คุณจะสามารถเห็น daemon JobManager ใหม่ที่กำลังทำงานอยู่
คำสั่ง: jps
เปิดเบราว์เซอร์และไปที่ http: // localhost: 8081 เพื่อดู UI ของเว็บ Apache Flink
ให้เราเรียกใช้ตัวอย่างการนับจำนวนคำง่ายๆโดยใช้ Apache Flink
ก่อนรันตัวอย่างติดตั้ง netcat บนระบบของคุณ (sudo yum install nc)
ตอนนี้ในเทอร์มินัลใหม่ให้รันคำสั่งด้านล่าง
คำสั่ง: nc -lk 9000
รายละเอียดงานนักพัฒนาข้อมูลขนาดใหญ่
เรียกใช้คำสั่งที่กำหนดด้านล่างในเทอร์มินัล Flink คำสั่งนี้เรียกใช้โปรแกรมที่รับข้อมูลที่สตรีมเป็นอินพุตและดำเนินการนับจำนวนคำบนข้อมูลที่สตรีมนั้น
คำสั่ง: bin / flink รันตัวอย่าง / สตรีมมิ่ง / SocketTextStreamWordCount.jar –hostname localhost –port 9000
ใน UI ของเว็บคุณจะสามารถเห็นงานที่กำลังทำงานอยู่
เรียกใช้คำสั่งด้านล่างในเทอร์มินัลใหม่ซึ่งจะพิมพ์ข้อมูลที่สตรีมและประมวลผล
คำสั่ง: หาง -f log / flink - * - jobmanager - *. out
ตอนนี้ไปที่เทอร์มินัลที่คุณเริ่ม netcat แล้วพิมพ์บางอย่าง
ทันทีที่คุณกดปุ่ม Enter บนคีย์เวิร์ดของคุณหลังจากที่คุณพิมพ์ข้อมูลบางอย่างบนเทอร์มินัล netcat การดำเนินการนับจำนวนคำจะถูกนำไปใช้กับข้อมูลนั้นและผลลัพธ์จะถูกพิมพ์ที่นี่ (บันทึกการทำงานของผู้ดูแลระบบ flink) ภายในมิลลิวินาที!
ภายในช่วงเวลาสั้น ๆ ข้อมูลจะถูกสตรีมประมวลผลและพิมพ์
มีอะไรอีกมากมายให้เรียนรู้เกี่ยวกับ Apache Flink เราจะพูดถึงหัวข้อ Flink อื่น ๆ ในบล็อกที่กำลังจะมาถึง
ลำดับจากน้อยไปมาก c ++
มีคำถามสำหรับเรา? พูดถึงพวกเขาในส่วนความคิดเห็นแล้วเราจะติดต่อกลับไป
กระทู้ที่เกี่ยวข้อง:
Apache Falcon: แพลตฟอร์มการจัดการข้อมูลใหม่สำหรับ Hadoop Ecosystem