ข้อมูลเบื้องต้นเกี่ยวกับ Hadoop Job Tracker



สิ่งนี้ให้ข้อมูลเชิงลึกเกี่ยวกับการใช้ Job tracker

Hadoop Job Tacker

Job Tracker เป็นดีมอนหลักสำหรับทั้งการจัดการทรัพยากรงานและการจัดตารางเวลา / การตรวจสอบงาน ทำหน้าที่เป็นผู้ประสานงานระหว่าง Hadoop และแอปพลิเคชันของคุณ





กระบวนการ

ผู้ใช้จะคัดลอกไฟล์ไปยัง Distributed File System (DFS) ก่อนที่จะส่งงานไปยังไคลเอ็นต์ จากนั้นไคลเอนต์จะได้รับไฟล์อินพุตเหล่านี้ ผู้ใช้จะได้รับการแยกหรือบล็อกตามไฟล์อินพุตลูกค้าทำได้สร้างรอยแยกหรือบล็อกในผู้ชายเนิร์ดมัน prefเนื่องจากมีข้อควรพิจารณาบางประการอยู่เบื้องหลัง หากมีการวิเคราะห์ข้อมูลทั้งหมดคุณจะแบ่งข้อมูลออกเป็นส่วน ๆ ไฟล์จะไม่ถูกคัดลอกผ่านไคลเอนต์ แต่จะถูกคัดลอกโดยใช้ flume หรือ Sqoop หรือไคลเอนต์ภายนอกใด ๆ

เมื่อไฟล์ถูกคัดลอกไปยัง DFS และไคลเอนต์โต้ตอบกับ DFS แล้วการแยกจะเรียกใช้ MapReduce job. งานจะถูกส่งผ่านตัวติดตามงาน ตัวติดตามงานคือดีมอนหลักซึ่งรันบนโหนดเดียวกันกับที่วิ่งงานต่างๆเหล่านี้บนโหนดข้อมูล ข้อมูลนี้จะวางอยู่บนโหนดข้อมูลต่างๆ แต่เป็นความรับผิดชอบของผู้ติดตามงานที่จะดูแลสิ่งนั้น



จัดเรียงอาร์เรย์ c ++

หลังจากลูกค้าส่งเมื่อตัวติดตามงานงานจะเริ่มต้นในคิวงานและตัวติดตามงานจะสร้างแผนที่และลด ขึ้นอยู่กับโปรแกรมที่มีอยู่ในฟังก์ชันแผนที่และฟังก์ชันลดจะสร้างงานแผนที่และลดงาน ทั้งสองนี้จะทำงานบนแยกอินพุต หมายเหตุ: เมื่อสร้างโดยไคลเอนต์การแยกอินพุตนี้จะมีข้อมูลทั้งหมด

การแยกอินพุตแต่ละรายการจะมีงานแผนที่ทำงานอยู่และผลลัพธ์ของงานแผนที่จะเข้าสู่งานลด ตัวติดตามงานดำเนินการติดตามข้อมูลเฉพาะ อาจมีการจำลองแบบได้หลายแบบดังนั้นจึงเลือกข้อมูลในเครื่องและรันงานบนตัวติดตามงานนั้น ๆ ตัวติดตามงานคือตัวติดตามที่รันงานบนโหนดข้อมูล ตัวติดตามงานจะผ่านไฟล์ข้อมูลไปยังตัวติดตามงานและตัวติดตามงานจะรันงานบนโหนดข้อมูล

วิธีใช้เบราว์เซอร์ sqlite

เมื่อมอบหมายงานให้กับตัวติดตามงานแล้วจะมีการเต้นของหัวใจที่เกี่ยวข้องกับตัวติดตามงานและตัวติดตามงานแต่ละตัว จะส่งสัญญาณเพื่อดูว่าโหนดข้อมูลยังมีชีวิตอยู่หรือไม่ ทั้งสองมักจะซิงค์กันเนื่องจากมีความเป็นไปได้ที่โหนดจะเลือนหายไป



มีคำถามสำหรับเรา? พูดถึงพวกเขาในส่วนความคิดเห็นแล้วเราจะติดต่อกลับไป

กระทู้ที่เกี่ยวข้อง:

คำถามสัมภาษณ์นักวิทยาศาสตร์ข้อมูลของ Google