การเขียนโปรแกรมหมู: สร้างสคริปต์ Apache Pig แรกของคุณ
ใน ตอนนี้เราจะเรียนรู้วิธีสร้างสคริปต์ Apache Pig สคริปต์ Apache Pig ใช้เพื่อดำเนินการชุดคำสั่ง Apache Pig โดยรวม สิ่งนี้ช่วยลดเวลาและความพยายามในการเขียนและดำเนินการแต่ละคำสั่งด้วยตนเองในขณะที่ทำสิ่งนี้ในโปรแกรม Pigนอกจากนี้ยังเป็นส่วนหนึ่งของไฟล์ .บล็อกนี้เป็นคำแนะนำทีละขั้นตอนเพื่อช่วยคุณสร้างสคริปต์ Apache Pig แรกของคุณ
แผนการติดตามและควบคุมโครงการ
โหมดการดำเนินการสคริปต์ Apache Pig
โหมดท้องถิ่น : ใน 'โหมดท้องถิ่น' คุณสามารถเรียกใช้สคริปต์หมูในระบบไฟล์ภายในเครื่อง ในกรณีนี้คุณไม่จำเป็นต้องจัดเก็บข้อมูลในระบบไฟล์ Hadoop HDFS แต่คุณสามารถทำงานกับข้อมูลที่จัดเก็บในระบบไฟล์ภายในเครื่องได้
โหมด MapReduce : ใน 'โหมด MapReduce' ข้อมูลจะต้องถูกเก็บไว้ในระบบไฟล์ HDFS และคุณสามารถประมวลผลข้อมูลด้วยความช่วยเหลือของ pig script
Apache Pig Script ในโหมด MapReduce
ให้เราบอกว่างานของเราคืออ่านข้อมูลจากไฟล์ข้อมูลและแสดงเนื้อหาที่ต้องการบนเทอร์มินัลเป็นเอาต์พุต
ไฟล์ข้อมูลตัวอย่างประกอบด้วยข้อมูลต่อไปนี้:
บันทึกไฟล์ข้อความด้วยชื่อ 'information.txt'
ไฟล์ข้อมูลตัวอย่างประกอบด้วยห้าคอลัมน์ ชื่อจริง , นามสกุล , MobileNo , เมือง และ วิชาชีพ คั่นด้วย ปุ่มแท็บ . งานของเราคืออ่านเนื้อหาของไฟล์นี้จาก HDFS และแสดงคอลัมน์ทั้งหมดของเร็กคอร์ดเหล่านี้
ในการประมวลผลข้อมูลนี้โดยใช้ Pig ไฟล์นี้ควรอยู่ใน Apache Hadoop HDFS
คำสั่ง : hadoop fs –copyFromLocal /home/edureka/information.txt / edureka
ขั้นตอนที่ 1: การเขียนบทหมู
สร้างและเปิดไฟล์สคริปต์ Apache Pig ในโปรแกรมแก้ไข (เช่น gedit)
วิธีหยุดโปรแกรม java ในโค้ด
คำสั่ง : sudo gedit /home/edureka/output.pig
คำสั่งนี้จะสร้างไฟล์ 'output.pig' ภายในโฮมไดเร็กทอรีของผู้ใช้ edureka
มาเขียนคำสั่ง PIG ในไฟล์ output.pig กัน
A = LOAD '/edureka/information.txt' โดยใช้ PigStorage ('') เป็น (FName: chararray, LName: chararray, MobileNo: chararray, City: chararray, Profession: chararray) B = FOREACH สร้าง FName, MobileNo, Profession DUMP ข
บันทึกและปิดไฟล์
- คำสั่งแรกจะโหลดไฟล์ 'information.txt' เป็นตัวแปร A พร้อมด้วยสคีมาทางอ้อม (FName, LName, MobileNo, City, Profession)
- คำสั่งที่สองโหลดข้อมูลที่ต้องการจากตัวแปร A ถึงตัวแปร B
- บรรทัดที่สามแสดงเนื้อหาของตัวแปร B บนเทอร์มินัล / คอนโซล
ขั้นตอนที่ 2: เรียกใช้สคริปต์ Apache Pig
ในการดำเนินการสคริปต์หมูในโหมด HDFS ให้รันคำสั่งต่อไปนี้:
คำสั่ง : หมู /home/edureka/output.pig
หลังจากการดำเนินการเสร็จสิ้นให้ตรวจสอบผลลัพธ์ ภาพด้านล่างนี้แสดงผลลัพธ์และแผนที่กลางและฟังก์ชันลด
ภาพด้านล่างแสดงให้เห็นว่าสคริปต์ทำงานสำเร็จ
ภาพด้านล่างแสดงผลลัพธ์ของสคริปต์ของเรา
ขอแสดงความยินดีที่เรียกใช้สคริปต์ Apache Pig ตัวแรกของคุณสำเร็จ!
ตอนนี้คุณรู้วิธีสร้างและเรียกใช้สคริปต์ Apache Pig ดังนั้นบล็อกถัดไปของเราใน จะครอบคลุมถึงวิธีการ สร้าง UDF (User Defined Functions) ใน Apache Pig และดำเนินการในโหมด MapReduce / HDFS
awt ใน java คืออะไร
ตอนนี้คุณได้สร้างและเรียกใช้ Apache Pig Script แล้วให้ตรวจสอบไฟล์ โดย Edureka บริษัท การเรียนรู้ออนไลน์ที่เชื่อถือได้ซึ่งมีเครือข่ายผู้เรียนที่พึงพอใจมากกว่า 250,000 คนกระจายอยู่ทั่วโลก หลักสูตรการฝึกอบรม Edureka Big Data Hadoop Certification ช่วยให้ผู้เรียนมีความเชี่ยวชาญใน HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume และ Sqoop โดยใช้กรณีการใช้งานแบบเรียลไทม์ในโดเมนการค้าปลีกโซเชียลมีเดียการบินการท่องเที่ยวการเงิน
มีคำถามสำหรับเรา? โปรดระบุไว้ในส่วนความคิดเห็นแล้วเราจะติดต่อกลับไป