Apache Sqoop Tutorial - นำเข้า / ส่งออกข้อมูลระหว่าง HDFS และ RDBMS



Apache Sqoop Tutorial: Sqoop เป็นเครื่องมือสำหรับถ่ายโอนข้อมูลระหว่าง Hadoop และฐานข้อมูลเชิงสัมพันธ์ บล็อกนี้ครอบคลุมการนำเข้าและส่งออก Sooop จาก MySQL

ก่อนที่จะเริ่มต้นด้วยบทช่วยสอน Apache Sqoop นี้ให้เราย้อนกลับไป คุณจำความสำคัญของการนำเข้าข้อมูลได้หรือไม่ตามที่เราพูดถึงในบล็อกก่อนหน้านี้ Apache Flume . ตอนนี้ดังที่เราทราบแล้วว่า Apache Flume เป็นเครื่องมือการนำเข้าข้อมูลสำหรับแหล่งที่มาที่ไม่มีโครงสร้าง แต่องค์กรจะเก็บข้อมูลการดำเนินงานไว้ในฐานข้อมูลเชิงสัมพันธ์ ดังนั้นจึงจำเป็นต้องมีเครื่องมือที่สามารถนำเข้าและส่งออกข้อมูลจากฐานข้อมูลเชิงสัมพันธ์ได้ นี่คือสาเหตุที่ Apache Sqoop ถือกำเนิดขึ้น Sqoop สามารถรวมเข้ากับ Hadoop และดัมพ์ข้อมูลที่มีโครงสร้างจากฐานข้อมูลเชิงสัมพันธ์บน HDFS ได้อย่างง่ายดายซึ่งเป็นการเพิ่มประสิทธิภาพของ Hadoop นี่คือเหตุผล, มอบความรู้ด้านเสียงเกี่ยวกับ Apache Sqoop และ Flume

เริ่มแรก Sqoop ได้รับการพัฒนาและดูแลโดย Cloudera ต่อมาเมื่อวันที่ 23 กรกฎาคม พ.ศ. 2554 ได้รับการบ่มเพาะโดย Apache ในเดือนเมษายน 2555 โครงการ Sqoop ได้รับการเลื่อนตำแหน่งเป็นโครงการระดับบนสุดของ Apache





ในบล็อกการสอน Apache Flume นี้เราจะกล่าวถึง:



วิธีสร้างพารามิเตอร์ในฉาก

เราจะเริ่มการสอน Apache Sqoop นี้ด้วยการแนะนำ Apache Sqoop จากนั้นเราจะเข้าใจข้อดีของการใช้ Apache Sqoop

บทช่วยสอน Apache Sqoop: บทนำ Sqoop

Apache Sqoop - บทช่วยสอน Apache Sqoop - Edurekaโดยทั่วไปแอปพลิเคชันจะโต้ตอบกับฐานข้อมูลเชิงสัมพันธ์โดยใช้ RDBMS ดังนั้นจึงทำให้ฐานข้อมูลเชิงสัมพันธ์เป็นหนึ่งในแหล่งข้อมูลที่สำคัญที่สุดในการสร้างข้อมูลขนาดใหญ่ ข้อมูลดังกล่าวถูกเก็บไว้ในเซิร์ฟเวอร์ RDB ในโครงสร้างเชิงสัมพันธ์ ที่นี่ Apache Sqoop มีบทบาทสำคัญใน ให้การโต้ตอบที่เป็นไปได้ระหว่างเซิร์ฟเวอร์ฐานข้อมูลเชิงสัมพันธ์และ HDFS

Apache Sqoop เป็นเครื่องมือใน ซึ่งออกแบบมาเพื่อถ่ายโอนข้อมูลระหว่าง HDFS (พื้นที่จัดเก็บ Hadoop) และเซิร์ฟเวอร์ฐานข้อมูลเชิงสัมพันธ์เช่น MySQL, Oracle RDB, SQLite, Teradata, Netezza, Postgres เป็นต้น Apache Sqoop นำเข้าข้อมูลจากฐานข้อมูลเชิงสัมพันธ์ไปยัง HDFS และส่งออกข้อมูลจาก HDFS ไปยังฐานข้อมูลเชิงสัมพันธ์ ถ่ายโอนข้อมูลจำนวนมากระหว่าง Hadoop และที่เก็บข้อมูลภายนอกได้อย่างมีประสิทธิภาพเช่นคลังข้อมูลขององค์กรฐานข้อมูลเชิงสัมพันธ์ ฯลฯ



นี่คือสิ่งที่ Sqoop มีชื่อ -“ SQ L ถึง Had เปิด & Hadoop เป็น SQL”

นอกจากนี้ Sqoop ยังใช้เพื่อนำเข้าข้อมูลจากแหล่งข้อมูลภายนอกไปยังเครื่องมือของ Hadoop Ecosystem เช่น รัง & HBase .

ตอนนี้อย่างที่เรารู้ว่า Apache Sqoop คืออะไร ดังนั้นให้เราก้าวไปข้างหน้าในบทช่วยสอน Apache Sqoop ของเราและทำความเข้าใจว่าเหตุใดองค์กรต่างๆจึงใช้ Sqoop อย่างกว้างขวาง

Apache Sqoop Tutorial: ทำไมต้อง Sqoop?

สำหรับนักพัฒนา Hadoop เกมจริงจะเริ่มหลังจากโหลดข้อมูลใน HDFS พวกเขาเล่นกับข้อมูลนี้เพื่อรับข้อมูลเชิงลึกต่างๆที่ซ่อนอยู่ในข้อมูลที่จัดเก็บใน HDFS

ดังนั้นสำหรับการวิเคราะห์นี้ข้อมูลที่อยู่ในระบบการจัดการฐานข้อมูลเชิงสัมพันธ์จำเป็นต้องถูกโอนไปยัง HDFS งานเขียน รหัสสำหรับการนำเข้าและส่งออกข้อมูลจากฐานข้อมูลเชิงสัมพันธ์ไปยัง HDFS นั้นไม่น่าสนใจและน่าเบื่อ นี่คือสิ่งที่ Apache Sqoop เข้ามาช่วยและขจัดความเจ็บปวดของพวกเขา โดยอัตโนมัติกระบวนการนำเข้าและส่งออกข้อมูล

Sqoop ทำให้ชีวิตของนักพัฒนาเป็นเรื่องง่ายด้วยการจัดหา CLI สำหรับการนำเข้าและส่งออกข้อมูล พวกเขาเพียงแค่ต้องให้ข้อมูลพื้นฐานเช่นการพิสูจน์ตัวตนฐานข้อมูลต้นทางปลายทางการดำเนินงาน ฯลฯ ดูแลส่วนที่เหลือ

Sqoop จะแปลงคำสั่งภายในเป็นงาน MapReduce ซึ่งจะถูกดำเนินการผ่าน HDFS ใช้เฟรมเวิร์ก YARN เพื่อนำเข้าและส่งออกข้อมูลซึ่งให้ความทนทานต่อความผิดพลาดที่ด้านบนของความขนาน

ก้าวไปข้างหน้าในบล็อก Sqoop Tutorial นี้เราจะเข้าใจคุณสมบัติหลักของ Sqoop จากนั้นเราจะไปยังสถาปัตยกรรม Apache Sqoop

Apache Sqoop Tutorial: คุณสมบัติหลักของ Sqoop

Sqoop มีคุณสมบัติเด่นมากมายเช่น:

  1. โหลดเต็ม : Apache Sqoop สามารถโหลดทั้งตารางได้ด้วยคำสั่งเดียว คุณยังสามารถโหลดตารางทั้งหมดจากฐานข้อมูลโดยใช้คำสั่งเดียว
  2. เพิ่มขึ้น โหลด : Apache Sqoop ยังมีสิ่งอำนวยความสะดวกในการโหลดที่เพิ่มขึ้นซึ่งคุณสามารถโหลดบางส่วนของตารางได้ทุกเมื่อที่มีการอัปเดต
  3. ขนาน นำเข้าส่งออก : Sqoop ใช้เฟรมเวิร์ก YARN เพื่อนำเข้าและส่งออกข้อมูลซึ่งให้ความทนทานต่อความผิดพลาดที่ด้านบนของความขนาน
  4. นำเข้า ผล ของ SQL แบบสอบถาม : คุณยังสามารถนำเข้าผลลัพธ์ที่ส่งคืนจากแบบสอบถาม SQL ใน HDFS
  5. การบีบอัด : คุณสามารถบีบอัดข้อมูลของคุณโดยใช้อัลกอริทึม deflate (gzip) ด้วยอาร์กิวเมนต์ –compress หรือโดยการระบุอาร์กิวเมนต์ –compression-codec คุณยังสามารถโหลดตารางที่บีบอัดได้ อาปาเช่ไฮฟ์ .
  6. ตัวเชื่อมต่อ สำหรับ ทั้งหมด รายใหญ่ RDBMS ฐานข้อมูล : Apache Sqoop มีตัวเชื่อมต่อสำหรับฐานข้อมูล RDBMS หลายฐานข้อมูลครอบคลุมเส้นรอบวงเกือบทั้งหมด
  7. Kerberos ความปลอดภัย บูรณาการ : Kerberos เป็นโปรโตคอลการตรวจสอบความถูกต้องของเครือข่ายคอมพิวเตอร์ซึ่งทำงานบนพื้นฐานของ 'ตั๋ว' เพื่อให้โหนดที่สื่อสารผ่านเครือข่ายที่ไม่ปลอดภัยสามารถพิสูจน์ตัวตนของตนต่อกันและกันได้อย่างปลอดภัย Sqoop รองรับการตรวจสอบสิทธิ์ Kerberos
  8. โหลด ข้อมูล โดยตรง เป็น ไฮฟ์ / HBase : คุณสามารถโหลดข้อมูลลงในไฟล์ อาปาเช่ไฮฟ์ สำหรับการวิเคราะห์และถ่ายโอนข้อมูลของคุณใน HBase ซึ่งเป็นฐานข้อมูล NoSQL
  9. สนับสนุน สำหรับ การสะสม : คุณยังสามารถสั่งให้ Sqoop นำเข้าตารางใน Accumulo แทนที่จะเป็นไดเรกทอรีใน HDFS

สถาปัตยกรรมเป็นสิ่งที่ช่วยเพิ่มขีดความสามารถให้กับ Apache Sqoop ด้วยประโยชน์เหล่านี้ เมื่อเราทราบคุณสมบัติของ Apache Sqoop แล้วเรามาทำความเข้าใจสถาปัตยกรรมและการทำงานของ Apache Sqoop กันดีกว่า

บทช่วยสอน Apache Sqoop: Sqoop Architecture & Working

ให้เราเข้าใจว่า Apache Sqoop ทำงานอย่างไรโดยใช้แผนภาพด้านล่าง:

เครื่องมือนำเข้านำเข้าแต่ละตารางจาก RDBMS ไปยัง HDFS แต่ละแถวในตารางจะถือว่าเป็นระเบียนใน HDFS

เมื่อเราส่งคำสั่ง Sqoop งานหลักของเราจะถูกแบ่งออกเป็นงานย่อยซึ่งจัดการโดยแต่ละงานแผนที่ภายใน Map Task คืองานย่อยที่นำเข้าข้อมูลบางส่วนไปยัง Hadoop Ecosystem โดยรวมแล้วงานแผนที่ทั้งหมดจะนำเข้าข้อมูลทั้งหมด

การส่งออกยังทำงานในลักษณะเดียวกัน

เครื่องมือส่งออกจะส่งออกชุดไฟล์จาก HDFS กลับไปที่ RDBMS ไฟล์ที่กำหนดให้เป็นอินพุตไปยัง Sqoop มีระเบียนซึ่งเรียกว่าเป็นแถวในตาราง

เมื่อเราส่งงานของเรางานของเราจะถูกแมปลงในงานแผนที่ซึ่งนำข้อมูลส่วนใหญ่มาจาก HDFS กลุ่มเหล่านี้จะถูกส่งออกไปยังปลายทางข้อมูลที่มีโครงสร้าง เมื่อรวมกลุ่มข้อมูลที่ส่งออกทั้งหมดเหล่านี้เราจะได้รับข้อมูลทั้งหมดที่ปลายทางซึ่งในกรณีส่วนใหญ่คือ RDBMS (MYSQL / Oracle / SQL Server)

ต้องมีการลดเฟสในกรณีของการรวม แต่ Apache Sqoop เพียงแค่นำเข้าและส่งออกข้อมูลที่ไม่ได้ทำการรวบรวมใด ๆ งานแผนที่เรียกใช้ตัวทำแผนที่หลายตัวขึ้นอยู่กับจำนวนที่กำหนดโดยผู้ใช้ สำหรับการนำเข้า Sqoop แต่ละงาน mapper จะถูกกำหนดพร้อมกับข้อมูลบางส่วนที่จะนำเข้า Sqoop กระจายข้อมูลอินพุตระหว่างผู้ทำแผนที่อย่างเท่าเทียมกันเพื่อให้ได้ประสิทธิภาพสูง จากนั้นผู้ทำแผนที่แต่ละตัวจะสร้างการเชื่อมต่อกับฐานข้อมูลโดยใช้ JDBC และดึงข้อมูลส่วนหนึ่งที่กำหนดโดย Sqoop และเขียนลงใน HDFS หรือ Hive หรือ HBase ตามอาร์กิวเมนต์ที่ให้ไว้ใน CLI

ตอนนี้เราเข้าใจสถาปัตยกรรมและการทำงานของ Apache Sqoop แล้วเรามาทำความเข้าใจความแตกต่างระหว่าง Apache Flume และ Apache Sqoop กัน

บทช่วยสอน Apache Sqoop: Flume vs Sqoop

ความแตกต่างที่สำคัญระหว่าง Flume และ Sqoop คือ:

  • Flume นำเข้าเฉพาะข้อมูลที่ไม่มีโครงสร้างหรือข้อมูลกึ่งโครงสร้างเข้าสู่ HDFS
  • ในขณะที่ Sqoop สามารถนำเข้าและส่งออกข้อมูลที่มีโครงสร้างจาก RDBMS หรือคลังข้อมูลองค์กรไปยัง HDFS หรือในทางกลับกัน

ตอนนี้ความก้าวหน้าใน Apache Sqoop Tutorial ของเราถึงเวลาแล้วที่จะต้องใช้คำสั่ง Apache Sqoop

วิธีใช้ microsoft visual studio

Apache Sqoop Tutorial: คำสั่ง Sqoop

  • Sqoop - คำสั่งนำเข้า

คำสั่งนำเข้าใช้เพื่ออิมพอร์ตตารางจากฐานข้อมูลเชิงสัมพันธ์ไปยัง HDFS ในกรณีของเราเราจะนำเข้าตารางจากฐานข้อมูล MySQL ไปยัง HDFS

ดังที่คุณเห็นในภาพด้านล่างเรามีตารางพนักงานในฐานข้อมูลพนักงานซึ่งเราจะนำเข้าสู่ HDFS

คำสั่งสำหรับการนำเข้าตารางคือ:

นำเข้า sqoop - เชื่อมต่อ jdbc: mysql: // localhost / พนักงาน - ชื่อผู้ใช้ edureka - พนักงานโต๊ะ

ดังที่คุณเห็นในภาพด้านล่างหลังจากดำเนินการคำสั่งนี้งานแผนที่จะดำเนินการที่ส่วนหลัง

หลังจากรันโค้ดแล้วคุณสามารถตรวจสอบ Web UI ของ HDFS เช่น localhost: 50070 ที่นำเข้าข้อมูล

  • Sqoop - คำสั่งนำเข้าพร้อมไดเรกทอรีเป้าหมาย

คุณยังสามารถนำเข้าตารางในไดเร็กทอรีเฉพาะใน HDFS โดยใช้คำสั่งด้านล่าง:

นำเข้า sqoop - เชื่อมต่อ jdbc: mysql: // localhost / พนักงาน - ชื่อผู้ใช้ edureka - พนักงานโต๊ะ - ม 1 - เป้าหมาย-dir / พนักงาน

Sqoop นำเข้าข้อมูลพร้อมกันจากแหล่งฐานข้อมูลส่วนใหญ่ - ม คุณสมบัติถูกใช้เพื่อระบุจำนวนตัวแมปที่จะดำเนินการ

Sqoop นำเข้าข้อมูลพร้อมกันจากแหล่งฐานข้อมูลส่วนใหญ่ คุณสามารถระบุจำนวนงานแผนที่ (กระบวนการคู่ขนาน) เพื่อใช้ในการนำเข้าโดยใช้ไฟล์ - ม หรือ –num-mappers การโต้เถียง. อาร์กิวเมนต์เหล่านี้แต่ละข้อใช้ค่าจำนวนเต็มซึ่งสอดคล้องกับระดับของความขนานในการใช้

คุณสามารถควบคุมจำนวนตัวทำแผนที่ได้โดยไม่ขึ้นกับจำนวนไฟล์ที่มีอยู่ในไดเร็กทอรี ประสิทธิภาพการส่งออกขึ้นอยู่กับระดับของความขนาน ตามค่าเริ่มต้น Sqoop จะใช้งานสี่อย่างควบคู่กันสำหรับกระบวนการส่งออก สิ่งนี้อาจไม่เหมาะสมคุณจะต้องทดลองกับการตั้งค่าเฉพาะของคุณเอง งานเพิ่มเติมอาจให้การทำงานพร้อมกันที่ดีขึ้น แต่ถ้าฐานข้อมูลมีปัญหาคอขวดในการอัปเดตดัชนีการเรียกใช้ทริกเกอร์และอื่น ๆ การโหลดเพิ่มเติมอาจทำให้ประสิทธิภาพลดลง

คุณจะเห็นในภาพด้านล่างว่าจำนวนงาน mapper คือ 1

จำนวนไฟล์ที่สร้างขึ้นในขณะที่อิมพอร์ตตาราง MySQL จะเท่ากับจำนวนของ mapper ที่สร้างขึ้น

  • Sqoop - คำสั่งนำเข้าด้วย Where Clause

คุณสามารถนำเข้าชุดย่อยของตารางโดยใช้อนุประโยค 'where' ในเครื่องมือนำเข้า Sqoop เรียกใช้แบบสอบถาม SQL ที่เกี่ยวข้องในเซิร์ฟเวอร์ฐานข้อมูลที่เกี่ยวข้องและเก็บผลลัพธ์ไว้ในไดเร็กทอรีเป้าหมายใน HDFS คุณสามารถใช้คำสั่งต่อไปนี้เพื่อนำเข้าข้อมูลด้วย ' ที่ไหน ‘ประโยค:

นำเข้า sqoop - เชื่อมต่อ jdbc: mysql: // localhost / พนักงาน - ชื่อผู้ใช้ edureka - โต๊ะทำงาน - ม 3 - ที่ไหน 'emp_no & gt 49000' --target-dir / Latest_Employees

  • Sqoop - การนำเข้าที่เพิ่มขึ้น

Sqoop มีโหมดการนำเข้าแบบเพิ่มหน่วยซึ่งสามารถใช้เพื่อดึงเฉพาะแถวที่ใหม่กว่าชุดแถวที่นำเข้าก่อนหน้านี้ Sqoop รองรับการนำเข้าแบบเพิ่มหน่วยสองประเภท: ผนวก และ lastmodified . คุณสามารถใช้อาร์กิวเมนต์ –incremental เพื่อระบุประเภทของการนำเข้าแบบเพิ่มหน่วยที่จะดำเนินการ

คุณควรระบุ ผนวก โหมดเมื่อนำเข้าตารางที่มีการเพิ่มแถวใหม่อย่างต่อเนื่องโดยเพิ่มค่า id แถว คุณระบุคอลัมน์ที่มี id ของแถวด้วย - ตรวจสอบคอลัมน์ . Sqoop นำเข้าแถวที่คอลัมน์ตรวจสอบมีค่ามากกว่าที่ระบุด้วย - ค่าสุดท้าย .

มีการเรียกกลยุทธ์การอัปเดตตารางทางเลือกที่รองรับโดย Sqoop lastmodified โหมด. คุณควรใช้สิ่งนี้เมื่อแถวของตารางต้นทางอาจได้รับการอัปเดตและการอัปเดตแต่ละรายการจะตั้งค่าของคอลัมน์ที่แก้ไขล่าสุดเป็นเวลาประทับปัจจุบัน

เมื่อเรียกใช้การนำเข้าในภายหลังคุณควรระบุ - ค่าสุดท้าย ด้วยวิธีนี้เพื่อให้แน่ใจว่าคุณนำเข้าเฉพาะข้อมูลใหม่หรือข้อมูลที่อัปเดต สิ่งนี้ได้รับการจัดการโดยอัตโนมัติโดยการสร้างการนำเข้าแบบเพิ่มหน่วยเป็นงานที่บันทึกไว้ซึ่งเป็นกลไกที่ต้องการสำหรับการดำเนินการนำเข้าแบบเพิ่มหน่วยที่เกิดซ้ำ

ขั้นแรกเรากำลังแทรกแถวใหม่ซึ่งจะได้รับการอัปเดตใน HDFS ของเรา

คำสั่งสำหรับการนำเข้าแบบเพิ่มหน่วยคือ:

นำเข้า sqoop - เชื่อมต่อ jdbc: mysql: // localhost / พนักงาน - ชื่อผู้ใช้ edureka - พนักงานโต๊ะ - เป้าหมาย-dir / Latest_Employees - ผนวก - ตรวจสอบคอลัมน์ emp_no - ค่าสุดท้าย 499999

แผนที่แฮชเทียบกับตารางแฮช

คุณสามารถดูในภาพด้านล่างไฟล์ใหม่ถูกสร้างขึ้นด้วยข้อมูลที่อัปเดต

  • Sqoop - นำเข้าตารางทั้งหมด

คุณสามารถนำเข้าตารางทั้งหมดจากเซิร์ฟเวอร์ฐานข้อมูล RDBMS ไปยัง HDFS ข้อมูลตารางแต่ละรายการจะถูกเก็บไว้ในไดเร็กทอรีแยกต่างหากและชื่อไดเร็กทอรีจะเหมือนกับชื่อตาราง จำเป็นต้องมีทุกตารางในฐานข้อมูลนั้นต้องมีฟิลด์คีย์หลัก คำสั่งสำหรับการนำเข้าตารางทั้งหมดจากฐานข้อมูลคือ:

sqoop import-all-tables - เชื่อมต่อ jdbc: mysql: // localhost / พนักงาน - ชื่อผู้ใช้ edureka

  • Sqoop - แสดงรายการฐานข้อมูล

คุณสามารถแสดงรายการฐานข้อมูลที่มีอยู่ในฐานข้อมูลความสัมพันธ์โดยใช้ Sqoop เครื่องมือ Sqoop list-databases จะแยกวิเคราะห์และเรียกใช้การสืบค้น 'SHOW DATABASES' กับเซิร์ฟเวอร์ฐานข้อมูล คำสั่งสำหรับการแสดงรายการฐานข้อมูลคือ:

sqoop list-databases - เชื่อมต่อ jdbc: mysql: // localhost / - ชื่อผู้ใช้ edureka

  • Sqoop - รายการตาราง

คุณยังสามารถแสดงรายการตารางของฐานข้อมูลเฉพาะในเซิร์ฟเวอร์ฐานข้อมูล MySQL โดยใช้ Sqoop เครื่องมือตารางรายการ Sqoop จะแยกวิเคราะห์และดำเนินการค้นหา 'SHOW TABLES' คำสั่งสำหรับแสดงรายการตารางเป็นฐานข้อมูลคือ:

ตารางรายการ sqoop - เชื่อมต่อ jdbc: mysql: // localhost / พนักงาน - ชื่อผู้ใช้ edureka

  • Sqoop - ส่งออก

ดังที่เราได้กล่าวไว้ข้างต้นคุณยังสามารถส่งออกข้อมูลจาก HDFS ไปยังฐานข้อมูล RDBMS ตารางเป้าหมายต้องมีอยู่ในฐานข้อมูลเป้าหมายข้อมูลจะถูกจัดเก็บเป็นบันทึกใน HDFS เร็กคอร์ดเหล่านี้ถูกอ่านและแยกวิเคราะห์และคั่นด้วยตัวคั่นที่ผู้ใช้ระบุการดำเนินการเริ่มต้นคือการแทรกบันทึกทั้งหมดจากไฟล์อินพุตไปยังตารางฐานข้อมูลโดยใช้คำสั่ง INSERT ในโหมดอัพเดต Sqoop จะสร้างคำสั่ง UPDATE ที่แทนที่เรกคอร์ดที่มีอยู่ลงในฐานข้อมูล

ก่อนอื่นเรากำลังสร้างตารางว่างซึ่งเราจะส่งออกข้อมูลของเรา

คำสั่งในการเอ็กซ์พอร์ตข้อมูลจาก HDFS ไปยังฐานข้อมูลเชิงสัมพันธ์คือ:

การส่งออก sqoop - เชื่อมต่อ jdbc: mysql: // localhost / พนักงาน - ชื่อผู้ใช้ edureka --table emp --export-dir / user / edureka / workers

  • Sqoop - Codegen

ในแอปพลิเคชันเชิงวัตถุทุกตารางฐานข้อมูลจะมีคลาส Data Access Object หนึ่งคลาสที่มีเมธอด 'getter' และ 'setter' เพื่อเริ่มต้นอ็อบเจ็กต์ Codegen สร้างคลาส DAO โดยอัตโนมัติ สร้างคลาส DAO ใน Java ขึ้นอยู่กับโครงสร้างตาราง Schema

คำสั่งสำหรับการสร้างโค้ด java คือ:

sqoop codegen - เชื่อมต่อ jdbc: mysql: // localhost / พนักงาน - ชื่อผู้ใช้ edureka - พนักงานโต๊ะ

คุณสามารถดูเส้นทางในภาพด้านบนที่สร้างรหัส ให้เราไปตามเส้นทางและตรวจสอบไฟล์ที่สร้างขึ้น

ฉันหวังว่าบล็อกนี้จะให้ข้อมูลและเพิ่มมูลค่าให้กับคุณ หากคุณสนใจที่จะเรียนรู้เพิ่มเติมคุณสามารถผ่านสิ่งนี้ได้ ซึ่งจะบอกคุณเกี่ยวกับ Big Data และวิธีที่ Hadoop แก้ปัญหาที่เกี่ยวข้องกับ Big Data

ตอนนี้คุณเข้าใจ Apache Sqoop แล้วลองดูไฟล์ โดย Edureka บริษัท การเรียนรู้ออนไลน์ที่เชื่อถือได้ซึ่งมีเครือข่ายผู้เรียนที่พึงพอใจมากกว่า 250,000 คนกระจายอยู่ทั่วโลก หลักสูตรการฝึกอบรม Edureka Big Data Hadoop Certification ช่วยให้ผู้เรียนมีความเชี่ยวชาญใน HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume และ Sqoop โดยใช้กรณีการใช้งานแบบเรียลไทม์ในโดเมนการค้าปลีกโซเชียลมีเดียการบินการท่องเที่ยวการเงิน

มีคำถามสำหรับเรา? โปรดระบุไว้ในส่วนความคิดเห็นแล้วเราจะติดต่อกลับไป