Hadoop 2.0 - คำถามที่พบบ่อย



ความสนใจใน Hadoop เพิ่มขึ้นเป็นหลายเท่าในช่วงสองสามปีที่ผ่านมา โพสต์นี้ตอบคำถามของคุณและคลายข้อสงสัยมากมายเกี่ยวกับ Hadoop 2.0 และการใช้งาน

นี่คือโพสต์ติดตามผลพร้อมคำตอบสำหรับคำถามที่พบบ่อยระหว่างการสัมมนาทางเว็บสาธารณะโดย edureka! บน .

คำถามที่พบบ่อยเกี่ยวกับ Hadoop

Deepak:





Hadoop คืออะไร?
Apache Hadoop เป็นเฟรมเวิร์กซอฟต์แวร์โอเพ่นซอร์สสำหรับการจัดเก็บและการประมวลผลชุดข้อมูลขนาดใหญ่บนกลุ่มฮาร์ดแวร์สินค้าโภคภัณฑ์ เป็นเฟรมเวิร์กซอฟต์แวร์การจัดการข้อมูลแบบโอเพนซอร์สที่มีการจัดเก็บข้อมูลแบบขยายขนาดและการประมวลผลแบบกระจาย กำลังสร้างและใช้งานโดยชุมชนผู้มีส่วนร่วมและผู้ใช้ทั่วโลก

อ่านเพิ่มเติมได้ที่โพสต์บล็อก Hadoop ของเรา และ .



ค้นหา:

ข้อมูลขนาดใหญ่ใช้กรณีใดบ้างในอุตสาหกรรมการเดินทางการขนส่งและสายการบิน

ซันนี่:



คุณช่วยชี้ให้เราเห็นตัวอย่างชีวิตจริงของ Hadoop Implementation ที่เราศึกษาได้หรือไม่?
เราคือ liviของในยุคของความแออัดที่เพิ่มขึ้นในช่วงเวลาเร่งด่วน ผู้ประกอบการขนส่งพยายามหาวิธีที่คุ้มค่าในการให้บริการอยู่เสมอในขณะเดียวกันก็รักษากองการขนส่งให้อยู่ในสภาพที่ดี การใช้ Big Data Analytics ในโดเมนนี้สามารถช่วยองค์กรด้วย:

  • การเพิ่มประสิทธิภาพเส้นทาง
  • การวิเคราะห์เชิงพื้นที่
  • รูปแบบการจราจรและความแออัด
  • การบำรุงรักษาสินทรัพย์
  • การจัดการรายได้ (เช่นสายการบิน)
  • การจัดการสินค้าคงคลัง
  • การอนุรักษ์เชื้อเพลิง
  • การตลาดตามเป้าหมาย
  • ความภักดีของลูกค้า
  • การพยากรณ์ความจุ
  • ประสิทธิภาพของเครือข่ายและการเพิ่มประสิทธิภาพ

กรณีการใช้งานจริงไม่กี่กรณี ได้แก่ :
ถึง) การกำหนดต้นทุนการบิน
b) การสร้างแบบจำลองการคาดการณ์สำหรับโลจิสติกส์สินค้าคงคลัง
ค) Orbitz Worldwide - รูปแบบการซื้อของลูกค้า
ง) การปรับใช้ Hadoop Super-Scale หกรายการ
คือ) Hadoop - มากกว่าการเพิ่ม
ฉ) Hadoop ในองค์กร

Salesforce service cloud คืออะไร

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับการใช้งาน Hadoop Real-world ได้ที่:

Hirdesh:

Hadoop เกี่ยวกับการจัดการและประมวลผลข้อมูลหรือไม่? เราจะไปที่ Reporting และ Visual Analytics ได้อย่างไร Qlikview, Tableau สามารถใช้กับ Hadoop ได้หรือไม่?
ส่วนประกอบหลักของ Hadoop HDFS และ MapReduce เป็นข้อมูลเกี่ยวกับการจัดเก็บและประมวลผลข้อมูล HDFS สำหรับการจัดเก็บและ MapReduce สำหรับการประมวลผล แต่ส่วนประกอบหลักของ Hadoop เช่น Pig และ Hive ใช้สำหรับการวิเคราะห์ สำหรับ Visual Reports Tableau สามารถเชื่อมต่อ QlikView กับ Hadoop for Visual Reporting ได้

Amit:

Hadoop เทียบกับ mongoDB
MongoDB ใช้เป็นที่เก็บข้อมูลแบบเรียลไทม์“ Operational” ในขณะที่ Hadoop ใช้สำหรับการประมวลผลและวิเคราะห์ข้อมูลแบทช์แบบออฟไลน์
mongoDB เป็นที่เก็บข้อมูลที่เน้นเอกสารและไม่ใช้สคีมาซึ่งคุณสามารถใช้ในเว็บแอปพลิเคชันเป็นแบ็กเอนด์แทน RDBMS เช่น MySQL ในขณะที่ Hadoop ส่วนใหญ่ใช้เป็นพื้นที่จัดเก็บข้อมูลแบบขยายขนาดและการประมวลผลแบบกระจายสำหรับข้อมูลจำนวนมาก

อ่านเพิ่มเติมได้ที่ mongoDB และ Hadoop บล็อกโพสต์ .

ที่นี่:

Apache Spark เป็นส่วนหนึ่งของ Hadoop หรือไม่ เหรอ?
Apache Spark เป็นเครื่องมือที่รวดเร็วและใช้งานทั่วไปสำหรับการประมวลผลข้อมูลขนาดใหญ่ Spark เร็วกว่าและรองรับการประมวลผล In-Memory Spark Execution Engine ขยายประเภทของปริมาณงานคอมพิวเตอร์ที่ Hadoop สามารถจัดการได้และสามารถทำงานบนคลัสเตอร์ Hadoop 2.0 YARN เป็นระบบกรอบการประมวลผลที่อนุญาตให้จัดเก็บวัตถุในหน่วยความจำ (RDD) พร้อมกับความสามารถในการประมวลผลวัตถุเหล่านี้โดยใช้การปิด Scala รองรับการประมวลผลกราฟคลังข้อมูลแมชชีนเลิร์นนิงและสตรีม

หากคุณมีคลัสเตอร์ Hadoop 2 คุณสามารถเรียกใช้ Spark ได้โดยไม่ต้องติดตั้งใด ๆ มิฉะนั้น Spark จะทำงานแบบสแตนด์อโลนหรือบน EC2 หรือ Mesos ได้ง่าย สามารถอ่านได้จาก HDFS, HBase, Cassandra และแหล่งข้อมูล Hadoop ใด ๆ

อ่านเพิ่มเติมเกี่ยวกับ Spark ที่นี่ .

ปรา:

Apache Flume คืออะไร?
Apache Flume เป็นระบบที่กระจายเชื่อถือได้และพร้อมใช้งานสำหรับการรวบรวมรวบรวมและย้ายข้อมูลบันทึกจำนวนมากจากแหล่งข้อมูลต่างๆไปยังแหล่งข้อมูลส่วนกลางได้อย่างมีประสิทธิภาพ

Amit:

SQL เทียบกับฐานข้อมูล NO-SQL
ฐานข้อมูล NoSQL เป็นฐานข้อมูลรุ่นต่อไปและส่วนใหญ่จะกล่าวถึงบางประเด็น

  • ไม่ใช่เชิงสัมพันธ์
  • กระจาย
  • โอเพ่นซอร์ส
  • ปรับขนาดได้ในแนวนอน

มักจะใช้ลักษณะอื่น ๆ เช่นไม่มีสคีมารองรับการจำลองแบบง่าย API แบบง่ายในที่สุดก็สอดคล้องกัน / BASE (ไม่ใช่ ACID) ข้อมูลจำนวนมากและอื่น ๆ ตัวอย่างเช่นความแตกต่างบางประการ ได้แก่ :

  • ฐานข้อมูล NoSQL ขยายตามแนวนอนเพิ่มเซิร์ฟเวอร์มากขึ้นเพื่อจัดการกับโหลดที่มากขึ้น ในทางกลับกันฐานข้อมูล SQL มักจะขยายขนาดในแนวตั้งโดยเพิ่มทรัพยากรให้กับเซิร์ฟเวอร์เครื่องเดียวมากขึ้นเมื่อปริมาณการใช้งานเพิ่มขึ้น
  • ฐานข้อมูล SQL ต้องการให้คุณกำหนดสกีมาของคุณก่อนที่จะเพิ่มข้อมูลและข้อมูลใด ๆ แต่ฐานข้อมูล NoSQL นั้นไม่มีสคีมาไม่จำเป็นต้องมีการกำหนดสคีมาล่วงหน้า
  • ฐานข้อมูล SQL เป็นตารางที่ยึดตามแถวและคอลัมน์ตามหลักการ RDBMS ในขณะที่ฐานข้อมูล NoSQL เป็นเอกสารคู่คีย์ - ค่ากราฟหรือที่เก็บคอลัมน์กว้าง
  • ฐานข้อมูล SQL ใช้ SQL (ภาษาแบบสอบถามที่มีโครงสร้าง) สำหรับการกำหนดและจัดการข้อมูล ในฐานข้อมูล NoSQL แบบสอบถามจะแตกต่างกันไปในแต่ละฐานข้อมูล

ฐานข้อมูล SQL ยอดนิยม: MySQL, Oracle, Postgres และ MS-SQL
เป็นที่นิยม ฐานข้อมูล NoSQL: MongoDB, BigTable, Redis, RavenDb, Cassandra, HBase, Neo4j และ CouchDB

ตรวจสอบบล็อกของเราเกี่ยวกับ Hadoop และ NoSQL ฐานข้อมูลและข้อดีของฐานข้อมูลดังกล่าว:

โคเตะวาราโอะ:

Hadoop มีเทคโนโลยีคลัสเตอร์ในตัวหรือไม่?
Hadoop Cluster ใช้สถาปัตยกรรม Master-Slave ประกอบด้วย Single Master (NameNode) และ Cluster of Slaves (DataNodes) เพื่อจัดเก็บและประมวลผลข้อมูล Hadoop ได้รับการออกแบบมาให้ทำงานบนเครื่องจำนวนมากที่ไม่ใช้หน่วยความจำหรือดิสก์ร่วมกัน DataNodes เหล่านี้ถูกกำหนดค่าเป็นคลัสเตอร์โดยใช้ . Hadoop ใช้แนวคิดของการจำลองแบบเพื่อให้แน่ใจว่ามีสำเนาข้อมูลอย่างน้อยหนึ่งชุดในคลัสเตอร์ตลอดเวลา เนื่องจากมีสำเนาข้อมูลหลายชุดข้อมูลที่จัดเก็บไว้บนเซิร์ฟเวอร์ที่ออฟไลน์หรือตายจึงสามารถจำลองจากสำเนาที่ดีที่รู้จักได้โดยอัตโนมัติ

Dinesh:

งานใน Hadoop คืออะไร? อะไรคือสิ่งที่สามารถทำได้ผ่านงาน?
ใน Hadoop งานคือโปรแกรม MapReduce เพื่อประมวลผล / วิเคราะห์ข้อมูล จริงๆแล้วคำว่า MapReduce หมายถึงงานสองงานที่แยกจากกันและแตกต่างกันที่โปรแกรม Hadoop ดำเนินการ อย่างแรกคืองานแผนที่ซึ่งรับชุดข้อมูลและแปลงเป็นข้อมูลกลางอีกชุดหนึ่งโดยที่องค์ประกอบแต่ละรายการจะแบ่งออกเป็นคู่คีย์ - ค่า ส่วนที่สองของงาน MapReduce ซึ่งเป็นงานลดจะใช้เอาต์พุตจากแผนที่เป็นอินพุตและรวมคู่คีย์ - ค่าลงในคู่คีย์ - ค่ารวมที่มีขนาดเล็กลง ตามลำดับของชื่อ MapReduce แสดงเป็นนัยว่างาน Reduce จะดำเนินการหลังจากเสร็จสิ้นภารกิจแผนที่เสมอ อ่านเพิ่มเติมเกี่ยวกับ MapReduce Job .

สุขฤทธ์:

มีอะไรพิเศษเกี่ยวกับ NameNode เหรอ?
NameNode เป็นหัวใจของระบบไฟล์ HDFS มันจะเก็บข้อมูลเมตาเช่นแผนผังไดเร็กทอรีของไฟล์ทั้งหมดในระบบไฟล์และติดตามที่ข้อมูลไฟล์จะถูกเก็บไว้ในคลัสเตอร์ ข้อมูลจริงจะถูกเก็บไว้ใน DataNodes เป็นบล็อก HDFS
แอปพลิเคชันไคลเอนต์คุยกับ NameNode ทุกครั้งที่ต้องการค้นหาไฟล์หรือเมื่อใดก็ตามที่ต้องการเพิ่ม / คัดลอก / ย้าย / ลบไฟล์ NameNode ตอบสนองการร้องขอที่ประสบความสำเร็จโดยส่งคืนรายการเซิร์ฟเวอร์ DataNodes ที่เกี่ยวข้องซึ่งข้อมูลอยู่ อ่านเพิ่มเติมเกี่ยวกับสถาปัตยกรรม HDFS .

Dinesh:

Hadoop 2.0 ออกสู่ตลาดเมื่อใด
Apache Software foundation (ASF) ซึ่งเป็นกลุ่มโอเพ่นซอร์สที่จัดการ Hadoop Development ได้ประกาศในบล็อกเมื่อวันที่ 15 ตุลาคม 2013 ว่า Hadoop 2.0 พร้อมใช้งานทั่วไป (GA) แล้ว การประกาศนี้หมายความว่าหลังจากรอมานาน Apache Hadoop 2.0 และ YARN ก็พร้อมสำหรับการปรับใช้งานจริงแล้ว เพิ่มเติมเกี่ยวกับ บล็อก

Dinesh:

ตัวอย่างบางส่วนของแอปพลิเคชันข้อมูลขนาดใหญ่ที่ไม่ใช่ MapReduce มีอะไรบ้าง
MapReduce เหมาะสำหรับแอปพลิเคชันจำนวนมากในการแก้ปัญหา Big Data แต่ไม่ใช่สำหรับทุกสิ่งที่โมเดลการเขียนโปรแกรมอื่น ๆ ตอบสนองความต้องการได้ดีกว่าเช่นการประมวลผลกราฟ (เช่น Google Pregel / Apache Giraph) และการสร้างแบบจำลองซ้ำด้วย Message Passing Interface (MPI)

มาริช:

ข้อมูลจัดเรียงและจัดทำดัชนีใน HDFS อย่างไร?
ข้อมูลถูกแบ่งออกเป็นบล็อกขนาด 64 MB (กำหนดค่าได้โดยพารามิเตอร์) และถูกเก็บไว้ใน HDFS NameNode เก็บข้อมูลการจัดเก็บของบล็อกเหล่านี้เป็น Block ID ใน RAM (NameNode Metadata) งาน MapReduce สามารถเข้าถึงบล็อกเหล่านี้โดยใช้ข้อมูลเมตาที่เก็บไว้ใน NameNode RAM

ชัชวาล:

เราสามารถใช้ทั้ง MapReduce (MRv1) และ MRv2 (พร้อม YARN) ในคลัสเตอร์เดียวกันได้หรือไม่
Hadoop 2.0 ได้เปิดตัว YARN เฟรมเวิร์กใหม่เพื่อเขียนและรันแอพพลิเคชั่นต่างๆบน Hadoop ดังนั้น YARN และ MapReduce จึงเป็นสองแนวคิดที่แตกต่างกันใน Hadoop 2.0 และไม่ควรผสมและใช้สลับกัน คำถามที่ถูกต้องคือ “ เป็นไปได้ไหมที่จะรันทั้ง MRv1 และ MRv2 บนคลัสเตอร์ Hadoop 2.0 ที่เปิดใช้งาน YARN” คำตอบสำหรับคำถามนี้คือ 'ไม่' แม้ว่า Hadoop Cluster สามารถกำหนดค่าให้รันทั้ง MRv1 และ MRv2 ได้ แต่สามารถรัน daemons เพียงชุดเดียวได้ตลอดเวลา ในที่สุดเฟรมเวิร์กทั้งสองนี้จะใช้ไฟล์คอนฟิกูเรชันเดียวกัน ( เส้นด้าย site.xml และ mapred-site.xml ) เพื่อเรียกใช้ daemons ดังนั้นจึงสามารถเปิดใช้งานการกำหนดค่าหนึ่งในสองการกำหนดค่าบน Hadoop Cluster

ตุ๊กตา:

อะไรคือความแตกต่างระหว่าง Next Generation MapReduce (MRv2) และ YARN?
YARN และ Next Generation MapReduce (MRv2) เป็นสองแนวคิดและเทคโนโลยีที่แตกต่างกันใน Hadoop 2.0 YARN เป็นเฟรมเวิร์กซอฟต์แวร์ที่สามารถใช้เพื่อรัน MRv2 ไม่เพียง แต่แอพพลิเคชั่นอื่น ๆ ด้วย MRv2 เป็นเฟรมเวิร์กของแอปพลิเคชันที่เขียนโดยใช้ YARN API และทำงานภายใน YARN

Bharat:

Hadoop 2.0 มีความเข้ากันได้แบบย้อนหลังสำหรับแอปพลิเคชัน Hadoop 1.x หรือไม่
เนฮา:

การโยกย้าย Hadoop 1.0 ถึง 2.0 ต้องใช้รหัสแอปพลิเคชันจำนวนมากหรือไม่ การโยกย้าย?
ไม่แอปพลิเคชันส่วนใหญ่พัฒนาโดยใช้ API“ org.apache.hadoop.mapred” สามารถทำงานบน YARN ได้โดยไม่ต้องคอมไพล์ใหม่ YARN เป็นไบนารีที่เข้ากันได้กับแอปพลิเคชัน MRv1 และสามารถใช้ 'bin / hadoop' เพื่อส่งแอปพลิเคชันเหล่านี้บน YARN อ่านเพิ่มเติมเกี่ยวกับเรื่องนี้ ที่นี่ .

เชอริน:

จะเกิดอะไรขึ้นถ้าโหนด Resource Manager ล้มเหลวใน Hadoop 2.0
ตั้งแต่ Hadoop Release 2.4.0 ยังมีการสนับสนุน High Availability สำหรับ Resource Manager ResourceManager ใช้ Apache ZooKeeper สำหรับความล้มเหลว เมื่อโหนด Resource Manager ล้มเหลวโหนดรองสามารถกู้คืนได้อย่างรวดเร็วผ่านสถานะคลัสเตอร์ที่บันทึกไว้ใน ZooKeeper ResourceManager เมื่อเกิดความล้มเหลวจะรีสตาร์ทแอปพลิเคชันทั้งหมดที่อยู่ในคิวและรัน

Sabbirali:

Apache’s Hadoop framework ทำงานบน Cloudera Hadoop ได้หรือไม่
Apache Hadoop เปิดตัวในปี 2548 พร้อมกับระบบประมวลผลหลัก MapReduce เพื่อรองรับการประมวลผลแบบกระจายของปริมาณงานข้อมูลขนาดใหญ่ที่จัดเก็บใน HDFS เป็นโครงการโอเพ่นซอร์สและมีการแจกแจงหลายแบบ (คล้ายกับ Linux) Cloudera Hadoop (CDH) เป็นหนึ่งในการกระจายจาก Cloudera การแจกแจงอื่น ๆ ที่คล้ายกัน ได้แก่ HortonWorks, MapR, Microsoft HDInsight, IBM InfoSphere BigInsights เป็นต้น

Arulvadivel:

วิธีง่ายๆในการติดตั้ง Hadoop บนแล็ปท็อปของฉันและลองย้ายฐานข้อมูล Oracle ไปยัง Hadoop หรือไม่?
คุณสามารถ เริ่มต้น ด้วย HortonWorks Sandbox หรือ Cloudera Quick VM บนแล็ปท็อปของคุณ (ที่มี RAM อย่างน้อย 4 GB และโปรเซสเซอร์ i3 หรือสูงกว่า) ใช้ SQOOP เพื่อย้ายข้อมูลจาก Oracle ไปยัง Hadoop ตามที่อธิบายไว้ ที่นี่ .

Bhabani:

หนังสือที่ดีที่สุดสำหรับการเรียนรู้ Hadoop คืออะไร?
เริ่มกับ Hadoop: คำแนะนำขั้นสุดท้าย โดย Tom White และ ปฏิบัติการ Hadoop โดย Eric Sammer

Mahendra:

มีการอ่านใด ๆ สำหรับ Hadoop 2.0 เหมือนกับ Hadoop คู่มือขั้นสุดท้ายหรือไม่?
ตรวจสอบ มาถึงล่าสุด บนชั้นหนังสือเขียนโดยผู้สร้าง Hadoop 2.0 เพียงไม่กี่คน

คอยติดตามคำถามเพิ่มเติมในชุดนี้