4 เหตุผลเชิงปฏิบัติในการเรียนรู้ Hadoop 2.0



เหตุผล 4 ประการในการอัปเกรดเป็น Hadoop 2.0 พูดถึงตลาดงาน Hadoop และวิธีที่จะช่วยให้คุณเร่งอาชีพได้โดยเปิดโอกาสในการทำงานมากมาย

ตอนที่ฉันยังเด็กฉันเคยรักซีรีส์ภาพยนตร์สตาร์วอร์ส ฉันชอบมากที่มีเทปวิดีโอเหล่านี้ของแต่ละคน ฉันเคยดูพวกเขาซ้ำแล้วซ้ำเล่า แล้วก็ถึงเวลาของเครื่องเล่นดีวีดีและฉันต้องได้รับภาพยนตร์เหล่านี้อีกครั้งในรูปแบบดีวีดี ฉันไม่มีความมั่นใจเกี่ยวกับการซื้อดีวีดีทั้งชุดอีกครั้งเพราะฉันต้องการสัมผัสกับเทคโนโลยีใหม่และเพลิดเพลินกับภาพยนตร์เรื่องโปรดของฉันต่อไปเช่นกัน สิ่งต่างๆนั้นยอดเยี่ยมมากจนกระทั่งเทคโนโลยีใหม่ Blu-ray ได้ถือกำเนิดขึ้น หลังจากซื้อภาพยนตร์สองครั้งแล้วฉันก็ไม่ได้รอคอยที่จะซื้อซ้ำอีกเลย ในบางครั้งฉันไม่ได้ใช้ความพยายามใด ๆ ที่จะ 'อัปเดต' ตัวเองโดยคิดว่าจะทำได้ดีหากไม่มีเทคโนโลยีนี้ และฉันก็สบายดี มันไม่ได้ส่งผลต่อชีวิตของฉันอยู่แล้ว แต่ฉันเห็นกระแสความเปลี่ยนแปลงและไม่สามารถแบ่งปันภาพยนตร์กับเพื่อน ๆ ได้เหมือนที่พวกเขาทำกัน ฉันรู้สึกเหมือนถูกทิ้ง





ในที่สุดฉันก็ออกไปรับภาพยนตร์ใน Blu-ray ฉันจำได้ว่าไม่ใช่เพราะฉันรักหนัง แต่เป็นเพราะคุณภาพของวิดีโอนั้นทำให้เหลือเชื่อ และเหนือสิ่งอื่นใดฉันได้รับภาพยนตร์ทั้งชุดใน Blu-ray Disc แผ่นเดียว

ความจำเป็นหรือความต้องการที่จะอัปเดตอยู่เสมอนั้นแข็งแกร่งที่สุดเมื่อพูดถึงอาชีพของเราเนื่องจากความเสี่ยงมีมากขึ้น เป็นสิ่งสำคัญที่จะต้องอยู่เหนือเกมของคุณ



4 เหตุผลในการเรียนรู้ Hadoop 2.0:

อย่างที่หลีกเลี่ยงไม่ได้การติดตามข่าวสารในอาชีพของเราอยู่เสมอกลายเป็นส่วนสำคัญในชีวิตของเรา อาจฟังดูน่ากลัวก็ไม่จำเป็นต้องตื่นตระหนกเพราะเทคโนโลยีไม่ได้เปลี่ยนแปลงไปอย่างรวดเร็วหรือรุนแรง แต่การพูดคุยและข้อมูลเกี่ยวกับเทคโนโลยีเหล่านี้และสิ่งต่างๆที่เราสามารถทำได้กับเทคโนโลยีเหล่านี้กำลังได้รับการเปิดเผย นี่คือเหตุผลบางประการที่คุณควรติดตามข่าวสารล่าสุด:

# 1: อย่าถูกไล่

เหตุผลในการเรียนรู้ Hadoop 2.0



การไม่ใส่ใจกับการอัปเดตล่าสุดในเทคโนโลยีอาจทำให้คุณดูเหมือนกวางที่ติดอยู่ในไฟหน้า ไม่ใช่ภาพที่ยิ้มแย้มแจ่มใสของความสามารถระดับมืออาชีพของคุณ การได้รับความทันสมัยจะทำให้คุณได้รับความเคารพจากเพื่อนร่วมงานในเรื่องทักษะทางวิชาชีพของคุณ อาจไม่จำเป็นต้องใช้ทุกสิ่งใหม่ที่คุณเรียนรู้ แต่การตระหนักถึงการอัปเดตเป็นสิ่งจำเป็น

ตัวอย่างเช่นเมื่อมีการพูดคุยเกี่ยวกับ Hadoop คุณสามารถแจ้งให้เพื่อนของคุณทราบว่า Hadoop 2.5.0 มีการปรับปรุงการพิสูจน์ตัวตนเมื่อใช้พร็อกซีเซิร์ฟเวอร์ HTTP และใน Hadoop เวอร์ชันเดียวกันนี้ยังมีข้อกำหนดสำหรับการเขียนลงใน Graphite โดยตรง

สิ่งสำคัญคือต้องอยู่เหนือการอัปเดตล่าสุดเมื่อองค์กรต่างๆกำลังคิดที่จะย้ายไปยัง Hadoop และการ ‘รู้’ สามารถสร้างความแตกต่างอย่างมากให้กับอาชีพของคุณ

# 2: มีความได้เปรียบในการแข่งขัน

ผู้เชี่ยวชาญที่มีความเชี่ยวชาญในสาขาของตนได้รับการยอมรับนับถือ และการติดตามข่าวสารอยู่เสมอเป็นวิธีที่ดีที่สุดในการอยู่อันดับต้น ๆ ความต้องการของคุณในการอัปเดตอยู่เสมอสะท้อนให้เห็นถึงความหลงใหลในงาน ด้วยการพัฒนาความเชี่ยวชาญในงานและอุตสาหกรรมของคุณคุณจะได้รับความไว้วางใจและความเคารพจากผู้คนรอบตัวคุณ จากมุมมองของผู้นำนี่เป็นสิ่งล้ำค่า!

แม้ว่าองค์กรของคุณจะยังคงใช้งาน Hadoop 1.0 อยู่ แต่การรู้คุณสมบัติล่าสุดทั้งหมดของ Hadoop 2 จะทำให้คุณไม่พลาดเพราะมันค่อนข้างใหม่และดีกว่าอย่างแน่นอน การเป็นคนแรกที่ได้เรียนรู้สิ่งนี้จะทำให้คุณได้เปรียบคนรอบข้าง

# 3: โอกาสใหม่

เป็นความจริงที่น่าเศร้าที่บทบาทปัจจุบันของเราเปลี่ยนแปลงไปเรื่อย ๆ เมื่อถึงเวลาต้องเพิ่มความรับผิดชอบและโอกาสในการทำงานใหม่ ๆ การติดตามแนวโน้มของอุตสาหกรรมทำให้คุณอยู่ในตำแหน่งที่ดีที่สุดในการคว้าโอกาสเหล่านี้

บริษัท ต่างๆเช่น Macy's, Lockheed Martin, California Creative Solutions, Capital One, CSpring, CACI International Inc. , Oracle, Yahoo !, American Express, BlueHawk, Aetna, Lawrence Livermore National Laboratory และอื่น ๆ อีกมากมายกำลังมองหาผู้ที่มีทักษะในคุณสมบัติล่าสุดของ Hadoop 2 เช่น YARN

# 4: ตัดสินใจได้ดีขึ้น

ข้อมูลเพิ่มเติมจะช่วยให้คุณตัดสินใจได้อย่างชาญฉลาดและตัดสินใจได้ดีขึ้น ซึ่งจะช่วยให้คุณรับรู้ถึงโอกาสและเพิ่มมูลค่าให้กับกลยุทธ์ขององค์กร

Hadoop 2 มีคุณสมบัติที่ช่วยเพิ่มความเร็วและลดค่าใช้จ่าย การแนะนำตัวเลือกเพื่อปรับปรุงประสิทธิภาพและเพิ่มความเร็วสามารถเพิ่มประสิทธิผลขององค์กรได้อย่างแน่นอน นี่คือคุณสมบัติบางอย่างของ Hadoop 2 ที่จะเป็นประโยชน์ต่อองค์กรและการแนะนำคุณสมบัติเหล่านี้จะช่วยส่งเสริมอาชีพของคุณด้วย

  • รองรับการใช้งาน Hadoop บน Microsoft Windows

  • การกระจายไบนารี MapReduce แบบง่ายผ่าน HDFS ใน YARN Distributed Cache

    c ++ เรียงลำดับอาร์เรย์
  • การสนับสนุนขั้นสูงสำหรับแอปพลิเคชันใหม่บน YARN ด้วย Application History Server และ Application Timeline Server

  • รองรับ HTTPS ใน HDFS อย่างสมบูรณ์

  • การรวม Kerberos สำหรับที่เก็บไทม์ไลน์ของ YARN

  • รองรับลำดับชั้นการจัดเก็บที่แตกต่างกันใน HDFS

  • แคชในหน่วยความจำสำหรับข้อมูล HDFS พร้อมการดูแลและการจัดการจากส่วนกลาง

  • การกระจายไบนารี MapReduce แบบง่ายผ่าน HDFS ใน YARN Distributed Cache

มีมากกว่าเหตุผลที่เป็นประโยชน์สำหรับการอัปเดตอยู่เสมอมีเหตุผลทางเทคนิคเช่นกัน Hadoop มีคุณสมบัติมากมายที่เป็นประโยชน์ต่อองค์กร การพิจารณาในเชิงลึกจะทำให้คุณเห็นภาพที่ชัดเจนว่าข้อดีคืออะไร

อัพเดตล่าสุดใน Hadoop คืออะไร?

ผลิตภัณฑ์ทุกชิ้นต้องผ่านขั้นตอนต่างๆของการเปิดตัวและมาพร้อมกับเวอร์ชันต่างๆ Hadoop ไม่มีข้อยกเว้นและมาพร้อมกับ Hadoop 2.0 Apache Foundation มาพร้อมกับ Hadoop รุ่นต่อ ๆ ไปเช่น Hadoop 2.1.0, Hadoop 2.4.0 และมาถึง Hadoop 2.5.1 ซึ่งเป็นเวอร์ชันล่าสุดที่เปิดตัวในเดือนกันยายน 2014

ทำไม Hadoop 2 จึงถูกปล่อยออกมา?

ด้วยเวอร์ชันใหม่มาพร้อมคุณสมบัติเพิ่มเติมและข้อบกพร่องที่ได้รับการแก้ไข ดังนั้นทุกครั้งที่คุณใช้ Hadoop เวอร์ชันใดรุ่นหนึ่งและคิดว่าสามารถเพิ่มคุณสมบัติบางอย่างได้หรือต้องแก้ไขข้อบกพร่องบางอย่างคุณต้องแจ้งให้คนที่ Apache Foundation ทราบ คนเหล่านี้จะทำงานกับมันและมอบผลิตภัณฑ์ที่ดีกว่าให้คุณในเวอร์ชันถัดไป

Hadoop 2 - ไม่ใช่แค่ตัวเลข

Hadoop 2 ไม่ใช่แค่ Hadoop เวอร์ชันล่าสุดเท่านั้น โดยทั่วไปแล้วมันเป็นสถาปัตยกรรมยุคที่สอง Arun Murthy ผู้ก่อตั้งและสถาปนิกของ Hortonworks ผู้จัดจำหน่าย Hadoop ยืนยันว่าความแตกต่างมีความสำคัญเนื่องจากจำนวนของวิศวกรรมใหม่ที่จำเป็นในการเคลื่อนย้าย Hadoop นอกเหนือจากการประมวลผลแบบแบทช์และเข้าสู่โลกของการวิเคราะห์แบบเรียลไทม์นั้นมีความสำคัญมาก

มาดูกันว่า Hadoop 2.0 แตกต่างจาก Hadoop 1.0 รุ่นก่อนอย่างไร เห็นได้ชัดว่ารุ่นที่เปิดตัวในภายหลังจะเหนือกว่ารุ่นก่อนหน้านี้ ต่อไปนี้คือการปรับปรุงที่สำคัญสี่ประการใน Hadoop 2.0 บน Hadoop 1.x:

  • HDFS Federation - ความสามารถในการปรับขนาดตามแนวนอนของ NameNode

  • NameNode High Availability - NameNode ไม่ใช่ Single Point of Failure อีกต่อไป

  • YARN - ความสามารถในการประมวลผลข้อมูลเทราไบต์และเพตะไบต์ที่มีอยู่ใน HDFS โดยใช้แอปพลิเคชันที่ไม่ใช่ MapReduce เช่น MPI, GIRAPH

  • ตัวจัดการทรัพยากร - แยกฟังก์ชันหลักสองอย่างของ JobTracker ที่รับภาระมากเกินไป (การจัดการทรัพยากรและการจัดตารางเวลา / การตรวจสอบงาน) ออกเป็นสอง daemons ที่แยกจากกัน: ตัวจัดการทรัพยากรส่วนกลางและ ApplicationMaster ต่อแอปพลิเคชัน

มีคุณสมบัติเพิ่มเติมเช่น Capacity Scheduler (Enable Multi-tenancy support ใน Hadoop), Data Snapshot, Support for Windows, NFS access ทำให้การนำ Hadoop มาใช้ในอุตสาหกรรมเพิ่มขึ้นเพื่อแก้ปัญหา Big Data

Hadoop 2.X เทียบกับ Hadoop 1.X

เรามาเปรียบเทียบกันเล็กน้อยและดูว่า Hadoop 2.0 ดีกว่าและแตกต่างจาก Hadoop 1.0 อย่างไรบ้าง

เหตุใด Hadoop 2 จึงเป็นที่ต้องการมากกว่า Hadoop 1.0?

Hadoop 2.0 นำเสนอการปรับปรุงประสิทธิภาพที่เป็นประโยชน์ต่อเทคโนโลยีที่เกี่ยวข้องในระบบนิเวศ Hadoop นอกเหนือจากคุณสมบัติที่แปลกใหม่ของ HDFS และสถาปัตยกรรมรุ่นที่สอง (YARN) แล้วยังมีเหตุผลมากยิ่งขึ้นในการเลือก Hadoop 2 มากกว่า Hadoop 1.0:

  • Hadoop 2 ไม่มีข้อ จำกัด ด้านภาษาอีกต่อไป หมายความว่าตอนนี้ผู้เชี่ยวชาญหลากหลายสามารถใช้ Hadoop ได้แล้ว

  • ด้วย Hadoop 2 อุปสรรคเช่นปัญหาการขาดแคลนโปรแกรมเขียนโค้ด MapReduce จะเอาชนะได้

  • เร็วกว่า Hadoop 1.0 ถึง 2 เท่า

  • ROI เป็น 2 เท่าของฮาร์ดแวร์ที่มีอยู่

  • ด้วย YARN อินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชันจะเปิดกว้างและยืดหยุ่นมากขึ้น

  • Hadoop 2 ขยายความเป็นไปได้ในการใช้ Hadoop ในโครงการ Big Data

  • ด้วย Hadoop 2 ตอนนี้นักพัฒนาสามารถดำเนินการกับงานบีบอัดข้อมูลที่หลากหลายได้นอกเหนือจากขอบเขตการประมวลผลชุดก่อนหน้าของ Hadoop

  • เสนอโอกาสใหม่สำหรับผู้จัดการข้อมูลและแก้ไขข้อบกพร่องในเวอร์ชันก่อนหน้า

  • รุ่นใหม่นี้มีคุณลักษณะเฉพาะในการเรียกใช้ปริมาณงานหลายรายการบนคลัสเตอร์ Hadoop เดียวกัน

  • Hadoop ไม่ได้ถูก จำกัด ไว้ที่ฟีเจอร์เดียวอีกต่อไป ตอนนี้แอปพลิเคชันขยายไปไกลกว่า HDFS และ MapReduce

ประโยชน์หลักของ YARN

เราตระหนักดีว่า YARN เป็นสถาปัตยกรรมรุ่นที่สองมาดูกันว่าอะไรทำให้มันยอดเยี่ยมมาก

  • มาตราส่วน

  • รูปแบบและบริการการเขียนโปรแกรมใหม่

  • การใช้งานคลัสเตอร์ขั้นสูง

  • ความคล่องตัว

  • มากกว่า Java

  • และอื่น ๆ อีกมากมาย

ความต้องการ Hadoop 2 Skills

ขณะนี้องค์กรต่างๆกำลังเปิดตัวหรือทดลองใช้ Hadoop 2 ดังนั้นจึงมีความต้องการผู้เชี่ยวชาญที่เชี่ยวชาญด้าน Hadoop 2 หลายองค์กรได้เริ่มมองหาบุคลากรที่จะทำงานกับ Hadoop เป็นการภายในแล้ว มีข้อบ่งชี้ที่ชัดเจนว่า YARN กำลังเพิ่มขึ้นและในที่สุดจะแทนที่ความต้องการทักษะ MapReduce

นี่คือมุมมองบางส่วนเกี่ยวกับความต้องการทักษะ Hadoop ในปัจจุบันและที่คาดการณ์ไว้:

  • นักวิเคราะห์จาก Gartner กล่าวว่า Hadoop 2 เป็นการพัฒนาที่สำคัญเนื่องจากองค์กรขนาดใหญ่ทั่วโลกพบว่า Hadoop เป็นผู้เปลี่ยนเกมในการจัดการข้อมูลขนาดใหญ่

  • ตามที่ Eric Kavanagh จากกลุ่ม Bloor Hadoop 2.0 ได้รับความสนใจในหมู่คนทำงานด้านข้อมูลที่ต้องการต่อสู้กับ Big Data

  • การยอมรับ Hadoop 2.0 ยังคงเพิ่มขึ้นอย่างต่อเนื่องและกำลังเข้าสู่ขั้นตอนของการครบกำหนด

  • องค์กรต่างๆตระหนักถึงประโยชน์ของ YARN และตื่นเต้นกับมัน

นี่คือภาพรวมของการเปิดรับสมัครงาน Hadoop 2.0 / YARN in Indeed.com

ใครกำลังจะย้ายไป Hadoop 2 หรือมีอยู่แล้ว?

Yahoo:

Yahoo! ผู้นำในทุกสิ่ง Hadoop ได้ใช้ YARN (0.23.x) จากข้อมูลของ Murthy คลัสเตอร์ 35,000 โหนดของ Yahoo ตอนนี้ประมวลผลงาน 130-150 งานต่อวันเทียบกับ 50-60 ก่อน YARN

เมื่อพูดถึงการแสดงที่เป็นตัวเอก Murthy จะพูดว่า“ เมื่อคุณมีโหนด 2x มากกว่า 35,000 ถึง 40,000 โหนดนั่นเป็นเรื่องมหัศจรรย์” เขายังกล่าวเพิ่มเติมว่า“ มันเป็นเรื่องที่น่าสนใจมากที่จะบอกกับ CIO ว่าหากคุณเพิ่งอัปเกรดซอฟต์แวร์จาก Hadoop 1 เป็น Hadoop 2 คุณจะเห็นการปรับปรุงปริมาณงานของคุณ 2 เท่า”

อีเบย์:

eBay มีคลัสเตอร์ Hadoop ที่ใหญ่ที่สุดแห่งหนึ่งในอุตสาหกรรมซึ่งข้อมูลอยู่ในหน่วยเพตะไบต์ พวกเขายังได้ย้ายกลุ่มของพวกเขาไปยัง Hadoop 2

สรุป:

เนื่องจาก Hadoop 2 เป็นผู้ใหญ่และใช้งานได้ง่ายขึ้นพวกเขายังทำให้ผู้ที่คลางแคลงสงสัยและองค์กรต่างๆกำลังโยกย้ายไปยัง Hadoop 2.0 มากขึ้นเรื่อย ๆ มีเหตุผลที่ถูกต้องในการหลีกเลี่ยงเวอร์ชัน 1.x แต่ด้วย Hadoop 2 แม้แต่ผู้ที่ไม่เชื่อก็ยังพิจารณาเนื่องจากสามารถใช้งานได้หลากหลาย การเรียนรู้ Hadoop 2.0 และนำไปใช้ในการคำนวณบน Big Data คุณจะเปิดประตูสู่อาชีพที่ก้าวหน้าทางเทคนิคและคุ้มค่าทางการเงิน

มีคำถามสำหรับเรา? โปรดระบุไว้ในส่วนความคิดเห็นแล้วเราจะติดต่อกลับไป

กระทู้ที่เกี่ยวข้อง:

การฝึก Hadoop จำเป็นแค่ไหน?