หากคุณมาจาก อุตสาหกรรมไอที คุณต้องตระหนักว่า ข้อมูลใหญ่ เป็นการพูดคุยประจำวัน ไม่ว่าจะเป็น บริษัท ที่เพิ่งเริ่มต้นใหม่ที่มาพร้อมกับรูปแบบธุรกิจที่เป็นนวัตกรรมหรือเพื่อนร่วมงานของคุณที่กำลังจะเข้าร่วมการเริ่มต้นเหล่านั้นด้วยเหตุผลบางประการในวันนี้ ทุ่งหญ้าสีเขียว ดูเหมือนจะเป็นไฟล์ ข้อมูลใหญ่ อุตสาหกรรม.
หากคุณสงสัยว่าทำไมฉันขอแนะนำให้คุณอ่านบทความนี้จนจบเพราะนี่อาจเป็นบล็อกการสำรวจตนเองซึ่งจะนำคุณไปสู่สิ่งที่คุณกำหนดไว้
ทำไมทั้งหมดนี้HYPEโดยรอบ ข้อมูลใหญ่?
เป็นเพียงโดเมนอื่นที่จะส่งผู้ลี้ภัยจากโดเมนอื่น ๆ ทั้งหมดเป็นการชั่วคราวหรือไม่? หรือจะอยู่ที่นี่เพื่อเดินทางไกล?
ถ้าให้เดาก็คงบอกได้ว่าไม่เพียง แต่จะอยู่ที่นี่ในระยะยาวเท่านั้น แต่อุตสาหกรรม Big Data กำลังเป็นศูนย์กลางของความก้าวหน้าทางเทคโนโลยี
เพราะทุกอย่างเกี่ยวกับข้อมูล!
เช่นเดียวกับดวงอาทิตย์เพิ่มขึ้นจากตะวันออกและชุดในทิศตะวันตกการใช้อุปกรณ์คอมพิวเตอร์ / อุปกรณ์ที่ไม่ใช้คอมพิวเตอร์อย่างต่อเนื่องจะส่งผลให้ข้อมูลที่ไม่สามารถจัดการได้อย่างล้นหลาม
เมื่อข้อมูลนี้เกินขีด จำกัด ของการจัดการโดย Excel หรือระบบจัดการฐานข้อมูลใด ๆ เราจะเรียกมันว่า ข้อมูลใหญ่ .
คิดว่าผลิตภัณฑ์ชิ้นสุดท้ายที่คุณซื้อจาก Amazon คืออะไร? ผลิตภัณฑ์ใดอาจเป็นผลิตภัณฑ์ต่อไปที่คุณอาจซื้อโดยอิงจากกิจกรรมที่ผ่านมา คำตอบสำหรับคำถามดังกล่าวจะถูกเก็บไว้ใน Big Data
มีแนวโน้มเติบโตอยู่เบื้องหลังผลิตภัณฑ์หรือไม่? หรือมีแนวโน้มลดลง? ลูกค้าจะซื้อ 'ถุงน่อง' หรือไม่เมื่อซื้อ 'รองเท้า' คำถามเหล่านี้เป็นคำถามในการแก้ปัญหาทางธุรกิจ
และคำถามเหล่านี้สามารถทำได้อย่างง่ายดาย ตอบ โดยใช้ การวิเคราะห์ข้อมูลขนาดใหญ่ .
ท้ายที่สุดแล้วการใช้ข้อมูลคืออะไรเมื่อคุณไม่ได้ใช้ การวิเคราะห์ มัน?
ก็คือข้อมูลขนาดใหญ่เกี่ยวกับการวิเคราะห์?ยังไม่สมบูรณ์ แต่ Analytics คือรางวัลสุดยอด
กระแสหลักอื่น ๆ ใน Big Data ได้แก่การจัดเก็บและการจัดการ.
นี่คือจุดที่คุณในฐานะมืออาชีพสามารถมีส่วนร่วมได้ คุณสามารถรับบทบาทของ:
- วิศวกรข้อมูลขนาดใหญ่
- สถาปนิกโซลูชันข้อมูลขนาดใหญ่
และตรวจสอบให้แน่ใจว่าข้อมูลขนาดใหญ่ที่สร้างขึ้นนั้นพร้อมใช้งานและสามารถใช้สำหรับการวิเคราะห์ได้ในภายหลัง ดังนั้นสิ่งนี้นำเราไปสู่คำถาม & hellip
Big Data เก็บไว้ที่ไหน?
สามารถเก็บไว้ในไฟล์ไฟล์ Excelเหรอ? สามารถเก็บไว้ในไฟล์ระบบฐานข้อมูลเชิงสัมพันธ์เหรอ?
ไม่มีทาง!
ถ้าเป็นไปได้ก็คงจะเป็น!
และเรียกได้ว่าเป็นสิ่งที่แตกต่างกันทั้งหมด อาจจะมีบางอย่างเช่นExcel-DataหรือRDBMS- ข้อมูล: ง
อาร์เรย์ของวัตถุใน java
และนั่นจะพาเรากลับไปที่ ขั้นตอนที่ 1 : - เหตุใดจึงไม่สามารถจัดการ Big Data โดยใช้ Excel ได้? เพราะBig Data นั้นร้อนเกินกว่าที่ Excel จะจัดการได้. และแม้แต่ระบบการจัดการฐานข้อมูลอื่น ๆ สำหรับเรื่องจริง
ทางเลือกคืออะไร?
สำหรับการจัดการข้อมูลขนาดใหญ่เรามี HADOOP . คุณอาจตระหนักถึงคำนี้ด้วย แต่คุณอาจสงสัยว่ามันทำงานอย่างไร?
สำหรับผู้เริ่มต้น HADOOP เป็นผลิตภัณฑ์จากมูลนิธิ APACHE. Apache เป็นองค์กรไม่แสวงหาผลกำไรของอเมริกาซึ่งสนับสนุนการพัฒนาซอฟต์แวร์โอเพนซอร์ส
Hadoop ถูกกำหนดให้เป็นเฟรมเวิร์กการเขียนโปรแกรมบน Java แบบโอเพนซอร์สที่สนับสนุนการประมวลผลและการจัดเก็บชุดข้อมูลขนาดใหญ่มากในสภาพแวดล้อมการประมวลผลแบบกระจาย
Hadoop ทำอะไรได้บ้าง แต่ Excel ทำไม่ได้
ประมวลผลและทำความเข้าใจข้อมูลที่ไม่มีโครงสร้าง!ข้อมูลที่มีโครงสร้างซึ่งอยู่ในรูปแบบตารางหรือสามารถจัดการได้อย่างง่ายดาย Excel สามารถทำได้และ RDBMS อื่น ๆ ก็ทำได้เช่นกัน
แต่เมื่อความสามารถในการอ่านลดลงและข้อมูลไม่มีโครงสร้างนั่นคือที่มาของ Big Dataเครื่องมือเช่น Hadoopคะแนน. ตัวอย่างของข้อมูลที่ไม่มีโครงสร้างคือ syslog . ภาพตัวอย่างอยู่ด้านล่าง
บันทึกดังกล่าวไม่สามารถสืบค้นได้โดยใช้ Excel อย่างแน่นอน
Hadoop เช่นเดียวกับเครื่องมือ Big Data สามารถเข้าใจข้อมูลได้เหมือนเดิมโดยการค้นพบรูปแบบและสร้างความสัมพันธ์ระหว่างช่องต่างๆ และเมื่อข้อมูลมีการสัมผัสเชิงสัมพันธ์ก็เป็นได้พร้อมสำหรับการวิเคราะห์.
การวิเคราะห์คือสิ่งที่จะสร้างผลกระทบทางธุรกิจต่อองค์กร! อาชีพของคุณจะได้รับประโยชน์อย่างมากจากการมีส่วนร่วมในโดเมน Big Data นี้
' ฉันสามารถทำเป็น Hadoop-er ได้หรือไม่? '
…อาจเป็นคำถามต่อไปในใจของคุณ และคิดให้ถูกต้อง Big Data เป็นตลาดที่ร้อนแรงและสำคัญที่สุดเท่าที่เคยมีมา
ทำไมฉันจึงควรเรียนรู้ sql
หากไม่มี Hadoop บริษัท ต่างๆจะมีช่วงเวลาที่ยากลำบากในการจัดการกับข้อมูลขนาดใหญ่ และหากไม่มีผู้เชี่ยวชาญที่มีทักษะเช่นคุณ บริษัท ต่างๆจะมีช่วงเวลาที่ยากลำบากในการจัดการกับ Hadoop
มีรายงานที่ระบุว่ามีการขาดดุลความสามารถในโดเมนนี้การขาดดุลตามปฏิทินหมายถึงผู้เชี่ยวชาญน้อย แต่มีความต้องการสูง และสิ่งนี้อยู่ในระดับโลกและไม่ จำกัด เฉพาะภูมิศาสตร์ใดพื้นที่หนึ่ง
คุณต้องการตัวเลขหรือไม่?
ถึง สถาบัน McKinsey Global การศึกษาระบุว่าสหรัฐฯจะประสบปัญหาการขาดแคลนนักวิทยาศาสตร์ข้อมูลประมาณ 190,000 คนและผู้จัดการและนักวิเคราะห์ 1.5 ล้านคนที่สามารถเข้าใจและตัดสินใจโดยใช้ข้อมูลขนาดใหญ่ภายในปี 2018
คำแนะนำด้านอาชีพสำหรับคุณ? ท่องเมื่อน้ำลง!
แต่คุณ ถูก จำกัด ถึงเท่านั้น Hadoop เหรอ?
ไม่จริง มีเครื่องมือมากมายสำหรับประมวลผลข้อมูลขนาดใหญ่และ Hadoop ถือเป็นหนึ่งในเครื่องมือที่ดีที่สุด แต่ไม่ใช่ทุกครั้ง!
มีหลายครั้งที่ Hadoop ไม่เหมาะสมที่สุด ตัวอย่างเช่นหากคุณเป็นคนที่ไม่เชี่ยวชาญด้านเทคนิคที่เขียนโปรแกรม MapReduce ได้ไม่ดีนัก
ในกรณีเช่นนี้คุณสามารถใช้ไฟล์พูดคุยซึ่งให้อินเทอร์เฟซผู้ใช้แบบกราฟิกเพื่อทำสิ่งที่คุณทำด้วย MapReduce
สำหรับการเขียนโค้ด Java ที่ง่ายขึ้นคุณสามารถใช้หมู.
หากคุณต้องการเรียกใช้การสืบค้นแบบ SQL บนข้อมูลขนาดใหญ่แล้วไฮฟ์สามารถใช้ได้.
หากคุณต้องการใช้ข้อมูลที่จัดเก็บในฐานข้อมูล NoSQL แล้วHBaseสามารถใช้ได้.
สำหรับการวิเคราะห์แบบเรียลไทม์คุณสามารถใช้ประกายไฟ.
เหล่านี้เป็นเครื่องมือข้อมูลขนาดใหญ่ที่จับมือ Hadoop ได้ แต่ก็ไม่ได้แทนที่ Hadoop แต่อย่างใด เป็นส่วนเสริม Hadoop สำหรับ Big Data
นอกจากนี้ยังมีเครื่องมืออีกสองสามอย่างเช่น SQOOP, FLUME, OOZIE และอื่น ๆ ซึ่งสามารถรวมเข้ากับเฟรมเวิร์ก Hadoop เพื่อแก้ปัญหาทางธุรกิจต่างๆ
อุตสาหกรรมคาดหวังอะไรจากคุณในฐานะผู้เชี่ยวชาญด้านข้อมูลขนาดใหญ่
อุตสาหกรรมอยู่ในความต้องการอย่างมาก สถาปนิกข้อมูลขนาดใหญ่ ผู้ที่สามารถสร้างโซลูชันข้อมูลขนาดใหญ่แบบ end-to-end สำหรับองค์กรของตน สถาปนิกข้อมูลขนาดใหญ่คือผู้ที่มีความเชี่ยวชาญในเครื่องมือทั้งหมดที่กล่าวมาก่อนหน้านี้
นี่คือประจักษ์พยานของผู้เรียน Edureka บน หลักสูตร:
กลายเป็น เริ่มต้นจากการฝึกอบรมการรับรอง Big Data และ Hadoop ของ Edureka ซึ่งช่วยให้ผู้เรียนเป็นผู้เชี่ยวชาญใน HDFS, Yarn, MapReduce, Pig, Hive, HBase, Oozie, Flume และ Sqoop โดยใช้กรณีการใช้งานแบบเรียลไทม์บนโดเมนค้าปลีกโซเชียลมีเดียการบินการท่องเที่ยวการเงิน .