วิทยาศาสตร์ข้อมูลคืออะไร? คู่มือเริ่มต้นสำหรับวิทยาศาสตร์ข้อมูล

เมื่อโลกเข้าสู่ยุคของข้อมูลขนาดใหญ่ความต้องการพื้นที่จัดเก็บข้อมูลก็เพิ่มขึ้นเช่นกัน ถือเป็นความท้าทายและความกังวลหลักสำหรับอุตสาหกรรมระดับองค์กรจนถึงปี 2010 จุดสนใจหลักคือการสร้างกรอบและโซลูชันในการจัดเก็บข้อมูล ตอนนี้เมื่อ Hadoop และเฟรมเวิร์กอื่น ๆ แก้ไขปัญหาการจัดเก็บข้อมูลได้สำเร็จโฟกัสได้เปลี่ยนไปที่การประมวลผลข้อมูลนี้ Data Science เป็นซอสลับของที่นี่ แนวคิดทั้งหมดที่คุณเห็นในภาพยนตร์ไซไฟฮอลลีวูดสามารถเปลี่ยนเป็นความจริงได้โดย Data Science Data Science คืออนาคตของปัญญาประดิษฐ์ ดังนั้นจึงเป็นเรื่องสำคัญมากที่จะต้องทำความเข้าใจว่า Data Science คืออะไรและจะเพิ่มมูลค่าให้กับธุรกิจของคุณได้อย่างไร

Edureka 2019 Tech Career Guide ออกแล้ว! บทบาทงานที่ร้อนแรงที่สุดเส้นทางการเรียนรู้ที่แม่นยำแนวโน้มอุตสาหกรรมและอื่น ๆ ในคู่มือ ดาวน์โหลด ตอนนี้.

ในบล็อกนี้ฉันจะพูดถึงหัวข้อต่อไปนี้

Data Science คืออะไร?
ทำไมต้องเป็น Data Science
Data Scientist คือใคร
- Data Scientist ทำอะไร
แตกต่างจาก Business Intelligence (BI) และ Data Science อย่างไร?
วงจรชีวิตของ Data Science ด้วยความช่วยเหลือของกรณีการใช้งาน

ในตอนท้ายของบล็อกนี้คุณจะสามารถเข้าใจว่า Data Science คืออะไรและมีบทบาทอย่างไรในการดึงข้อมูลเชิงลึกที่มีความหมายจากข้อมูลที่ซับซ้อนและมีขนาดใหญ่ที่อยู่รอบตัวเราหากต้องการรับความรู้เชิงลึกเกี่ยวกับ Data Science คุณสามารถลงทะเบียนแบบสดได้ โดย Edureka พร้อมการสนับสนุนตลอด 24 ชั่วโมงทุกวันและการเข้าถึงตลอดชีวิต

Data Science คืออะไร?

Data Science เป็นการผสมผสานระหว่างเครื่องมืออัลกอริทึมและหลักการเรียนรู้ของเครื่องที่หลากหลายโดยมีเป้าหมายเพื่อค้นหารูปแบบที่ซ่อนอยู่จากข้อมูลดิบ แต่สิ่งนี้แตกต่างจากที่นักสถิติทำมาหลายปีอย่างไร?

คำตอบอยู่ที่ความแตกต่างระหว่างการอธิบายและการทำนาย

นักวิเคราะห์ข้อมูลกับวิทยาศาสตร์ข้อมูล - Edureka

ดังที่คุณเห็นจากภาพด้านบนนักวิเคราะห์ข้อมูลโดยปกติจะอธิบายถึงสิ่งที่เกิดขึ้นโดยการประมวลผลประวัติของข้อมูล ในทางกลับกัน Data Scientist ไม่เพียงทำการวิเคราะห์เชิงสำรวจเพื่อค้นหาข้อมูลเชิงลึกจากข้อมูลนี้เท่านั้น แต่ยังใช้อัลกอริธึมการเรียนรู้ของเครื่องขั้นสูงต่างๆเพื่อระบุการเกิดเหตุการณ์เฉพาะในอนาคตอีกด้วย นักวิทยาศาสตร์ข้อมูลจะดูข้อมูลจากหลาย ๆ มุมซึ่งบางครั้งอาจไม่ทราบมุมมองก่อนหน้านี้

ดังนั้น Data Science จึงถูกใช้เป็นหลักในการตัดสินใจและการคาดการณ์โดยใช้การวิเคราะห์เชิงสาเหตุเชิงคาดการณ์การวิเคราะห์เชิงกำหนด (วิทยาศาสตร์เชิงทำนายบวกกับการตัดสินใจ) และการเรียนรู้ของเครื่อง

การวิเคราะห์เชิงสาเหตุเชิงคาดการณ์ - หากคุณต้องการแบบจำลองที่สามารถทำนายความเป็นไปได้ของเหตุการณ์ใดเหตุการณ์หนึ่งในอนาคตคุณต้องใช้การวิเคราะห์เชิงสาเหตุเชิงคาดการณ์ สมมติว่าหากคุณให้เงินเป็นเครดิตความน่าจะเป็นที่ลูกค้าจะชำระเงินเครดิตในอนาคตตรงเวลาเป็นเรื่องที่คุณกังวล ที่นี่คุณสามารถสร้างแบบจำลองที่สามารถทำการวิเคราะห์เชิงคาดการณ์เกี่ยวกับประวัติการชำระเงินของลูกค้าเพื่อคาดการณ์ว่าการชำระเงินในอนาคตจะตรงเวลาหรือไม่

การวิเคราะห์เชิงกำหนด: หากคุณต้องการแบบจำลองที่มีความฉลาดในการตัดสินใจของตัวเองและความสามารถในการแก้ไขด้วยพารามิเตอร์แบบไดนามิกคุณต้องมีการวิเคราะห์ที่กำหนดไว้ล่วงหน้า สนามที่ค่อนข้างใหม่นี้เป็นข้อมูลเกี่ยวกับการให้คำแนะนำ ในอีกแง่หนึ่งไม่เพียง แต่คาดการณ์ แต่ยังแนะนำการดำเนินการที่กำหนดและผลลัพธ์ที่เกี่ยวข้อง
ตัวอย่างที่ดีที่สุดสำหรับกรณีนี้คือรถขับเคลื่อนด้วยตนเองของ Google ซึ่งฉันได้พูดคุยกันก่อนหน้านี้เช่นกัน ข้อมูลที่รวบรวมโดยยานพาหนะสามารถใช้ในการฝึกรถยนต์ที่ขับเคลื่อนด้วยตนเอง คุณสามารถเรียกใช้อัลกอริทึมบนข้อมูลนี้เพื่อนำความฉลาดมาสู่ข้อมูลนั้น วิธีนี้จะช่วยให้รถของคุณสามารถตัดสินใจได้เช่นเวลาที่จะเลี้ยวว่าจะไปทางไหน,เมื่อใดที่จะชะลอตัวหรือเร่งความเร็ว

การเรียนรู้ของเครื่องสำหรับการคาดการณ์ - หากคุณมีข้อมูลธุรกรรมของ บริษัท เงินทุนและจำเป็นต้องสร้างแบบจำลองเพื่อกำหนดแนวโน้มในอนาคตอัลกอริทึมการเรียนรู้ของเครื่องเป็นทางออกที่ดีที่สุด สิ่งนี้อยู่ภายใต้กระบวนทัศน์ของการเรียนรู้ภายใต้การดูแล เรียกว่าอยู่ภายใต้การดูแลเนื่องจากคุณมีข้อมูลตามที่คุณสามารถฝึกเครื่องจักรได้ ตัวอย่างเช่นรูปแบบการตรวจจับการฉ้อโกงสามารถฝึกได้โดยใช้ประวัติการซื้อสินค้าที่ฉ้อโกง

การเรียนรู้ของเครื่องเพื่อการค้นพบรูปแบบ - หากคุณไม่มีพารามิเตอร์ตามที่คุณสามารถคาดคะเนได้คุณต้องหารูปแบบที่ซ่อนอยู่ภายในชุดข้อมูลเพื่อให้สามารถคาดเดาได้อย่างมีความหมาย นี่ไม่ใช่อะไรเลยนอกจากโมเดลที่ไม่มีการดูแลเนื่องจากคุณไม่มีป้ายกำกับที่กำหนดไว้ล่วงหน้าสำหรับการจัดกลุ่ม อัลกอริทึมทั่วไปที่ใช้สำหรับการค้นหารูปแบบคือการทำคลัสเตอร์
สมมติว่าคุณทำงานใน บริษัท โทรศัพท์และคุณต้องสร้างเครือข่ายโดยวางเสาสัญญาณในภูมิภาค จากนั้นคุณสามารถใช้เทคนิคการจัดกลุ่มเพื่อค้นหาตำแหน่งหอคอยเหล่านั้นซึ่งจะช่วยให้มั่นใจได้ว่าผู้ใช้ทุกคนจะได้รับความแรงของสัญญาณที่เหมาะสม

มาดูกันว่าสัดส่วนของแนวทางที่อธิบายไว้ข้างต้นแตกต่างกันอย่างไรสำหรับการวิเคราะห์ข้อมูลและวิทยาศาสตร์ข้อมูล ดังที่คุณเห็นในภาพด้านล่างการวิเคราะห์ข้อมูลรวมถึงการวิเคราะห์เชิงพรรณนาและการคาดการณ์ในระดับหนึ่ง ในทางกลับกัน Data Science เป็นข้อมูลเพิ่มเติมเกี่ยวกับ Predictive Causal Analytics และ Machine Learning

การวิเคราะห์วิทยาศาสตร์ข้อมูล - Edureka

ตอนนี้คุณรู้แล้วว่า Data Science คืออะไรมาดูเหตุผลว่าทำไมจึงจำเป็นต้องมีตั้งแต่แรก

ทำไมต้องเป็น Data Science

ตามเนื้อผ้าข้อมูลที่เรามีส่วนใหญ่มีโครงสร้างและมีขนาดเล็กซึ่งสามารถวิเคราะห์ได้โดยใช้เครื่องมือ BI อย่างง่ายไม่เหมือนกับข้อมูลในไฟล์ระบบดั้งเดิมซึ่งส่วนใหญ่มีโครงสร้างปัจจุบันข้อมูลส่วนใหญ่ไม่มีโครงสร้างหรือกึ่งโครงสร้าง มาดูแนวโน้มข้อมูลในรูปภาพด้านล่างซึ่งแสดงให้เห็นว่าภายในปี 2020 ข้อมูลมากกว่า 80% จะไม่มีโครงสร้าง

ข้อมูลนี้สร้างขึ้นจากแหล่งต่างๆเช่นบันทึกทางการเงินไฟล์ข้อความรูปแบบมัลติมีเดียเซ็นเซอร์และเครื่องมือ เครื่องมือ BI อย่างง่ายไม่สามารถประมวลผลข้อมูลจำนวนมหาศาลและข้อมูลที่หลากหลายนี้ได้ นี่คือเหตุผลที่เราต้องการเครื่องมือวิเคราะห์และอัลกอริทึมที่ซับซ้อนและซับซ้อนมากขึ้นสำหรับการประมวลผลวิเคราะห์และดึงข้อมูลเชิงลึกที่มีความหมายออกมา

นี่ไม่ใช่เหตุผลเดียวที่ Data Science ได้รับความนิยมอย่างมาก มาดูรายละเอียดเพิ่มเติมว่า Data Science ถูกนำไปใช้ในโดเมนต่างๆอย่างไร

แล้วคุณจะเข้าใจข้อกำหนดที่ชัดเจนของลูกค้าได้อย่างไรจากข้อมูลที่มีอยู่เช่นประวัติการเข้าชมในอดีตของลูกค้าประวัติการซื้ออายุและรายได้ ไม่ต้องสงสัยเลยว่าคุณมีข้อมูลทั้งหมดนี้ก่อนหน้านี้เช่นกัน แต่ตอนนี้ด้วยข้อมูลจำนวนมากและหลากหลายคุณสามารถฝึกโมเดลได้อย่างมีประสิทธิภาพมากขึ้นและแนะนำผลิตภัณฑ์ให้กับลูกค้าของคุณด้วยความแม่นยำมากขึ้น จะไม่น่าแปลกใจที่จะนำธุรกิจมาสู่องค์กรของคุณมากขึ้น?

ลองใช้สถานการณ์อื่นเพื่อทำความเข้าใจบทบาทของ Data Science การตัดสินใจ.ถ้ารถของคุณมีสติปัญญาพอที่จะขับรถกลับบ้านได้ล่ะ? รถยนต์ที่ขับเคลื่อนด้วยตัวเองจะรวบรวมข้อมูลสดจากเซ็นเซอร์รวมถึงเรดาร์กล้องและเลเซอร์เพื่อสร้างแผนที่โดยรอบ จากข้อมูลนี้จะใช้เวลาในการตัดสินใจเช่นเมื่อใดควรเร่งความเร็วเมื่อใดควรแซงเมื่อใดควรเลี้ยวโดยใช้อัลกอริทึมการเรียนรู้ของเครื่องขั้นสูง
มาดูกันว่าสามารถใช้ Data Science ในการวิเคราะห์เชิงคาดการณ์ได้อย่างไร เรามาดูการพยากรณ์อากาศเป็นตัวอย่างกัน ข้อมูลจากเรือเครื่องบินเรดาร์ดาวเทียมสามารถรวบรวมและวิเคราะห์เพื่อสร้างแบบจำลองได้ แบบจำลองเหล่านี้ไม่เพียง แต่จะพยากรณ์อากาศเท่านั้น แต่ยังช่วยในการทำนายการเกิดภัยพิบัติทางธรรมชาติอีกด้วย มันจะช่วยให้คุณใช้มาตรการที่เหมาะสมล่วงหน้าและช่วยชีวิตอันมีค่ามากมาย

ลองดูอินโฟกราฟิกด้านล่างเพื่อดูโดเมนทั้งหมดที่ Data Science สร้างความประทับใจ

กรณีการใช้งาน Data Science - Edureka

Data Scientist คือใคร

มีคำจำกัดความหลายประการใน Data Scientists กล่าวง่ายๆคือ Data Scientist คือผู้ที่ฝึกฝนศิลปะของ Data Scienceคำว่า 'Data Scientist' คือประกาศเกียรติคุณหลังจากพิจารณาข้อเท็จจริงที่ว่านักวิทยาศาสตร์ข้อมูลดึงข้อมูลจำนวนมากจากสาขาวิทยาศาสตร์และการประยุกต์ใช้ไม่ว่าจะเป็นสถิติหรือคณิตศาสตร์

Data Scientist ทำอะไร

นักวิทยาศาสตร์ด้านข้อมูลคือผู้ที่แก้ไขปัญหาข้อมูลที่ซับซ้อนด้วยความเชี่ยวชาญที่แข็งแกร่งในสาขาวิทยาศาสตร์บางสาขา พวกเขาทำงานกับองค์ประกอบหลายอย่างที่เกี่ยวข้องกับคณิตศาสตร์สถิติวิทยาศาสตร์คอมพิวเตอร์ ฯลฯ (แม้ว่าพวกเขาอาจไม่ใช่ผู้เชี่ยวชาญในสาขาเหล่านี้ทั้งหมด)พวกเขาใช้ประโยชน์จากเทคโนโลยีล่าสุดในการค้นหาโซลูชันและบรรลุข้อสรุปที่สำคัญต่อการเติบโตและการพัฒนาขององค์กร นักวิทยาศาสตร์ข้อมูลนำเสนอข้อมูลในรูปแบบที่มีประโยชน์มากกว่าเมื่อเทียบกับข้อมูลดิบที่มีให้จากรูปแบบที่มีโครงสร้างและไม่มีโครงสร้าง

หากต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับ Data Scientist คุณสามารถดูบทความนี้ได้ที่

ก้าวต่อไปให้พูดคุยเกี่ยวกับ BI ฉันแน่ใจว่าคุณอาจเคยได้ยิน Business Intelligence (BI) ด้วย บ่อยครั้งที่ Data Science สับสนกับ BI ฉันจะพูดอย่างกระชับและชัดเจนความแตกต่างระหว่างทั้งสองซึ่งจะช่วยให้คุณเข้าใจได้ดีขึ้น มาดูกัน

Business Intelligence (BI) กับ Data Science

Business Intelligence (BI) โดยพื้นฐานแล้วจะวิเคราะห์ข้อมูลก่อนหน้านี้เพื่อค้นหาการมองย้อนกลับและข้อมูลเชิงลึกเพื่ออธิบายแนวโน้มของธุรกิจ BI ที่นี่ช่วยให้คุณสามารถรับข้อมูลจากแหล่งภายนอกและภายในจัดเตรียมเรียกใช้แบบสอบถามและสร้างแดชบอร์ดเพื่อตอบคำถามเช่นการวิเคราะห์รายได้รายไตรมาสหรือปัญหาทางธุรกิจ BI สามารถประเมินผลกระทบของเหตุการณ์บางอย่างในอนาคตอันใกล้

Data Science เป็นแนวทางที่คาดการณ์ล่วงหน้ามากขึ้นซึ่งเป็นวิธีการสำรวจโดยมุ่งเน้นที่การวิเคราะห์ข้อมูลในอดีตหรือปัจจุบันและคาดการณ์ผลลัพธ์ในอนาคตโดยมีจุดประสงค์เพื่อการตัดสินใจอย่างมีข้อมูล จะตอบคำถามปลายเปิดว่าเหตุการณ์“ อะไร” และ“ อย่างไร”

มาดูคุณสมบัติที่ตัดกันกัน

คุณสมบัติ	ระบบธุรกิจอัจฉริยะ (BI)	วิทยาศาสตร์ข้อมูล
แหล่งข้อมูล	มีโครงสร้าง (โดยปกติคือ SQL มักเป็น Data Warehouse)	ทั้งแบบมีโครงสร้างและไม่มีโครงสร้าง (บันทึก, ข้อมูลบนคลาวด์, SQL, NoSQL, ข้อความ)
วิธีการ	สถิติและการแสดงภาพ	สถิติ, การเรียนรู้ของเครื่อง, การวิเคราะห์กราฟ, การเขียนโปรแกรมภาษาระบบประสาท (NLP)
โฟกัส	ในอดีตและปัจจุบัน	ปัจจุบันและอนาคต
เครื่องมือ	Pentaho, Microsoft BI,QlikView, R	RapidMiner, BigML, Weka, R

ทั้งหมดนี้เกี่ยวกับวิทยาศาสตร์ข้อมูลคืออะไรตอนนี้เรามาทำความเข้าใจวงจรชีวิตของ Data Science กัน

ข้อผิดพลาดทั่วไปที่เกิดขึ้นในโครงการ Data Science กำลังเร่งดำเนินการรวบรวมและวิเคราะห์ข้อมูลโดยไม่เข้าใจข้อกำหนดหรือแม้แต่กำหนดกรอบปัญหาทางธุรกิจให้ถูกต้อง ดังนั้นจึงเป็นเรื่องสำคัญมากที่คุณจะต้องปฏิบัติตามขั้นตอนทั้งหมดตลอดวงจรชีวิตของ Data Science เพื่อให้แน่ใจว่าโครงการจะทำงานได้อย่างราบรื่น

สร้างอาร์เรย์ของวัตถุ java

วงจรชีวิตของวิทยาศาสตร์ข้อมูล

นี่คือภาพรวมคร่าวๆของขั้นตอนหลักของวงจรชีวิตวิทยาศาสตร์ข้อมูล:

วงจรชีวิตของวิทยาศาสตร์ข้อมูล - Edureka

ระยะที่ 1 - การค้นพบ: ก่อนที่คุณจะเริ่มโครงการสิ่งสำคัญคือต้องทำความเข้าใจข้อกำหนดข้อกำหนดลำดับความสำคัญและงบประมาณที่จำเป็นต่างๆ คุณต้องมีความสามารถในการถามคำถามที่ถูกต้องที่นี่คุณจะประเมินว่าคุณมีทรัพยากรที่จำเป็นทั้งในด้านคนเทคโนโลยีเวลาและข้อมูลเพื่อสนับสนุนโครงการหรือไม่ในขั้นตอนนี้คุณต้องวางกรอบปัญหาทางธุรกิจและกำหนดสมมติฐานเบื้องต้น (IH) เพื่อทดสอบ

ผ่านการอ้างอิงใน java

ระยะที่ 2 - การเตรียมข้อมูล: ในขั้นตอนนี้คุณต้องมีแซนด์บ็อกซ์การวิเคราะห์ซึ่งคุณสามารถทำการวิเคราะห์ได้ตลอดระยะเวลาของโครงการ คุณต้องสำรวจประมวลผลและเงื่อนไขข้อมูลก่อนการสร้างแบบจำลอง นอกจากนี้คุณจะดำเนินการ ETLT (แยกแปลงโหลดและแปลง) เพื่อรับข้อมูลลงในแซนด์บ็อกซ์ ลองดูขั้นตอนการวิเคราะห์ทางสถิติด้านล่าง

วงจรชีวิตของวิทยาศาสตร์ข้อมูล
คุณสามารถใช้ R สำหรับการล้างข้อมูลการแปลงและการแสดงภาพ สิ่งนี้จะช่วยให้คุณระบุจุดผิดปกติและสร้างความสัมพันธ์ระหว่างตัวแปรเมื่อคุณทำความสะอาดและเตรียมข้อมูลเรียบร้อยแล้วก็ถึงเวลาทำการสำรวจการวิเคราะห์กับมัน มาดูกันว่าคุณจะบรรลุเป้าหมายนั้นได้อย่างไร

ระยะที่ 3 - การวางแผนแบบจำลอง: ที่นี่คุณจะกำหนดวิธีการและเทคนิคในการวาดความสัมพันธ์ระหว่างตัวแปรความสัมพันธ์เหล่านี้จะกำหนดฐานของอัลกอริทึมที่คุณจะนำไปใช้ในขั้นตอนต่อไปคุณจะใช้ Exploratory Data Analytics (EDA) โดยใช้สูตรทางสถิติและเครื่องมือแสดงภาพต่างๆ

มาดูเครื่องมือวางแผนโมเดลต่างๆกัน

เครื่องมือวางแผนโมเดลใน Data Science - Edureka

ร มีความสามารถในการสร้างแบบจำลองที่สมบูรณ์และมีสภาพแวดล้อมที่ดีสำหรับการสร้างแบบจำลองเชิงตีความ.
บริการวิเคราะห์ SQL สามารถทำการวิเคราะห์ในฐานข้อมูลโดยใช้ฟังก์ชันการขุดข้อมูลทั่วไปและแบบจำลองการคาดการณ์พื้นฐาน
SAS / การเข้าถึง สามารถใช้เพื่อเข้าถึงข้อมูลจาก Hadoop และใช้สำหรับการสร้างโฟลว์ไดอะแกรมแบบจำลองที่ทำซ้ำได้และใช้ซ้ำได้

แม้ว่าจะมีเครื่องมือมากมายในตลาด แต่ R เป็นเครื่องมือที่ใช้บ่อยที่สุด

ตอนนี้คุณมีข้อมูลเชิงลึกเกี่ยวกับลักษณะของข้อมูลของคุณแล้วและได้ตัดสินใจเลือกอัลกอริทึมที่จะใช้แล้ว ในขั้นตอนต่อไปคุณจะสมัครอัลกอริทึมและสร้างแบบจำลอง

ระยะที่ 4 - การสร้างแบบจำลอง: ในขั้นตอนนี้คุณจะพัฒนาชุดข้อมูลเพื่อการฝึกอบรมและการทดสอบ ที่นี่ yคุณต้องพิจารณาว่าเครื่องมือที่มีอยู่ของคุณจะเพียงพอสำหรับการรันโมเดลหรือไม่หรือจะต้องมีสภาพแวดล้อมที่แข็งแกร่งมากขึ้น (เช่นการประมวลผลแบบเร็วและแบบขนาน) คุณจะวิเคราะห์เทคนิคการเรียนรู้ต่างๆเช่นการจำแนกการเชื่อมโยงและการจัดกลุ่มเพื่อสร้างแบบจำลอง

คุณสามารถสร้างโมเดลได้โดยใช้เครื่องมือต่อไปนี้

เครื่องมือสร้างโมเดลใน Data Science

ระยะที่ 5 - การดำเนินงาน: ในขั้นตอนนี้คุณจะส่งรายงานขั้นสุดท้ายการบรรยายสรุปรหัสและเอกสารทางเทคนิคนอกจากนี้บางครั้งยังมีการนำโครงการนำร่องไปใช้ในสภาพแวดล้อมการผลิตแบบเรียลไทม์ สิ่งนี้จะช่วยให้คุณเห็นภาพที่ชัดเจนเกี่ยวกับประสิทธิภาพและข้อ จำกัด อื่น ๆ ที่เกี่ยวข้องในระดับเล็ก ๆ ก่อนที่จะใช้งานได้เต็มรูปแบบ

ระยะที่ 6 - สื่อสารผลลัพธ์: ตอนนี้สิ่งสำคัญคือต้องประเมินว่าคุณสามารถบรรลุเป้าหมายตามที่วางแผนไว้ในช่วงแรกได้หรือไม่ ดังนั้นในช่วงสุดท้ายคุณจะระบุการค้นพบที่สำคัญทั้งหมดสื่อสารกับผู้มีส่วนได้ส่วนเสียและพิจารณาว่าผลลัพธ์ของโครงการประสบความสำเร็จหรือล้มเหลวตามเกณฑ์ที่พัฒนาในระยะที่ 1

ตอนนี้ฉันจะใช้กรณีศึกษาเพื่ออธิบายขั้นตอนต่างๆที่อธิบายไว้ข้างต้น

กรณีศึกษา: การป้องกันโรคเบาหวาน

จะเป็นอย่างไรหากเราสามารถทำนายการเกิดโรคเบาหวานและใช้มาตรการที่เหมาะสมล่วงหน้าเพื่อป้องกันได้
ในกรณีการใช้งานนี้เราจะทำนายการเกิดโรคเบาหวานโดยใช้วงจรชีวิตทั้งหมดที่เรากล่าวถึงก่อนหน้านี้ มาดูขั้นตอนต่างๆกัน

ขั้นตอนที่ 1:

ประการแรกเราจะรวบรวมข้อมูลตามประวัติทางการแพทย์ของผู้ป่วยตามที่กล่าวไว้ในระยะที่ 1 คุณสามารถดูข้อมูลตัวอย่างด้านล่าง

ข้อมูลตัวอย่าง Data Science - Edureka

อย่างที่คุณเห็นเรามีคุณลักษณะต่างๆดังที่กล่าวไว้ด้านล่าง

คุณลักษณะ:

npreg - จำนวนครั้งที่ตั้งครรภ์
กลูโคส - ความเข้มข้นของกลูโคสในพลาสมา
bp - ความดันโลหิต
ผิวหนัง - Triceps skinfold thickness
bmi - ดัชนีมวลกาย
ped - ฟังก์ชั่นสายเลือดของโรคเบาหวาน
อายุ - อายุ
รายรับ - รายได้

ขั้นตอนที่ 2:

ตอนนี้เมื่อเรามีข้อมูลแล้วเราจำเป็นต้องทำความสะอาดและเตรียมข้อมูลสำหรับการวิเคราะห์ข้อมูล
ข้อมูลนี้มีความไม่สอดคล้องกันมากมายเช่นค่าที่ขาดหายไปคอลัมน์ว่างค่าทันทีและรูปแบบข้อมูลที่ไม่ถูกต้องซึ่งจำเป็นต้องทำความสะอาด
ที่นี่เราได้จัดระเบียบข้อมูลเป็นตารางเดียวภายใต้แอตทริบิวต์ที่แตกต่างกันทำให้ดูมีโครงสร้างมากขึ้น
ลองดูข้อมูลตัวอย่างด้านล่าง

Data Science ข้อมูลไม่สอดคล้องกัน - Edureka

ข้อมูลนี้มีความไม่สอดคล้องกันมาก

ในคอลัมน์ npreg , 'one' เขียนเป็นคำ,ในขณะที่ควรอยู่ในรูปแบบตัวเลขเช่น 1
ในคอลัมน์ bp ค่าหนึ่งคือ 6600 ซึ่งเป็นไปไม่ได้ (อย่างน้อยสำหรับมนุษย์) เนื่องจาก bp ไม่สามารถเพิ่มมูลค่ามหาศาลได้
อย่างที่คุณเห็นไฟล์ รายได้ คอลัมน์ว่างเปล่าและไม่มีเหตุผลในการทำนายโรคเบาหวาน ดังนั้นจึงเป็นเรื่องซ้ำซ้อนที่จะมีที่นี่และควรลบออกจากตาราง

ดังนั้นเราจะทำความสะอาดและประมวลผลข้อมูลนี้ล่วงหน้าโดยการลบค่าผิดปกติกรอกค่าว่างและปรับประเภทข้อมูลให้เป็นมาตรฐาน หากคุณจำได้นี่เป็นช่วงที่สองของเราซึ่งเป็นการประมวลผลข้อมูลล่วงหน้า
สุดท้ายเราได้ข้อมูลที่สะอาดดังที่แสดงด้านล่างซึ่งสามารถใช้ในการวิเคราะห์ได้

ข้อมูลที่สอดคล้องกันของ Data Science - Edureka

ขั้นตอนที่ 3:

ตอนนี้เรามาทำการวิเคราะห์ตามที่กล่าวไว้ก่อนหน้าในระยะที่ 3

ขั้นแรกเราจะโหลดข้อมูลลงในแซนด์บ็อกซ์เชิงวิเคราะห์และใช้ฟังก์ชันทางสถิติต่างๆ ตัวอย่างเช่น R มีฟังก์ชันเช่น อธิบาย ซึ่งให้จำนวนค่าที่ขาดหายไปและค่าที่ไม่ซ้ำกัน นอกจากนี้เรายังสามารถใช้ฟังก์ชันสรุปซึ่งจะให้ข้อมูลทางสถิติเช่นค่าเฉลี่ยค่ามัธยฐานช่วงค่าต่ำสุดและค่าสูงสุด
จากนั้นเราใช้เทคนิคการสร้างภาพเช่นฮิสโตแกรมกราฟเส้นพล็อตกล่องเพื่อให้ได้แนวคิดที่เป็นธรรมเกี่ยวกับการกระจายข้อมูล

การแสดงภาพวิทยาศาสตร์ข้อมูล - Edureka

ขั้นตอนที่ 4:

ตอนนี้จากข้อมูลเชิงลึกที่ได้มาจากขั้นตอนที่แล้วสิ่งที่เหมาะสมที่สุดสำหรับปัญหาประเภทนี้คือโครงสร้างการตัดสินใจ มาดูกันว่า?

เนื่องจากเรามีแอตทริบิวต์หลักสำหรับการวิเคราะห์เช่น npreg, bmi ฯลฯ ดังนั้นเราจะใช้เทคนิคการเรียนรู้ภายใต้การดูแลเพื่อสร้างโมเดลที่นี่
นอกจากนี้เราได้ใช้โครงสร้างการตัดสินใจโดยเฉพาะอย่างยิ่งเนื่องจากใช้คุณลักษณะทั้งหมดในการพิจารณาครั้งเดียวเช่นเดียวกับที่มีกความสัมพันธ์เชิงเส้นเช่นเดียวกับความสัมพันธ์ที่ไม่ใช่เชิงเส้น ในกรณีของเราเรามีความสัมพันธ์เชิงเส้นระหว่าง npreg และ อายุ, ในขณะที่ความสัมพันธ์แบบไม่เชิงเส้นระหว่าง npreg และ เท้า .
แบบจำลองแผนผังการตัดสินใจนั้นมีประสิทธิภาพมากเช่นกันเนื่องจากเราสามารถใช้แอตทริบิวต์ที่แตกต่างกันเพื่อสร้างต้นไม้ต่างๆจากนั้นจึงนำไปใช้อย่างมีประสิทธิภาพสูงสุด

มาดูโครงสร้างการตัดสินใจของเรากัน

ออกแบบชุดข้อมูลต้นไม้

คือ - ความสัมพันธ์ java

ที่นี่พารามิเตอร์ที่สำคัญที่สุดคือระดับของกลูโคสดังนั้นจึงเป็นโหนดรากของเรา ตอนนี้โหนดปัจจุบันและค่าของมันจะกำหนดพารามิเตอร์ที่สำคัญถัดไปที่จะต้องดำเนินการ มันจะดำเนินต่อไปจนกว่าเราจะได้ผลลัพธ์ในรูปของ ตำแหน่ง หรือ ลบ . Pos หมายถึงแนวโน้มของการเป็นโรคเบาหวานเป็นบวกและเป็นลบหมายถึงแนวโน้มของการเป็นโรคเบาหวานเป็นลบ

หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการนำโครงสร้างการตัดสินใจไปใช้งานโปรดดูที่บล็อกนี้

ขั้นตอนที่ 5:

ในขั้นตอนนี้เราจะดำเนินโครงการนำร่องขนาดเล็กเพื่อตรวจสอบว่าผลลัพธ์ของเราเหมาะสมหรือไม่ นอกจากนี้เรายังจะมองหาข้อ จำกัด ด้านประสิทธิภาพหากมี หากผลลัพธ์ไม่ถูกต้องเราจำเป็นต้องจำลองและสร้างแบบจำลองใหม่

ขั้นตอนที่ 6:

เมื่อเราดำเนินโครงการสำเร็จแล้วเราจะแบ่งปันผลลัพธ์สำหรับการปรับใช้เต็มรูปแบบ

การเป็น Data Scientist พูดง่ายกว่าทำ มาดูกันว่าคุณต้องมีอะไรบ้างในการเป็นนักวิทยาศาสตร์ข้อมูลนักวิทยาศาสตร์ข้อมูลต้องการทักษะโดยพื้นฐานจากสามพื้นที่หลักดังแสดงด้านล่าง

ทักษะวิทยาศาสตร์ข้อมูล - Edureka

ดังที่คุณเห็นในภาพด้านบนคุณจำเป็นต้องได้รับทักษะที่ยากและทักษะอ่อนต่างๆ คุณต้องเก่ง สถิติ และ คณิตศาสตร์ เพื่อวิเคราะห์และแสดงภาพข้อมูล ไม่จำเป็นต้องพูด การเรียนรู้ของเครื่อง เป็นหัวใจสำคัญของ Data Science และต้องการให้คุณเก่ง นอกจากนี้คุณต้องมีความเข้าใจที่มั่นคงเกี่ยวกับไฟล์ โดเมน คุณกำลังดำเนินการเพื่อทำความเข้าใจปัญหาทางธุรกิจอย่างชัดเจน งานของคุณไม่ได้สิ้นสุดที่นี่ คุณควรมีความสามารถในการใช้อัลกอริทึมต่างๆที่ต้องใช้ให้ดี การเข้ารหัส ทักษะ. สุดท้ายเมื่อคุณได้ทำการตัดสินใจที่สำคัญบางอย่างแล้วสิ่งสำคัญคือคุณต้องส่งมอบให้กับผู้มีส่วนได้ส่วนเสีย ดีมาก การสื่อสาร จะเพิ่มคะแนนบราวนี่ให้กับทักษะของคุณอย่างแน่นอน

ฉันขอให้คุณดูวิดีโอบทแนะนำ Data Science ซึ่งอธิบายว่า Data Science คืออะไรและทั้งหมดที่เราได้พูดคุยกันในบล็อก เอาเลยดูวิดีโอแล้วบอกฉันว่าคุณคิดอย่างไร

วิทยาศาสตร์ข้อมูลคืออะไร? หลักสูตร Data Science - การสอนวิทยาศาสตร์ข้อมูลสำหรับผู้เริ่มต้น | Edureka

วิดีโอหลักสูตร Edureka Data Science นี้จะนำคุณไปสู่ความต้องการของวิทยาศาสตร์ข้อมูลวิทยาศาสตร์ข้อมูลคืออะไรกรณีการใช้วิทยาศาสตร์ข้อมูลสำหรับธุรกิจ BI เทียบกับวิทยาศาสตร์ข้อมูลเครื่องมือวิเคราะห์ข้อมูลวงจรชีวิตวิทยาศาสตร์ข้อมูลพร้อมกับการสาธิต

ในท้ายที่สุดก็ไม่ผิดที่จะบอกว่าอนาคตเป็นของนักวิทยาศาสตร์ข้อมูล มีการคาดการณ์ว่าภายในสิ้นปี 2018 จะมีความต้องการ Data Scientists ราวหนึ่งล้านคน ข้อมูลที่มากขึ้นจะให้โอกาสในการตัดสินใจทางธุรกิจที่สำคัญ ในไม่ช้ามันจะเปลี่ยนวิธีที่เรามองโลกที่เต็มไปด้วยข้อมูลรอบตัวเรา ดังนั้นนักวิทยาศาสตร์ข้อมูลควรมีทักษะสูงและมีแรงจูงใจในการแก้ปัญหาที่ซับซ้อนที่สุด

ฉันหวังว่าคุณจะสนุกกับการอ่านบล็อกของฉันและเข้าใจว่า Data Science คืออะไรตรวจสอบ ที่นี่ซึ่งมาพร้อมกับการฝึกอบรมสดที่นำโดยผู้สอนและประสบการณ์โครงการในชีวิตจริง

วิทยาศาสตร์ข้อมูลคืออะไร? คู่มือสำหรับผู้เริ่มต้นใช้งาน Data Science

Data Science คืออะไร?

ทำไมต้องเป็น Data Science

Data Scientist คือใคร

Data Scientist ทำอะไร

Business Intelligence (BI) กับ Data Science

วงจรชีวิตของวิทยาศาสตร์ข้อมูล

กรณีศึกษา: การป้องกันโรคเบาหวาน

หมวดหมู่

Popular Articles

บทช่วยสอน HDFS: ข้อมูลเบื้องต้นเกี่ยวกับ HDFS และคุณสมบัติต่างๆ

สิ่งที่คุณต้องรู้เกี่ยวกับบูลีนใน Python

บทแนะนำ Microsoft Azure - การประมวลผลแบบคลาวด์ด้วย Azure

Hadoop Streaming: การเขียนโปรแกรม Hadoop MapReduce ใน Python

แอป iOS: ทำงานร่วมกับ MultiComponent Picker

การติดตั้ง Apache Hive บน Ubuntu

VLOOKUP ใน Excel คืออะไรและจะใช้อย่างไร?

JavaScript Regex - นิพจน์ทั่วไปที่สำคัญที่คุณต้องรู้

บทช่วยสอนสำหรับเชฟ - เปลี่ยนโครงสร้างพื้นฐานให้เป็นรหัส

จะเรียกใช้อินสแตนซ์ EC2 จาก AMI ที่กำหนดเองได้อย่างไร

วิธีการติดตั้ง Operator Overloading ใน c ++

สิ่งที่คุณควรรู้เกี่ยวกับ Java Virtual Machine