เมื่อโลกเข้าสู่ยุคของข้อมูลขนาดใหญ่ความต้องการพื้นที่จัดเก็บข้อมูลก็เพิ่มขึ้นเช่นกัน ถือเป็นความท้าทายและความกังวลหลักสำหรับอุตสาหกรรมระดับองค์กรจนถึงปี 2010 จุดสนใจหลักคือการสร้างกรอบและโซลูชันในการจัดเก็บข้อมูล ตอนนี้เมื่อ Hadoop และเฟรมเวิร์กอื่น ๆ แก้ไขปัญหาการจัดเก็บข้อมูลได้สำเร็จโฟกัสได้เปลี่ยนไปที่การประมวลผลข้อมูลนี้ Data Science เป็นซอสลับของที่นี่ แนวคิดทั้งหมดที่คุณเห็นในภาพยนตร์ไซไฟฮอลลีวูดสามารถเปลี่ยนเป็นความจริงได้โดย Data Science Data Science คืออนาคตของปัญญาประดิษฐ์ ดังนั้นจึงเป็นเรื่องสำคัญมากที่จะต้องทำความเข้าใจว่า Data Science คืออะไรและจะเพิ่มมูลค่าให้กับธุรกิจของคุณได้อย่างไร
Edureka 2019 Tech Career Guide ออกแล้ว! บทบาทงานที่ร้อนแรงที่สุดเส้นทางการเรียนรู้ที่แม่นยำแนวโน้มอุตสาหกรรมและอื่น ๆ ในคู่มือ ดาวน์โหลด ตอนนี้.ในบล็อกนี้ฉันจะพูดถึงหัวข้อต่อไปนี้
- Data Science คืออะไร?
- ทำไมต้องเป็น Data Science
- Data Scientist คือใคร
- แตกต่างจาก Business Intelligence (BI) และ Data Science อย่างไร?
- วงจรชีวิตของ Data Science ด้วยความช่วยเหลือของกรณีการใช้งาน
ในตอนท้ายของบล็อกนี้คุณจะสามารถเข้าใจว่า Data Science คืออะไรและมีบทบาทอย่างไรในการดึงข้อมูลเชิงลึกที่มีความหมายจากข้อมูลที่ซับซ้อนและมีขนาดใหญ่ที่อยู่รอบตัวเราหากต้องการรับความรู้เชิงลึกเกี่ยวกับ Data Science คุณสามารถลงทะเบียนแบบสดได้ โดย Edureka พร้อมการสนับสนุนตลอด 24 ชั่วโมงทุกวันและการเข้าถึงตลอดชีวิต
Data Science คืออะไร?
Data Science เป็นการผสมผสานระหว่างเครื่องมืออัลกอริทึมและหลักการเรียนรู้ของเครื่องที่หลากหลายโดยมีเป้าหมายเพื่อค้นหารูปแบบที่ซ่อนอยู่จากข้อมูลดิบ แต่สิ่งนี้แตกต่างจากที่นักสถิติทำมาหลายปีอย่างไร?
คำตอบอยู่ที่ความแตกต่างระหว่างการอธิบายและการทำนาย
ดังที่คุณเห็นจากภาพด้านบนนักวิเคราะห์ข้อมูลโดยปกติจะอธิบายถึงสิ่งที่เกิดขึ้นโดยการประมวลผลประวัติของข้อมูล ในทางกลับกัน Data Scientist ไม่เพียงทำการวิเคราะห์เชิงสำรวจเพื่อค้นหาข้อมูลเชิงลึกจากข้อมูลนี้เท่านั้น แต่ยังใช้อัลกอริธึมการเรียนรู้ของเครื่องขั้นสูงต่างๆเพื่อระบุการเกิดเหตุการณ์เฉพาะในอนาคตอีกด้วย นักวิทยาศาสตร์ข้อมูลจะดูข้อมูลจากหลาย ๆ มุมซึ่งบางครั้งอาจไม่ทราบมุมมองก่อนหน้านี้
ดังนั้น Data Science จึงถูกใช้เป็นหลักในการตัดสินใจและการคาดการณ์โดยใช้การวิเคราะห์เชิงสาเหตุเชิงคาดการณ์การวิเคราะห์เชิงกำหนด (วิทยาศาสตร์เชิงทำนายบวกกับการตัดสินใจ) และการเรียนรู้ของเครื่อง
- การวิเคราะห์เชิงสาเหตุเชิงคาดการณ์ - หากคุณต้องการแบบจำลองที่สามารถทำนายความเป็นไปได้ของเหตุการณ์ใดเหตุการณ์หนึ่งในอนาคตคุณต้องใช้การวิเคราะห์เชิงสาเหตุเชิงคาดการณ์ สมมติว่าหากคุณให้เงินเป็นเครดิตความน่าจะเป็นที่ลูกค้าจะชำระเงินเครดิตในอนาคตตรงเวลาเป็นเรื่องที่คุณกังวล ที่นี่คุณสามารถสร้างแบบจำลองที่สามารถทำการวิเคราะห์เชิงคาดการณ์เกี่ยวกับประวัติการชำระเงินของลูกค้าเพื่อคาดการณ์ว่าการชำระเงินในอนาคตจะตรงเวลาหรือไม่
- การวิเคราะห์เชิงกำหนด: หากคุณต้องการแบบจำลองที่มีความฉลาดในการตัดสินใจของตัวเองและความสามารถในการแก้ไขด้วยพารามิเตอร์แบบไดนามิกคุณต้องมีการวิเคราะห์ที่กำหนดไว้ล่วงหน้า สนามที่ค่อนข้างใหม่นี้เป็นข้อมูลเกี่ยวกับการให้คำแนะนำ ในอีกแง่หนึ่งไม่เพียง แต่คาดการณ์ แต่ยังแนะนำการดำเนินการที่กำหนดและผลลัพธ์ที่เกี่ยวข้อง
ตัวอย่างที่ดีที่สุดสำหรับกรณีนี้คือรถขับเคลื่อนด้วยตนเองของ Google ซึ่งฉันได้พูดคุยกันก่อนหน้านี้เช่นกัน ข้อมูลที่รวบรวมโดยยานพาหนะสามารถใช้ในการฝึกรถยนต์ที่ขับเคลื่อนด้วยตนเอง คุณสามารถเรียกใช้อัลกอริทึมบนข้อมูลนี้เพื่อนำความฉลาดมาสู่ข้อมูลนั้น วิธีนี้จะช่วยให้รถของคุณสามารถตัดสินใจได้เช่นเวลาที่จะเลี้ยวว่าจะไปทางไหน,เมื่อใดที่จะชะลอตัวหรือเร่งความเร็ว
- การเรียนรู้ของเครื่องสำหรับการคาดการณ์ - หากคุณมีข้อมูลธุรกรรมของ บริษัท เงินทุนและจำเป็นต้องสร้างแบบจำลองเพื่อกำหนดแนวโน้มในอนาคตอัลกอริทึมการเรียนรู้ของเครื่องเป็นทางออกที่ดีที่สุด สิ่งนี้อยู่ภายใต้กระบวนทัศน์ของการเรียนรู้ภายใต้การดูแล เรียกว่าอยู่ภายใต้การดูแลเนื่องจากคุณมีข้อมูลตามที่คุณสามารถฝึกเครื่องจักรได้ ตัวอย่างเช่นรูปแบบการตรวจจับการฉ้อโกงสามารถฝึกได้โดยใช้ประวัติการซื้อสินค้าที่ฉ้อโกง
- การเรียนรู้ของเครื่องเพื่อการค้นพบรูปแบบ - หากคุณไม่มีพารามิเตอร์ตามที่คุณสามารถคาดคะเนได้คุณต้องหารูปแบบที่ซ่อนอยู่ภายในชุดข้อมูลเพื่อให้สามารถคาดเดาได้อย่างมีความหมาย นี่ไม่ใช่อะไรเลยนอกจากโมเดลที่ไม่มีการดูแลเนื่องจากคุณไม่มีป้ายกำกับที่กำหนดไว้ล่วงหน้าสำหรับการจัดกลุ่ม อัลกอริทึมทั่วไปที่ใช้สำหรับการค้นหารูปแบบคือการทำคลัสเตอร์
สมมติว่าคุณทำงานใน บริษัท โทรศัพท์และคุณต้องสร้างเครือข่ายโดยวางเสาสัญญาณในภูมิภาค จากนั้นคุณสามารถใช้เทคนิคการจัดกลุ่มเพื่อค้นหาตำแหน่งหอคอยเหล่านั้นซึ่งจะช่วยให้มั่นใจได้ว่าผู้ใช้ทุกคนจะได้รับความแรงของสัญญาณที่เหมาะสม
มาดูกันว่าสัดส่วนของแนวทางที่อธิบายไว้ข้างต้นแตกต่างกันอย่างไรสำหรับการวิเคราะห์ข้อมูลและวิทยาศาสตร์ข้อมูล ดังที่คุณเห็นในภาพด้านล่างการวิเคราะห์ข้อมูลรวมถึงการวิเคราะห์เชิงพรรณนาและการคาดการณ์ในระดับหนึ่ง ในทางกลับกัน Data Science เป็นข้อมูลเพิ่มเติมเกี่ยวกับ Predictive Causal Analytics และ Machine Learning
ตอนนี้คุณรู้แล้วว่า Data Science คืออะไรมาดูเหตุผลว่าทำไมจึงจำเป็นต้องมีตั้งแต่แรก
ทำไมต้องเป็น Data Science
- ตามเนื้อผ้าข้อมูลที่เรามีส่วนใหญ่มีโครงสร้างและมีขนาดเล็กซึ่งสามารถวิเคราะห์ได้โดยใช้เครื่องมือ BI อย่างง่ายไม่เหมือนกับข้อมูลในไฟล์ระบบดั้งเดิมซึ่งส่วนใหญ่มีโครงสร้างปัจจุบันข้อมูลส่วนใหญ่ไม่มีโครงสร้างหรือกึ่งโครงสร้าง มาดูแนวโน้มข้อมูลในรูปภาพด้านล่างซึ่งแสดงให้เห็นว่าภายในปี 2020 ข้อมูลมากกว่า 80% จะไม่มีโครงสร้าง
ข้อมูลนี้สร้างขึ้นจากแหล่งต่างๆเช่นบันทึกทางการเงินไฟล์ข้อความรูปแบบมัลติมีเดียเซ็นเซอร์และเครื่องมือ เครื่องมือ BI อย่างง่ายไม่สามารถประมวลผลข้อมูลจำนวนมหาศาลและข้อมูลที่หลากหลายนี้ได้ นี่คือเหตุผลที่เราต้องการเครื่องมือวิเคราะห์และอัลกอริทึมที่ซับซ้อนและซับซ้อนมากขึ้นสำหรับการประมวลผลวิเคราะห์และดึงข้อมูลเชิงลึกที่มีความหมายออกมา
นี่ไม่ใช่เหตุผลเดียวที่ Data Science ได้รับความนิยมอย่างมาก มาดูรายละเอียดเพิ่มเติมว่า Data Science ถูกนำไปใช้ในโดเมนต่างๆอย่างไร
- แล้วคุณจะเข้าใจข้อกำหนดที่ชัดเจนของลูกค้าได้อย่างไรจากข้อมูลที่มีอยู่เช่นประวัติการเข้าชมในอดีตของลูกค้าประวัติการซื้ออายุและรายได้ ไม่ต้องสงสัยเลยว่าคุณมีข้อมูลทั้งหมดนี้ก่อนหน้านี้เช่นกัน แต่ตอนนี้ด้วยข้อมูลจำนวนมากและหลากหลายคุณสามารถฝึกโมเดลได้อย่างมีประสิทธิภาพมากขึ้นและแนะนำผลิตภัณฑ์ให้กับลูกค้าของคุณด้วยความแม่นยำมากขึ้น จะไม่น่าแปลกใจที่จะนำธุรกิจมาสู่องค์กรของคุณมากขึ้น?
- ลองใช้สถานการณ์อื่นเพื่อทำความเข้าใจบทบาทของ Data Science การตัดสินใจ.ถ้ารถของคุณมีสติปัญญาพอที่จะขับรถกลับบ้านได้ล่ะ? รถยนต์ที่ขับเคลื่อนด้วยตัวเองจะรวบรวมข้อมูลสดจากเซ็นเซอร์รวมถึงเรดาร์กล้องและเลเซอร์เพื่อสร้างแผนที่โดยรอบ จากข้อมูลนี้จะใช้เวลาในการตัดสินใจเช่นเมื่อใดควรเร่งความเร็วเมื่อใดควรแซงเมื่อใดควรเลี้ยวโดยใช้อัลกอริทึมการเรียนรู้ของเครื่องขั้นสูง
- มาดูกันว่าสามารถใช้ Data Science ในการวิเคราะห์เชิงคาดการณ์ได้อย่างไร เรามาดูการพยากรณ์อากาศเป็นตัวอย่างกัน ข้อมูลจากเรือเครื่องบินเรดาร์ดาวเทียมสามารถรวบรวมและวิเคราะห์เพื่อสร้างแบบจำลองได้ แบบจำลองเหล่านี้ไม่เพียง แต่จะพยากรณ์อากาศเท่านั้น แต่ยังช่วยในการทำนายการเกิดภัยพิบัติทางธรรมชาติอีกด้วย มันจะช่วยให้คุณใช้มาตรการที่เหมาะสมล่วงหน้าและช่วยชีวิตอันมีค่ามากมาย
ลองดูอินโฟกราฟิกด้านล่างเพื่อดูโดเมนทั้งหมดที่ Data Science สร้างความประทับใจ
Data Scientist คือใคร
มีคำจำกัดความหลายประการใน Data Scientists กล่าวง่ายๆคือ Data Scientist คือผู้ที่ฝึกฝนศิลปะของ Data Scienceคำว่า 'Data Scientist' คือประกาศเกียรติคุณหลังจากพิจารณาข้อเท็จจริงที่ว่านักวิทยาศาสตร์ข้อมูลดึงข้อมูลจำนวนมากจากสาขาวิทยาศาสตร์และการประยุกต์ใช้ไม่ว่าจะเป็นสถิติหรือคณิตศาสตร์
Data Scientist ทำอะไร
นักวิทยาศาสตร์ด้านข้อมูลคือผู้ที่แก้ไขปัญหาข้อมูลที่ซับซ้อนด้วยความเชี่ยวชาญที่แข็งแกร่งในสาขาวิทยาศาสตร์บางสาขา พวกเขาทำงานกับองค์ประกอบหลายอย่างที่เกี่ยวข้องกับคณิตศาสตร์สถิติวิทยาศาสตร์คอมพิวเตอร์ ฯลฯ (แม้ว่าพวกเขาอาจไม่ใช่ผู้เชี่ยวชาญในสาขาเหล่านี้ทั้งหมด)พวกเขาใช้ประโยชน์จากเทคโนโลยีล่าสุดในการค้นหาโซลูชันและบรรลุข้อสรุปที่สำคัญต่อการเติบโตและการพัฒนาขององค์กร นักวิทยาศาสตร์ข้อมูลนำเสนอข้อมูลในรูปแบบที่มีประโยชน์มากกว่าเมื่อเทียบกับข้อมูลดิบที่มีให้จากรูปแบบที่มีโครงสร้างและไม่มีโครงสร้าง
หากต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับ Data Scientist คุณสามารถดูบทความนี้ได้ที่
ก้าวต่อไปให้พูดคุยเกี่ยวกับ BI ฉันแน่ใจว่าคุณอาจเคยได้ยิน Business Intelligence (BI) ด้วย บ่อยครั้งที่ Data Science สับสนกับ BI ฉันจะพูดอย่างกระชับและชัดเจนความแตกต่างระหว่างทั้งสองซึ่งจะช่วยให้คุณเข้าใจได้ดีขึ้น มาดูกัน
Business Intelligence (BI) กับ Data Science
- Business Intelligence (BI) โดยพื้นฐานแล้วจะวิเคราะห์ข้อมูลก่อนหน้านี้เพื่อค้นหาการมองย้อนกลับและข้อมูลเชิงลึกเพื่ออธิบายแนวโน้มของธุรกิจ BI ที่นี่ช่วยให้คุณสามารถรับข้อมูลจากแหล่งภายนอกและภายในจัดเตรียมเรียกใช้แบบสอบถามและสร้างแดชบอร์ดเพื่อตอบคำถามเช่นการวิเคราะห์รายได้รายไตรมาสหรือปัญหาทางธุรกิจ BI สามารถประเมินผลกระทบของเหตุการณ์บางอย่างในอนาคตอันใกล้
- Data Science เป็นแนวทางที่คาดการณ์ล่วงหน้ามากขึ้นซึ่งเป็นวิธีการสำรวจโดยมุ่งเน้นที่การวิเคราะห์ข้อมูลในอดีตหรือปัจจุบันและคาดการณ์ผลลัพธ์ในอนาคตโดยมีจุดประสงค์เพื่อการตัดสินใจอย่างมีข้อมูล จะตอบคำถามปลายเปิดว่าเหตุการณ์“ อะไร” และ“ อย่างไร”
มาดูคุณสมบัติที่ตัดกันกัน
คุณสมบัติ | ระบบธุรกิจอัจฉริยะ (BI) | วิทยาศาสตร์ข้อมูล |
แหล่งข้อมูล | มีโครงสร้าง (โดยปกติคือ SQL มักเป็น Data Warehouse) | ทั้งแบบมีโครงสร้างและไม่มีโครงสร้าง (บันทึก, ข้อมูลบนคลาวด์, SQL, NoSQL, ข้อความ) |
วิธีการ | สถิติและการแสดงภาพ | สถิติ, การเรียนรู้ของเครื่อง, การวิเคราะห์กราฟ, การเขียนโปรแกรมภาษาระบบประสาท (NLP) |
โฟกัส | ในอดีตและปัจจุบัน | ปัจจุบันและอนาคต |
เครื่องมือ | Pentaho, Microsoft BI,QlikView, R | RapidMiner, BigML, Weka, R |
ทั้งหมดนี้เกี่ยวกับวิทยาศาสตร์ข้อมูลคืออะไรตอนนี้เรามาทำความเข้าใจวงจรชีวิตของ Data Science กัน
ข้อผิดพลาดทั่วไปที่เกิดขึ้นในโครงการ Data Science กำลังเร่งดำเนินการรวบรวมและวิเคราะห์ข้อมูลโดยไม่เข้าใจข้อกำหนดหรือแม้แต่กำหนดกรอบปัญหาทางธุรกิจให้ถูกต้อง ดังนั้นจึงเป็นเรื่องสำคัญมากที่คุณจะต้องปฏิบัติตามขั้นตอนทั้งหมดตลอดวงจรชีวิตของ Data Science เพื่อให้แน่ใจว่าโครงการจะทำงานได้อย่างราบรื่น
สร้างอาร์เรย์ของวัตถุ java
วงจรชีวิตของวิทยาศาสตร์ข้อมูล
นี่คือภาพรวมคร่าวๆของขั้นตอนหลักของวงจรชีวิตวิทยาศาสตร์ข้อมูล:
ระยะที่ 1 - การค้นพบ: ก่อนที่คุณจะเริ่มโครงการสิ่งสำคัญคือต้องทำความเข้าใจข้อกำหนดข้อกำหนดลำดับความสำคัญและงบประมาณที่จำเป็นต่างๆ คุณต้องมีความสามารถในการถามคำถามที่ถูกต้องที่นี่คุณจะประเมินว่าคุณมีทรัพยากรที่จำเป็นทั้งในด้านคนเทคโนโลยีเวลาและข้อมูลเพื่อสนับสนุนโครงการหรือไม่ในขั้นตอนนี้คุณต้องวางกรอบปัญหาทางธุรกิจและกำหนดสมมติฐานเบื้องต้น (IH) เพื่อทดสอบ
ผ่านการอ้างอิงใน java
ระยะที่ 2 - การเตรียมข้อมูล: ในขั้นตอนนี้คุณต้องมีแซนด์บ็อกซ์การวิเคราะห์ซึ่งคุณสามารถทำการวิเคราะห์ได้ตลอดระยะเวลาของโครงการ คุณต้องสำรวจประมวลผลและเงื่อนไขข้อมูลก่อนการสร้างแบบจำลอง นอกจากนี้คุณจะดำเนินการ ETLT (แยกแปลงโหลดและแปลง) เพื่อรับข้อมูลลงในแซนด์บ็อกซ์ ลองดูขั้นตอนการวิเคราะห์ทางสถิติด้านล่าง
คุณสามารถใช้ R สำหรับการล้างข้อมูลการแปลงและการแสดงภาพ สิ่งนี้จะช่วยให้คุณระบุจุดผิดปกติและสร้างความสัมพันธ์ระหว่างตัวแปรเมื่อคุณทำความสะอาดและเตรียมข้อมูลเรียบร้อยแล้วก็ถึงเวลาทำการสำรวจการวิเคราะห์กับมัน มาดูกันว่าคุณจะบรรลุเป้าหมายนั้นได้อย่างไร
ระยะที่ 3 - การวางแผนแบบจำลอง: ที่นี่คุณจะกำหนดวิธีการและเทคนิคในการวาดความสัมพันธ์ระหว่างตัวแปรความสัมพันธ์เหล่านี้จะกำหนดฐานของอัลกอริทึมที่คุณจะนำไปใช้ในขั้นตอนต่อไปคุณจะใช้ Exploratory Data Analytics (EDA) โดยใช้สูตรทางสถิติและเครื่องมือแสดงภาพต่างๆ
มาดูเครื่องมือวางแผนโมเดลต่างๆกัน
- ร มีความสามารถในการสร้างแบบจำลองที่สมบูรณ์และมีสภาพแวดล้อมที่ดีสำหรับการสร้างแบบจำลองเชิงตีความ.
- บริการวิเคราะห์ SQL สามารถทำการวิเคราะห์ในฐานข้อมูลโดยใช้ฟังก์ชันการขุดข้อมูลทั่วไปและแบบจำลองการคาดการณ์พื้นฐาน
- SAS / การเข้าถึง สามารถใช้เพื่อเข้าถึงข้อมูลจาก Hadoop และใช้สำหรับการสร้างโฟลว์ไดอะแกรมแบบจำลองที่ทำซ้ำได้และใช้ซ้ำได้
แม้ว่าจะมีเครื่องมือมากมายในตลาด แต่ R เป็นเครื่องมือที่ใช้บ่อยที่สุด
ตอนนี้คุณมีข้อมูลเชิงลึกเกี่ยวกับลักษณะของข้อมูลของคุณแล้วและได้ตัดสินใจเลือกอัลกอริทึมที่จะใช้แล้ว ในขั้นตอนต่อไปคุณจะสมัครอัลกอริทึมและสร้างแบบจำลอง
ระยะที่ 4 - การสร้างแบบจำลอง: ในขั้นตอนนี้คุณจะพัฒนาชุดข้อมูลเพื่อการฝึกอบรมและการทดสอบ ที่นี่ yคุณต้องพิจารณาว่าเครื่องมือที่มีอยู่ของคุณจะเพียงพอสำหรับการรันโมเดลหรือไม่หรือจะต้องมีสภาพแวดล้อมที่แข็งแกร่งมากขึ้น (เช่นการประมวลผลแบบเร็วและแบบขนาน) คุณจะวิเคราะห์เทคนิคการเรียนรู้ต่างๆเช่นการจำแนกการเชื่อมโยงและการจัดกลุ่มเพื่อสร้างแบบจำลอง
คุณสามารถสร้างโมเดลได้โดยใช้เครื่องมือต่อไปนี้
ระยะที่ 5 - การดำเนินงาน: ในขั้นตอนนี้คุณจะส่งรายงานขั้นสุดท้ายการบรรยายสรุปรหัสและเอกสารทางเทคนิคนอกจากนี้บางครั้งยังมีการนำโครงการนำร่องไปใช้ในสภาพแวดล้อมการผลิตแบบเรียลไทม์ สิ่งนี้จะช่วยให้คุณเห็นภาพที่ชัดเจนเกี่ยวกับประสิทธิภาพและข้อ จำกัด อื่น ๆ ที่เกี่ยวข้องในระดับเล็ก ๆ ก่อนที่จะใช้งานได้เต็มรูปแบบ
ระยะที่ 6 - สื่อสารผลลัพธ์: ตอนนี้สิ่งสำคัญคือต้องประเมินว่าคุณสามารถบรรลุเป้าหมายตามที่วางแผนไว้ในช่วงแรกได้หรือไม่ ดังนั้นในช่วงสุดท้ายคุณจะระบุการค้นพบที่สำคัญทั้งหมดสื่อสารกับผู้มีส่วนได้ส่วนเสียและพิจารณาว่าผลลัพธ์ของโครงการประสบความสำเร็จหรือล้มเหลวตามเกณฑ์ที่พัฒนาในระยะที่ 1
ตอนนี้ฉันจะใช้กรณีศึกษาเพื่ออธิบายขั้นตอนต่างๆที่อธิบายไว้ข้างต้น
กรณีศึกษา: การป้องกันโรคเบาหวาน
จะเป็นอย่างไรหากเราสามารถทำนายการเกิดโรคเบาหวานและใช้มาตรการที่เหมาะสมล่วงหน้าเพื่อป้องกันได้
ในกรณีการใช้งานนี้เราจะทำนายการเกิดโรคเบาหวานโดยใช้วงจรชีวิตทั้งหมดที่เรากล่าวถึงก่อนหน้านี้ มาดูขั้นตอนต่างๆกัน
ขั้นตอนที่ 1:
- ประการแรกเราจะรวบรวมข้อมูลตามประวัติทางการแพทย์ของผู้ป่วยตามที่กล่าวไว้ในระยะที่ 1 คุณสามารถดูข้อมูลตัวอย่างด้านล่าง
- อย่างที่คุณเห็นเรามีคุณลักษณะต่างๆดังที่กล่าวไว้ด้านล่าง
คุณลักษณะ:
- npreg - จำนวนครั้งที่ตั้งครรภ์
- กลูโคส - ความเข้มข้นของกลูโคสในพลาสมา
- bp - ความดันโลหิต
- ผิวหนัง - Triceps skinfold thickness
- bmi - ดัชนีมวลกาย
- ped - ฟังก์ชั่นสายเลือดของโรคเบาหวาน
- อายุ - อายุ
- รายรับ - รายได้
ขั้นตอนที่ 2:
- ตอนนี้เมื่อเรามีข้อมูลแล้วเราจำเป็นต้องทำความสะอาดและเตรียมข้อมูลสำหรับการวิเคราะห์ข้อมูล
- ข้อมูลนี้มีความไม่สอดคล้องกันมากมายเช่นค่าที่ขาดหายไปคอลัมน์ว่างค่าทันทีและรูปแบบข้อมูลที่ไม่ถูกต้องซึ่งจำเป็นต้องทำความสะอาด
- ที่นี่เราได้จัดระเบียบข้อมูลเป็นตารางเดียวภายใต้แอตทริบิวต์ที่แตกต่างกันทำให้ดูมีโครงสร้างมากขึ้น
- ลองดูข้อมูลตัวอย่างด้านล่าง
ข้อมูลนี้มีความไม่สอดคล้องกันมาก
- ในคอลัมน์ npreg , 'one' เขียนเป็นคำ,ในขณะที่ควรอยู่ในรูปแบบตัวเลขเช่น 1
- ในคอลัมน์ bp ค่าหนึ่งคือ 6600 ซึ่งเป็นไปไม่ได้ (อย่างน้อยสำหรับมนุษย์) เนื่องจาก bp ไม่สามารถเพิ่มมูลค่ามหาศาลได้
- อย่างที่คุณเห็นไฟล์ รายได้ คอลัมน์ว่างเปล่าและไม่มีเหตุผลในการทำนายโรคเบาหวาน ดังนั้นจึงเป็นเรื่องซ้ำซ้อนที่จะมีที่นี่และควรลบออกจากตาราง
- ดังนั้นเราจะทำความสะอาดและประมวลผลข้อมูลนี้ล่วงหน้าโดยการลบค่าผิดปกติกรอกค่าว่างและปรับประเภทข้อมูลให้เป็นมาตรฐาน หากคุณจำได้นี่เป็นช่วงที่สองของเราซึ่งเป็นการประมวลผลข้อมูลล่วงหน้า
- สุดท้ายเราได้ข้อมูลที่สะอาดดังที่แสดงด้านล่างซึ่งสามารถใช้ในการวิเคราะห์ได้
ขั้นตอนที่ 3:
ตอนนี้เรามาทำการวิเคราะห์ตามที่กล่าวไว้ก่อนหน้าในระยะที่ 3
- ขั้นแรกเราจะโหลดข้อมูลลงในแซนด์บ็อกซ์เชิงวิเคราะห์และใช้ฟังก์ชันทางสถิติต่างๆ ตัวอย่างเช่น R มีฟังก์ชันเช่น อธิบาย ซึ่งให้จำนวนค่าที่ขาดหายไปและค่าที่ไม่ซ้ำกัน นอกจากนี้เรายังสามารถใช้ฟังก์ชันสรุปซึ่งจะให้ข้อมูลทางสถิติเช่นค่าเฉลี่ยค่ามัธยฐานช่วงค่าต่ำสุดและค่าสูงสุด
- จากนั้นเราใช้เทคนิคการสร้างภาพเช่นฮิสโตแกรมกราฟเส้นพล็อตกล่องเพื่อให้ได้แนวคิดที่เป็นธรรมเกี่ยวกับการกระจายข้อมูล
ขั้นตอนที่ 4:
ตอนนี้จากข้อมูลเชิงลึกที่ได้มาจากขั้นตอนที่แล้วสิ่งที่เหมาะสมที่สุดสำหรับปัญหาประเภทนี้คือโครงสร้างการตัดสินใจ มาดูกันว่า?
- เนื่องจากเรามีแอตทริบิวต์หลักสำหรับการวิเคราะห์เช่น npreg, bmi ฯลฯ ดังนั้นเราจะใช้เทคนิคการเรียนรู้ภายใต้การดูแลเพื่อสร้างโมเดลที่นี่
- นอกจากนี้เราได้ใช้โครงสร้างการตัดสินใจโดยเฉพาะอย่างยิ่งเนื่องจากใช้คุณลักษณะทั้งหมดในการพิจารณาครั้งเดียวเช่นเดียวกับที่มีกความสัมพันธ์เชิงเส้นเช่นเดียวกับความสัมพันธ์ที่ไม่ใช่เชิงเส้น ในกรณีของเราเรามีความสัมพันธ์เชิงเส้นระหว่าง npreg และ อายุ, ในขณะที่ความสัมพันธ์แบบไม่เชิงเส้นระหว่าง npreg และ เท้า .
- แบบจำลองแผนผังการตัดสินใจนั้นมีประสิทธิภาพมากเช่นกันเนื่องจากเราสามารถใช้แอตทริบิวต์ที่แตกต่างกันเพื่อสร้างต้นไม้ต่างๆจากนั้นจึงนำไปใช้อย่างมีประสิทธิภาพสูงสุด
มาดูโครงสร้างการตัดสินใจของเรากัน
คือ - ความสัมพันธ์ java
ที่นี่พารามิเตอร์ที่สำคัญที่สุดคือระดับของกลูโคสดังนั้นจึงเป็นโหนดรากของเรา ตอนนี้โหนดปัจจุบันและค่าของมันจะกำหนดพารามิเตอร์ที่สำคัญถัดไปที่จะต้องดำเนินการ มันจะดำเนินต่อไปจนกว่าเราจะได้ผลลัพธ์ในรูปของ ตำแหน่ง หรือ ลบ . Pos หมายถึงแนวโน้มของการเป็นโรคเบาหวานเป็นบวกและเป็นลบหมายถึงแนวโน้มของการเป็นโรคเบาหวานเป็นลบ
หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการนำโครงสร้างการตัดสินใจไปใช้งานโปรดดูที่บล็อกนี้
ขั้นตอนที่ 5:
ในขั้นตอนนี้เราจะดำเนินโครงการนำร่องขนาดเล็กเพื่อตรวจสอบว่าผลลัพธ์ของเราเหมาะสมหรือไม่ นอกจากนี้เรายังจะมองหาข้อ จำกัด ด้านประสิทธิภาพหากมี หากผลลัพธ์ไม่ถูกต้องเราจำเป็นต้องจำลองและสร้างแบบจำลองใหม่
ขั้นตอนที่ 6:
เมื่อเราดำเนินโครงการสำเร็จแล้วเราจะแบ่งปันผลลัพธ์สำหรับการปรับใช้เต็มรูปแบบ
การเป็น Data Scientist พูดง่ายกว่าทำ มาดูกันว่าคุณต้องมีอะไรบ้างในการเป็นนักวิทยาศาสตร์ข้อมูลนักวิทยาศาสตร์ข้อมูลต้องการทักษะโดยพื้นฐานจากสามพื้นที่หลักดังแสดงด้านล่าง
ดังที่คุณเห็นในภาพด้านบนคุณจำเป็นต้องได้รับทักษะที่ยากและทักษะอ่อนต่างๆ คุณต้องเก่ง สถิติ และ คณิตศาสตร์ เพื่อวิเคราะห์และแสดงภาพข้อมูล ไม่จำเป็นต้องพูด การเรียนรู้ของเครื่อง เป็นหัวใจสำคัญของ Data Science และต้องการให้คุณเก่ง นอกจากนี้คุณต้องมีความเข้าใจที่มั่นคงเกี่ยวกับไฟล์ โดเมน คุณกำลังดำเนินการเพื่อทำความเข้าใจปัญหาทางธุรกิจอย่างชัดเจน งานของคุณไม่ได้สิ้นสุดที่นี่ คุณควรมีความสามารถในการใช้อัลกอริทึมต่างๆที่ต้องใช้ให้ดี การเข้ารหัส ทักษะ. สุดท้ายเมื่อคุณได้ทำการตัดสินใจที่สำคัญบางอย่างแล้วสิ่งสำคัญคือคุณต้องส่งมอบให้กับผู้มีส่วนได้ส่วนเสีย ดีมาก การสื่อสาร จะเพิ่มคะแนนบราวนี่ให้กับทักษะของคุณอย่างแน่นอน
ฉันขอให้คุณดูวิดีโอบทแนะนำ Data Science ซึ่งอธิบายว่า Data Science คืออะไรและทั้งหมดที่เราได้พูดคุยกันในบล็อก เอาเลยดูวิดีโอแล้วบอกฉันว่าคุณคิดอย่างไร
วิทยาศาสตร์ข้อมูลคืออะไร? หลักสูตร Data Science - การสอนวิทยาศาสตร์ข้อมูลสำหรับผู้เริ่มต้น | Edureka
วิดีโอหลักสูตร Edureka Data Science นี้จะนำคุณไปสู่ความต้องการของวิทยาศาสตร์ข้อมูลวิทยาศาสตร์ข้อมูลคืออะไรกรณีการใช้วิทยาศาสตร์ข้อมูลสำหรับธุรกิจ BI เทียบกับวิทยาศาสตร์ข้อมูลเครื่องมือวิเคราะห์ข้อมูลวงจรชีวิตวิทยาศาสตร์ข้อมูลพร้อมกับการสาธิต
ในท้ายที่สุดก็ไม่ผิดที่จะบอกว่าอนาคตเป็นของนักวิทยาศาสตร์ข้อมูล มีการคาดการณ์ว่าภายในสิ้นปี 2018 จะมีความต้องการ Data Scientists ราวหนึ่งล้านคน ข้อมูลที่มากขึ้นจะให้โอกาสในการตัดสินใจทางธุรกิจที่สำคัญ ในไม่ช้ามันจะเปลี่ยนวิธีที่เรามองโลกที่เต็มไปด้วยข้อมูลรอบตัวเรา ดังนั้นนักวิทยาศาสตร์ข้อมูลควรมีทักษะสูงและมีแรงจูงใจในการแก้ปัญหาที่ซับซ้อนที่สุด
ฉันหวังว่าคุณจะสนุกกับการอ่านบล็อกของฉันและเข้าใจว่า Data Science คืออะไรตรวจสอบ ที่นี่ซึ่งมาพร้อมกับการฝึกอบรมสดที่นำโดยผู้สอนและประสบการณ์โครงการในชีวิตจริง