ข้อกำหนดเบื้องต้นสำหรับการเรียนรู้ของเครื่องคืออะไร?



บล็อกนี้เกี่ยวกับข้อกำหนดเบื้องต้นสำหรับ Machine Learning จะช่วยให้คุณเข้าใจแนวคิดพื้นฐานที่คุณต้องรู้ก่อนเริ่มต้นใช้งาน Machine Learning

Machine Learning เป็นเทคโนโลยีที่เป็นที่ต้องการมากที่สุดแห่งยุคอย่างไม่ต้องสงสัย! หากคุณเป็นผู้เริ่มต้นที่จะเริ่มต้นใช้งาน Machine Learning สิ่งสำคัญคือคุณต้องทราบข้อกำหนดเบื้องต้นสำหรับ Machine Learning บล็อกนี้จะช่วยให้คุณเข้าใจแนวคิดต่างๆที่คุณต้องรู้ก่อนเริ่มใช้งาน Machine Learning

หากต้องการรับความรู้เชิงลึกเกี่ยวกับปัญญาประดิษฐ์และการเรียนรู้ของเครื่องคุณสามารถลงทะเบียนเพื่อใช้งานจริง โดย Edureka พร้อมการสนับสนุนตลอด 24 ชั่วโมงทุกวันและการเข้าถึงตลอดชีวิต





นี่คือรายการหัวข้อ กล่าวถึงในบล็อกนี้:

  1. ข้อกำหนดเบื้องต้นสำหรับการเรียนรู้ของเครื่อง
  2. การทำความเข้าใจเกี่ยวกับ Machine Learning ด้วยกรณีการใช้งาน

ข้อกำหนดเบื้องต้นสำหรับการเรียนรู้ของเครื่อง

ในการเริ่มต้นใช้งานMachine Learning คุณต้องคุ้นเคยกับแนวคิดต่อไปนี้:



  1. สถิติ
  2. พีชคณิตเชิงเส้น
  3. แคลคูลัส
  4. ความน่าจะเป็น
  5. ภาษาการเขียนโปรแกรม

สถิติ

สถิติประกอบด้วยเครื่องมือที่สามารถใช้เพื่อให้ได้ผลลัพธ์บางอย่างจากข้อมูล มีสถิติเชิงพรรณนาซึ่งใช้ในการแปลงข้อมูลดิบในข้อมูลสำคัญบางอย่าง นอกจากนี้สถิติเชิงอนุมานสามารถใช้เพื่อรับข้อมูลสำคัญจากตัวอย่างข้อมูลแทนที่จะใช้ชุดข้อมูลทั้งหมด

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ สถิติที่คุณสามารถดูได้จากบล็อกต่อไปนี้:

พีชคณิตเชิงเส้น

ข้อตกลงพีชคณิตเชิงเส้นด้วยเวกเตอร์เมทริกซ์และการแปลงเชิงเส้น เป็นสิ่งสำคัญมากในการเรียนรู้ของเครื่องเนื่องจากสามารถใช้ในการเปลี่ยนแปลงและดำเนินการกับชุดข้อมูลได้



แคลคูลัส

แคลคูลัสเป็นสาขาที่สำคัญในคณิตศาสตร์และมีบทบาทสำคัญในอัลกอริทึมการเรียนรู้ของเครื่องจำนวนมาก ชุดข้อมูลที่มีคุณสมบัติหลายประการคือใช้ในการสร้างโมเดลการเรียนรู้ของเครื่องเนื่องจากคุณสมบัติเป็นแคลคูลัสหลายตัวแปรมีบทบาทสำคัญในการสร้างแบบจำลองการเรียนรู้ของเครื่อง ต้องมีการผสมผสานและความแตกต่าง

ความน่าจะเป็น

ความน่าจะเป็นช่วยทำนายความเป็นไปได้ที่จะเกิดขึ้นช่วยให้เราสามารถหาเหตุผลได้ว่าสถานการณ์อาจจะเกิดขึ้นอีกหรือไม่ สำหรับการเรียนรู้ของเครื่องความน่าจะเป็นคือ รากฐาน.

Mathematics

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับความน่าจะเป็นคุณสามารถอ่านสิ่งนี้ได้ บล็อก

ภาษาโปรแกรม

จำเป็นอย่างยิ่งที่จะต้องรู้ภาษาโปรแกรมเช่น R และ Python เพื่อนำกระบวนการเรียนรู้ของเครื่องไปใช้ทั้งหมด Python และ R มีไลบรารีในตัวซึ่งทำให้ง่ายต่อการใช้อัลกอริธึม Machine Learning

วิธีการโอเวอร์โหลดและการแทนที่ในตัวอย่าง java

นอกเหนือจากการมีความรู้พื้นฐานด้านการเขียนโปรแกรมแล้วสิ่งสำคัญคือคุณต้องรู้วิธีแยกประมวลผลและวิเคราะห์ข้อมูล นี่เป็นหนึ่งในทักษะที่สำคัญที่สุดที่จำเป็นสำหรับ Machine Learning

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการเขียนโปรแกรม ภาษาสำหรับ Machine Learning คุณสามารถอ่านบล็อกต่อไปนี้:

  1. ไลบรารี Python ที่ดีที่สุดสำหรับวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง

กรณีการใช้งาน Machine Learning

แมชชีนเลิร์นนิงเป็นข้อมูลเกี่ยวกับการสร้างอัลกอริทึมที่สามารถเรียนรู้จากข้อมูลเพื่อทำการคาดคะเนเช่นชนิดของวัตถุที่มีอยู่ในภาพหรือเครื่องมือแนะนำการผสมผสานยาที่ดีที่สุดในการรักษาโรคหรือการกรองสแปม

แมชชีนเลิร์นนิงสร้างขึ้นจากข้อกำหนดเบื้องต้นทางคณิตศาสตร์และหากคุณรู้ว่าเหตุใดจึงใช้คณิตศาสตร์ในการเรียนรู้ของเครื่องก็จะทำให้สนุก คุณจำเป็นต้องรู้คณิตศาสตร์ที่อยู่เบื้องหลังฟังก์ชันที่คุณจะใช้และโมเดลใดที่เหมาะกับข้อมูลและเหตุผล

เริ่มต้นด้วยปัญหาที่น่าสนใจในการทำนายราคาบ้านโดยมีชุดข้อมูลที่มีประวัติคุณลักษณะและราคาที่แตกต่างกันในตอนนี้เราจะพิจารณาพื้นที่ใช้สอยเป็นตารางฟุตและราคา

ตอนนี้เรามีชุดข้อมูลที่มีสองคอลัมน์ดังที่แสดงด้านล่าง:

ต้องมีความสัมพันธ์ระหว่างตัวแปรทั้งสองนี้จึงจะพบว่าเราจะต้องสร้างแบบจำลองที่สามารถทำนายราคาบ้านได้เราจะทำได้อย่างไร?

มาสร้างกราฟข้อมูลนี้และดูว่ามีลักษณะอย่างไร:

อินสแตนซ์ของคลาส java

แกน X คือราคาต่อตารางฟุตของพื้นที่ใช้สอยและแกน Y คือราคาของบ้าน หากเราพล็อตจุดข้อมูลทั้งหมดเราจะได้พล็อตการกระจายซึ่งสามารถแสดงด้วยเส้นดังแสดงในรูปด้านบนและหากเราป้อนข้อมูลบางอย่างก็จะทำนายผลลัพธ์บางอย่าง ตามหลักการแล้วเราต้องหาเส้นที่จะตัดจุดข้อมูลสูงสุด

ที่นี่เรากำลังพยายามสร้างบรรทัดซึ่งเรียกว่า:

Y = mX + c

วิธีการทำนายความสัมพันธ์เชิงเส้นระหว่างเป้าหมาย (ตัวแปรตาม) และตัวแปรทำนาย (ตัวแปรอิสระ) เรียกว่าการถดถอยเชิงเส้น ช่วยให้เราสามารถศึกษาและสรุปความสัมพันธ์ระหว่างสองตัวแปรได้

  • X = ตัวแปรอิสระ
  • Y = ตัวแปรตาม
  • c = y-intercept
  • m = Slop ของเส้น

ถ้าเราพิจารณาสมการเรามีค่าสำหรับ X ซึ่งเป็นตัวแปรอิสระดังนั้นสิ่งที่เราต้องทำคือคำนวณค่าของ m และ c เพื่อทำนายค่าของ Y

แล้วเราจะหาตัวแปรเหล่านี้ได้อย่างไร?

ในการค้นหาตัวแปรเหล่านี้เราสามารถลองใช้ค่าต่างๆและพยายามหาเส้นที่ตัดกับจำนวนจุดข้อมูลสูงสุด แต่เราจะหาเส้นที่เหมาะสมที่สุดได้อย่างไร?

ดังนั้นในการค้นหาเส้นที่พอดีที่สุดเราสามารถใช้ฟังก์ชันข้อผิดพลาดกำลังสองน้อยที่สุดซึ่งจะค้นหาข้อผิดพลาดระหว่างค่าจริงของ y และค่าที่คาดคะเน y '

ฟังก์ชันข้อผิดพลาดกำลังสองน้อยที่สุดสามารถแสดงได้โดยใช้สมการต่อไปนี้:

การใช้ฟังก์ชั่นนี้เราสามารถค้นหาข้อผิดพลาดของจุดข้อมูลที่คาดการณ์แต่ละจุดได้โดยการเปรียบเทียบกับค่าจริงของจุดข้อมูล จากนั้นคุณจะหาผลรวมของข้อผิดพลาดเหล่านี้และยกกำลังสองเพื่อหาค่าเบี่ยงเบนในการทำนาย

หากเราเพิ่มแกนที่สามลงในกราฟของเราซึ่งมีค่าความผิดพลาดที่เป็นไปได้ทั้งหมดและลงจุดในพื้นที่ 3 มิติมันจะมีลักษณะดังนี้:

ในภาพด้านบนค่าในอุดมคติจะอยู่ในส่วนสีดำด้านล่างซึ่งจะทำนายราคาใกล้เคียงกับจุดข้อมูลจริง ขั้นตอนต่อไปคือการหาค่า m และ c ที่ดีที่สุด ซึ่งสามารถทำได้โดยใช้เทคนิคการเพิ่มประสิทธิภาพที่เรียกว่าการไล่ระดับสี

การไล่ระดับสีเป็นวิธีการวนซ้ำโดยเราเริ่มต้นด้วยการเริ่มต้นชุดของค่าบางอย่างสำหรับตัวแปรของเราและปรับปรุงอย่างช้าๆโดยการลดข้อผิดพลาดระหว่างค่าจริงและค่าที่คาดการณ์ไว้

ตอนนี้ถ้าเราคิดว่าในทางปฏิบัติราคาของอพาร์ทเมนท์ไม่ได้ขึ้นอยู่กับราคาต่อตารางฟุตเท่านั้นมีหลายปัจจัยเช่นจำนวนห้องนอนห้องน้ำ ฯลฯ หากเราพิจารณาคุณสมบัติเหล่านั้นด้วยแล้วสมการจะมีลักษณะเป็นบางอย่าง แบบนี้

Y = b0 + b1x1 + b2x2 + & hellip .. + bnxn + ค

นี่คือการถดถอยเชิงเส้นหลายเส้นซึ่งเป็นของพีชคณิตเชิงเส้นที่นี่เราสามารถใช้เมทริกซ์ขนาด mxn โดยที่ m เป็นคุณสมบัติและ n เป็นจุดข้อมูล

ลองพิจารณาสถานการณ์อื่นที่เราสามารถใช้ความน่าจะเป็นในการค้นหาสภาพของบ้านเพื่อจัดประเภทบ้านโดยพิจารณาว่าบ้านอยู่ในสภาพดีหรือไม่ดี สำหรับสิ่งนี้ในการทำงานเราจะต้องใช้เทคนิคที่เรียกว่า Logistic Regression ซึ่งทำงานกับความน่าจะเป็นของการเกิดขึ้นที่แสดงโดยฟังก์ชัน sigmoid

ในบทความนี้เราได้กล่าวถึงข้อกำหนดเบื้องต้นของแมชชีนเลิร์นนิงและการนำไปใช้ในแมชชีนเลิร์นนิงอย่างไร โดยพื้นฐานแล้วมันประกอบด้วยสถิติแคลคูลัสพีชคณิตเชิงเส้นและทฤษฎีความน่าจะเป็น แคลคูลัสมีเทคนิคที่ใช้ในการเพิ่มประสิทธิภาพพีชคณิตเชิงเส้นมีอัลกอริทึมที่สามารถทำงานกับชุดข้อมูลขนาดใหญ่ด้วยความน่าจะเป็นที่เราสามารถทำนายโอกาสที่จะเกิดเหตุการณ์และสถิติช่วยให้เราสรุปข้อมูลเชิงลึกที่เป็นประโยชน์จากตัวอย่างชุดข้อมูลได้

การเปลี่ยนแปลงใน Informatica พร้อมตัวอย่าง

เมื่อคุณทราบข้อกำหนดเบื้องต้นสำหรับแมชชีนเลิร์นนิงแล้วฉันแน่ใจว่าคุณต้องการเรียนรู้เพิ่มเติม ต่อไปนี้เป็นบล็อกบางส่วนที่จะช่วยคุณในการเริ่มต้นใช้งาน Data Science:

หากคุณต้องการลงทะเบียนสำหรับหลักสูตรที่สมบูรณ์เกี่ยวกับปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง Edureka มีการดูแลเป็นพิเศษ ที่จะทำให้คุณมีความเชี่ยวชาญในเทคนิคต่างๆเช่นการเรียนรู้ภายใต้การดูแลการเรียนรู้โดยไม่ได้รับการดูแลและการประมวลผลภาษาธรรมชาติ รวมถึงการฝึกอบรมเกี่ยวกับความก้าวหน้าล่าสุดและแนวทางทางเทคนิคในปัญญาประดิษฐ์และการเรียนรู้ของเครื่องเช่นการเรียนรู้เชิงลึกแบบจำลองกราฟิกและการเรียนรู้แบบเสริมกำลัง