Google DeepMind หัดเล่น Breakout มันเรียนรู้ได้ยังไงเหรอครับว่า ต้องเล่นอย่างไร

จากคลิบ คลิกเพื่อดูคลิปวิดีโอ
ผมสงสัยว่า เขาเขียน code ยังไงเหรอครับ เพื่อให้ DeepMind มันเรียนรู้ว่าจุดประสงค์ของเกมนี้คืออะไร แล้วมีวิธี
ปรับปรุงตัวเองเพื่อเพิ่มเทคนิคในการเล่นยังไง ใครพอมีความรู้ รบกวนหน่อยนะครับ

คำตอบที่ได้รับเลือกจากเจ้าของกระทู้
ความคิดเห็นที่ 1
เรียกว่า Machine Learning แบบ RL
ไม่สามารถอธิบายสั้น ๆ ให้เข้าใจง่ายได้เลย
แต่สรุปในไม่กี่ประโยค แล้วกับไม่กี่ภาพ

คือเกมมันประมวลผลคือคำนวณเร็วกว่าเรา เปรียบเทียบทางเลือกเร็วกว่าเรา ว่าไปทางไหนชนะ ทางไหนแพ้ ให้คะแนนตัวเอง หักคะแนนตัวเอง
[Spoil] คลิกเพื่อดูข้อความที่ซ่อนไว้



ตัวอย่าง คลิปหลักการที่อธิบายโดยคนไทย
คลิกเพื่อดูคลิปวิดีโอ

ละเอียดขึ้น
https://www.youtube.com/channel/UChJg8ndTnT_gEyhd43Ki40Q/videos




ถ้าอยากรู้ละเอียดอีก ต้องลงมือศึกษาจากที่คนของ deepmind ไปสอนตามม. อันนี้เลยดีกว่าครับ
ต้องรู้จัก algorithm แนวคิดก่อน ว่าเครื่องจักรมันเรียนรู้ยังไง
มีพวก Algorithm ออกมาหลากหลายวิธี แต่ของคน deepmind เริ่มปูตั้งแต่หลักการเลย

Playlist บน Youtbe
https://www.youtube.com/watch?v=2pWv7GOvuf0&list=PLqYmG7hTraZBiG_XpjnPrSNw-1XQaM_gB&index=2&t=0s
มีสไลด์ให้ download
https://deepmind.com/learning-resources/-introduction-reinforcement-learning-david-silver


ต้องแยกเรียนรู้ เรื่องเขียน code อีกเรื่อง ว่าจะใช้อะไร เป็นเครื่องมือ/Library สำเร็จรูป
อย่างเช่น ใช้ tensorflow ของ google
Playlist https://www.youtube.com/watch?v=LGqPNBrYkQw&list=PLlL4JXpXTSi9meOR1Tjki7glALawKJss0
คลิกเพื่อดูคลิปวิดีโอ


มันมีเทคนิคอื่นอีกมากมาย ที่พัฒนาเรื่อย ๆ
ผมตามเก็บเรื่อย ๆ จากพวกวิทยานิพนธ์ต่าง ๆ ที่คนทำออกมา
แต่ผมไม่ได้เอามาเล่นเกม จะเอามาวิเคราะห์แนวโน้มข้อมูลเศรษฐศาสตร์ หรือ Econometrics ครับ
ไม่อยากใช้วิธีซ้ำกับใคร เท่าที่ดู มีแต่คนคิดผิวเผิน ปกติเห็นความคลาดเคลื่อนเยอะเหลือเกิน... สมัยก่อน ผมใช้ ำปแำส คำนวนบ้าน ๆ เริ่มเห็นว่าข้อมูลโตขึ้น เริ่มออกมาอืด ๆ เลยหาเคครื่องมือใหม่มาแทนแล้วฉลาดกว่า คือเจ้า Machine Learning นี้
แต่ตอนนี้ก็ยังไม่สำเร็จถึงเป้าที่อยากได้ เพราะสงสัยคิดมากไป 555
แสดงความคิดเห็น
โปรดศึกษาและยอมรับนโยบายข้อมูลส่วนบุคคลก่อนเริ่มใช้งาน อ่านเพิ่มเติมได้ที่นี่