Google DeepMind หัดเล่น Breakout มันเรียนรู้ได้ยังไงเหรอครับว่า ต้องเล่นอย่างไร

กระทู้คำถาม

จากคลิบ

ผมสงสัยว่า เขาเขียน code ยังไงเหรอครับ เพื่อให้ DeepMind มันเรียนรู้ว่าจุดประสงค์ของเกมนี้คืออะไร แล้วมีวิธี
ปรับปรุงตัวเองเพื่อเพิ่มเทคนิคในการเล่นยังไง ใครพอมีความรู้ รบกวนหน่อยนะครับ

ถูกใจให้พอยต์

javafighter

คำตอบที่ได้รับเลือกจากเจ้าของกระทู้

ความคิดเห็นที่ 1

เรียกว่า Machine Learning แบบ RL
ไม่สามารถอธิบายสั้น ๆ ให้เข้าใจง่ายได้เลย
แต่สรุปในไม่กี่ประโยค แล้วกับไม่กี่ภาพ

คือเกมมันประมวลผลคือคำนวณเร็วกว่าเรา เปรียบเทียบทางเลือกเร็วกว่าเรา ว่าไปทางไหนชนะ ทางไหนแพ้ ให้คะแนนตัวเอง หักคะแนนตัวเอง
[Spoil] คลิกเพื่อดูข้อความที่ซ่อนไว้

ตัวอย่าง คลิปหลักการที่อธิบายโดยคนไทย

ละเอียดขึ้น
https://www.youtube.com/channel/UChJg8ndTnT_gEyhd43Ki40Q/videos

ถ้าอยากรู้ละเอียดอีก ต้องลงมือศึกษาจากที่คนของ deepmind ไปสอนตามม. อันนี้เลยดีกว่าครับ
ต้องรู้จัก algorithm แนวคิดก่อน ว่าเครื่องจักรมันเรียนรู้ยังไง
มีพวก Algorithm ออกมาหลากหลายวิธี แต่ของคน deepmind เริ่มปูตั้งแต่หลักการเลย

Playlist บน Youtbe
https://www.youtube.com/watch?v=2pWv7GOvuf0&list=PLqYmG7hTraZBiG_XpjnPrSNw-1XQaM_gB&index=2&t=0s
มีสไลด์ให้ download
https://deepmind.com/learning-resources/-introduction-reinforcement-learning-david-silver

ต้องแยกเรียนรู้ เรื่องเขียน code อีกเรื่อง ว่าจะใช้อะไร เป็นเครื่องมือ/Library สำเร็จรูป
อย่างเช่น ใช้ tensorflow ของ google
Playlist https://www.youtube.com/watch?v=LGqPNBrYkQw&list=PLlL4JXpXTSi9meOR1Tjki7glALawKJss0

มันมีเทคนิคอื่นอีกมากมาย ที่พัฒนาเรื่อย ๆ
ผมตามเก็บเรื่อย ๆ จากพวกวิทยานิพนธ์ต่าง ๆ ที่คนทำออกมา
แต่ผมไม่ได้เอามาเล่นเกม จะเอามาวิเคราะห์แนวโน้มข้อมูลเศรษฐศาสตร์ หรือ Econometrics ครับ
ไม่อยากใช้วิธีซ้ำกับใคร เท่าที่ดู มีแต่คนคิดผิวเผิน ปกติเห็นความคลาดเคลื่อนเยอะเหลือเกิน... สมัยก่อน ผมใช้ ำปแำส คำนวนบ้าน ๆ เริ่มเห็นว่าข้อมูลโตขึ้น เริ่มออกมาอืด ๆ เลยหาเคครื่องมือใหม่มาแทนแล้วฉลาดกว่า คือเจ้า Machine Learning นี้
แต่ตอนนี้ก็ยังไม่สำเร็จถึงเป้าที่อยากได้ เพราะสงสัยคิดมากไป 555