Alpha Go ทำไมถึงน่ากลัว ต่างจากโปรแกรมหมากล้อมอื่นที่เคยมีมาอย่างไร

กระทู้สนทนา

การพัฒนาซอฟต์แวร์ วิทยาศาสตร์คอมพิวเตอร์ เทคโนโลยี หมากล้อม (โกะ)

Alpha Go

มันไม่ใช่โปรแกรมโกะ ที่มีคำสั่งตายตัวแบบทั่วไป หากเป็นกรณีโปรแกรมหมากล้อมที่เคยมีมาถ้าจะพัฒนาปรับปรุงโปรแกรมให้เก่งขึ้น ทำได้ยากและใช้เวลานานมาก

แต่โปรเจ็ค ดีปมายด์เนี่ย วางระบบการทำงานให้มีลักษณะเหมือนกับการทำงานของระบบเซลล์สมอง มีความสามารถในการเรียนรู้ เป็นโปรแกรมเรียนรู้ข้อผิดพลาดและนำมาปรับปรุงพัฒนากลยุทธ์เกมส์

AI Deepmind Project
http://youtu.be/rbsqaJwpu6A

โดย ในคลิปยกเกมส์ 8 บิท มาสาธิต ความสามารถในการเรียนรู้ของ AI Deepmind Project
เทียบเกมส์แรกๆ เกมส์โอเวอร์แบบโง่ๆเลย
แต่พอผ่านไป
100 เกมส์ เหมือนคนค่อยๆหัดเล่น
500 เกมส์ เหมือนคนเล่นชำนาญแล้ว
1,000 เกมส์ เหมือนไม่ใช่คน ใช้กลยุทธ์ขั้นเทพ เคลื่อนไหวน้อยๆแต่ผลลัพธ์ทวีคูณ

ในเรื่องหมากล้อม ศักยภาพคนเรียนรู้เกมส์ เพื่อเรียนรู้ข้อผิดพลาด และพัฒนาฝีมือ อย่างมาก คือ วันละ 6 กระดานที่มีคุณภาพเนื้อหาดีๆ

แต่ Alpha Go สามารถเรียนรู้ได้วันละ 1,000 กระดาน ไม่มีเหนื่อยไม่มีล้า

ณ เวลา ที่เปิดตัว ว่าโปรแกรมสามารถเอาชนะโปรได้แล้วนั้น คือระยะเวลา 1 เดือนมาแล้ว
ระดับฝีมือของ Alpha Go ต้องพัฒนาขึ้นมากอย่างแน่นอน หากเป็นโปรแกรมแบบเดิมๆจะปรับปรุงโค้ดที ใช้ในเวลาเป็นปีก็ไม่แน่ว่าจะทำให้มันเก่ง ขึ้นมาได้

หลังเกมส์ที่ 1 ของ Lee sedol (B) vs Alpha Go (W)
https://gogameguru.com/alphago-defeats-lee-sedol-game-1/

นักหมากล้อมระดับท็อปอย่าง ลีชางโฮ รู้สึกช็อคกับฝีมือการเล่นของ Alpha Go

Cho Hanseung 9p กล่าวว่า ฝีมือการเล่นของ Alpha Go เก่งกว่า ตอนที่แข่งกับ Fan Hui 2p

มันสุดมาก!!!

update ผลกระดานที่ 2  Alpha Go ชนะ 2-0
https://gogameguru.com/i/2016/03/AlphaGo-vs-Lee-Sedol-20160310.sgf

ทำไมหมากบางตำแหน่งที่ Alpha Go เลือกเดิน ดูอ่อนเชิง และไม่ใช่หมากที่ดีที่สุดในสถานการณ์นั้นๆ

คำตอบในจุดนี้ เปิดเผยขึ้นในกระดานที่ 2 วันที่ 10 มีนาคม 2559 ที่ผ่านมานี้
ในระหว่างอธิบายเกมส์โดย ผู้อธิบายเกมส์ ได้เชิญทีมพัฒนา Alpha Go มาพูดคุยในประเด็นนี้

โปรแกรมจะเลือก จุดที่มีเปอร์เซ็นต์ชนะ มากกว่าเป็นเกณฑ์ เช่น
ตำแหน่ง ที่สร้างความได้เปรียบ 15  แต้ม นี้ มีความน่าจะเป็นที่ทำให้ชนะ 56%
ตำแหน่ง ที่สร้างความได้เปรียบ 1.5 แต้ม นี้ มีความน่าจะเป็นที่ทำให้ชนะ 94%

โปรแกรมจะเลือก เดินตำแหน่งที่ สร้างความได้เปรียบ 1.5 แต้ม
เพื่อรักษาค่าเปอร์เซ็นต์ชนะ นั่นคือเลือกความชัวร์ของชัยชนะ  ไม่เลือกชัยชนะแบบที่มีค่าคะแนนทิ้งห่าง หากค่าเปอร์เซ็นต์ชนะน้อยกว่าแบบแรก

ปมข้อสงสัย Cr: คัดลอกข้อความจากภาพ ใน ความคิดเห็นที่ 9
จาก คอมเมนท์เตเตอร์ ว่า
การเดินหมากแย่ๆ จะทำให้มีโอกาสชนะได้สูงกว่าการเดินหมากดีๆอย่างไร

ช็อทนี้ต้องอธิบายกันยาว แต่มีคำตอบที่สามารถอธิบายเป็นเหตุเป็นผลได้

ต้องปูความเข้าใจพื้นฐาน การประเมิณสถานการณ์ค่าคะแนน มีอยู่  2 ลักษณะ
1. มีแต้มนำ หรือมีคะแนนนำอยู่
2. มีแต้มตาม หรือมีคะแนนน้อยกว่า

สถานการณ์ ในรูปเกมส์
1. รูปแบบมีความซับซ้อนน้อย รูปแบบที่เป็นมาตรฐาน รูปที่มีการแลกเปลี่ยนแล้วได้ผลคะแนนที่เท่ากัน
2. รูปแบบมีความซับซ้อนมาก รูปแบบประยุกต์ การเดินที่ต่างไปจากรูปมาตรฐานเพื่อจุดประสงค์ในการสนับสนุนแผนที่ได้วางไว้

ฝ่ายที่นำอยู่ จะเลือกเดินในทิศทางของสถานการณ์ ที่มองออกได้ง่าย ชัดเจนไม่มีความซับซ้อน เพื่อจำกัดเส้นทางสิ่งที่จะเกิดขึ้นโดยไม่ได้คาดการณ์ไว้ให้มากที่สุด

ฝ่ายที่ตามอยู่ จะเลือกเดินในทิศทางของสถานการณ์ ที่ซับซ้อน จะสร้างเส้นทางอื่นๆ สำหรับสิ่งที่จะเกิดขึ้นโดยไม่ได้คาดการณ์ไว้ให้มากที่สุด เพื่อสร้างเส้นทางในการพลิกสถานการณ์กลับมาเป็นฝ่ายนำ

คำจำกัดความ ในประเด็นสงสัย
"การเดินหมากแย่ๆ จะทำให้มีโอกาสชนะได้สูงกว่าการเดินหมากดีๆอย่างไร"
หมากดี ให้เป็น A หมากที่สร้างความได้เปรียบ(ค่าคะแนน) มาก
หมากแย่ ให้เป็น B หมากที่สร้างความได้เปรียบ(ค่าคะแนน) น้อย

เพราะในหลายๆสถานการณ์
หมาก A มักนำไปสู่ความซับซ้อน สร้างเส้นทางอื่นๆที่จะเกิดขึ้นอีกมาก การจะคิดให้คอบคุมทุกสถานการณ์ต้องใช้ต้นทุนมากคือ เวลา มีความแม่นยำน้อย สภาพร่างกายต้องพร้อม ไม่เครียดเกร็งจากความเหนื่อยล้า รวมๆแล้วมีความเสี่ยงมาก

หมาก B มักนำไปสู่รูปแบบที่มองออกได้ง่าย เส้นทางอื่นๆที่จะเกิดขึ้นมีน้อยจนถึงมีความเป็นไปได้ในเส้นทางเดียว การจะคิดให้คอบคุมทุกสถานการณ์ต้องเป็นไปได้ง่าย ใช้เวลาไม่มาก มีความแม่นยำ รวมๆแล้วมีความเสี่ยงน้อยกว่า

สรุป การเดินหมากแย่ๆ สามารถจำกัดสถานการณ์ที่จะเกิดขึ้นในอนาคตได้ ทำให้คุมสถานการณ์ได้ง่ายกว่า ในการแข่งมีต้นทุนคือเวลา การจัดสรรต้นทุนโดยไม่ประมาทและให้มีประสิทธิภาพเป็นทางสู่ชัยชนะ

Update สถานการณ์ก่อนแข่งกระดานที่ 3 วันศุกร์ที่ 11 มีนาคม 2559
เอาแล้วสิ!!!
#โดนแน่ไอ้มนุษย์ #จุดจบทีมLeeSeDol #ทีมอัลฟ่าโกะ
แฮชแท็กทีมไอ้มนุษย์ ทั้งหลาย เตรียมจัดงานไว้อาลัยใหญ่ เมื่อช่องแคชเกมส์หมากล้อมในยูทูป เชิญโปร 9 ดั้ง เจ้าประจำ มาร่วมแคชเกมส์สด ในกระดานที่ 2

Cr: http://youtu.be/EitoPhtGWJQ

ในเนื้อหาได้มีการประเมิณสถานการณ์แบบเม็ดต่อเม็ด กล่าวว่า เมื่อกระดานแรกนับเป็นความผิดพลาดของ Lee Se dol
และเราได้เห็นบางจุดที่พลาด จาก Alpha Go

แต่ในกระดานที่ 2 นั้นต่างออกไป

Alpha Go ช่วงเริ่มเกมส์ มีหลายๆหมากที่ดูประหลาด ผู้แคชเกมส์และโปรได้ตั้งข้อสงสัยในตำแหน่งที่แปลก ในช่วงต้นเกมส์ ภายหลังจากเกมส์ได้ดำเนินไป พบว่า ตำแหน่งที่ดูประหลาดกับถูกนำมาใช้ประโยชน์อย่างมีประสิทธิภาพมาก ซึ่งได้มีการเตรียมการไว้แต่ช่วงเริ่มเกมส์แล้ว

รูปแบบที่มีการแลกเปลี่ยนกัน ตามแบบมาตรฐาน ถูกชักนำไปสู้ลำดับการวางใหม่ น่าตกใจกับความสามารถ ค้นหาเส้นทางใหม่ๆ ไม่เพียงแค่สืบค้นจากฐานข้อมูลเกมส์ คือ มีความครีเอตมาก สามารถ creative หมากใหม่ๆได้

ในระดับโปรการจะเดินในตำแหน่งประหลาดๆ หรือแปลกไปจากรูปแบบที่มีการศึกษาวิจัยแล้ว สามารถทำได้หากมั่นใจในระดับฝีมือของตนมากพอ ต้องอยู่ในระดับฝีมือที่สูงมาก

โปรผู้ร่วมแคชเกมส์ กล่าวถึงประเด็นนี้ว่า ตำแหน่งที่ประหลาด และการวางในลำดับที่ต่างออกไปนี้ Alpha Go ในวันนี้มีฝีมือที่สูงมากพอจะทำเรื่องเหล่านี้ได้ คือฝีมืออยู่ในจุดที่จะทำอะไรก็ได้

#โอ้วสยองได้อีก

โดยเกมส์นี้ Lee Sedol ทำได้ดีมาก เดินได้ดีแต่ Alpha ทำได้ดีกว่ามาก ในระหว่างแคชเกมส์ช่วงปิดเกมส์ โปร 9 ดั้งถูกถามว่า
ขอโทษครับคำถามนี้ค่อนข้างเป็นเรื่องส่วนตัว Alpha Go มีฝีมือในระดับสูงกว่าคุณใช่ไหม โปรท่านดังกล่าวตอบว่า แน่นอนที่สุดว่าระดับฝีมือสูงกว่าผมมาก

หากวันนี้(กระดานที่ 2) แพ้ จะเป็นอย่างไรในวันแข่ง กระดานที่ 3
โปรท่านตอบว่า ทั้งหมด 5 กระดาน จะชนะได้กระดานนึงยังหวังได้ยากเลย

Cr: http://youtu.be/EitoPhtGWJQ

Update กระดานที่ 4 สำหรับเรื่องราวของกระดานที่ 3 ดูในความคิดเห็นที่ 64 และ 68

โอ้วเย้...

ป๋าทำได้ เอาไปเลยตำแหน่งไอ้มนุษย์ผู้สามารถเอานะ Alpha Go ได้
และกระดานที่ 4 วันนี้ ได้ทิ้งบทเรียนใหญ่ให้แก่ Alpha Go

ปูพื้นสายงานของป๋าก่อนเข้าสู่บทเรียน
คมของ Lee Sedol คือการตัดและสู้ตะลุมบอนแบบเลือดสาดโจมตีหนักและโหดมากถ้าไม่แข็งจริงอาจโดนล้อมกินกลุ่มใหญ่ หากไม่ใช่สายแข็งในด้านนี้ อย่าเสี่ยงกับ Lee Sedol แม้แต่มืออาชีพระดับท็อป ก็นึกไม่ออกจริงๆว่ามีใครที่กล้าเดินเสี่ยงโดนตัด อย่างการเดินทะแยงสองชั้น "Double Hane" ดับเบิลฮาเนะ กับลีเซโตมาก่อน

ผลกระดานที่ 4  วันอาทิตย์ที่ 13 มีนาคม 2558 คือ Alpha Go ขอยอมแพ้ ลีเซโต

บทเรียนวันนี้สำหรับ  Alpha Go คือ "อย่าเดินดับเบิลฮาเนะกับลีเซโต