อาการหลอนของ AI คืออะไร เราสามารถแก้ไขได้หรือไม่

กระทู้สนทนา

ปัญญาประดิษฐ์ (AI) อย่าง ChatGPT หรือโมเดลภาษาขนาดใหญ่ (Large Language Model : LLM) อื่น ๆ แม้จะสามารถสื่อสาร ตอบโต้ และให้ข้อมูลได้อย่างเป็นธรรมชาติ แต่เราก็พบว่าคำตอบที่ได้มานั้นมีบางส่วนที่ไม่มีอยู่จริงหรือไม่เป็นความจริง

อาการหลอนเหล่านี้เกิดขึ้นได้อย่างไร แล้วเกี่ยวข้องอย่างไรกับการสอนโมเดลที่เราใช้งานกันในปัจจุบัน

บทความล่าสุดจาก OpenAI ได้กล่าวถึงอาการหลอนของโมเดลภาษาขนาดใหญ่อย่าง GPT4o

และวิธีการแก้ปัญหาอาการหลอนในโมเดลรุ่นใหม่ล่าสุดอย่างใน GPT5 จนมีอาการลดลงอย่างมาก

ซึ่งอาการหลอนเองเป็นหนึ่งในปัญหาที่ท้าทายการพัฒนาโมเดลภาษาขนาดใหญ่ของทางบริษัทต่าง ๆ เป็นอย่างยิ่ง

โมเดล GPT5 ที่ OpenAI ให้ใช้งานกันในปัจจุบันมีความทนทานต่ออาการหลอนมากกว่ารุ่น GPT4o มาก โดย OpenAI

กล่าวว่ายิ่งโมเดลมีขนาดเล็กมากเท่าไหร่อาการหลอนก็จะยิ่งมากขึ้นเท่านั้น

อาการหลอนของโมเดลภาษา หรือ AI Hallucination คือปรากฏการณ์ที่คำตอบของโมเดลภาษา

หากอ่านแล้วดูเผิน ๆ แล้วสมเหตุสมผลหรือถูกต้อง แต่จริง ๆ แล้วไม่ถูกต้อง เป็นคำตอบที่โมเดลพยายามหาทางตอบ

แต่ไม่มีคำตอบที่ถูกต้อง อัลกอริทึมจึงพยายามเชื่อมโยงให้มีคำตอบ

แม้กระทั่งกับคำถามที่ตรงไปตรงมา เช่น วันนี้วันอะไร วันที่เท่าไหร่ วันเกิดของผู้สนทนาตรงกับวันไหน

ซึ่งกับคำถามที่ตรงไปตรงมาในลักษณะนี้ โมเดลก็ยังคงให้คำตอบที่แตกต่างกันทุกครั้งที่ถามและล้วนแล้วแต่เป็นคำตอบที่ผิด

บทความล่าสุดของ OpenAI ระบุว่าอาการหลอนเกิดจากวิธีการประเมินศักยภาพของโมเดลปัจจุบัน

ตั้งรางวัลให้ระหว่างการสอนโมเดลผิดวิธี โดยที่ให้รางวัลกับการตอบคำถามถูกต้องมากกว่าการตอบคำถามอย่างมีคุณภาพ (รู้จริงโดยไม่มั่วคำตอบ) เพราะเกณฑ์การให้คะแนนในการสอนของ AI

ตอนนี้เป็นระบบไบนารีคือมีการให้คะแนนแค่ 0 กับ 1 ตอบผิดกับตอบถูก

ดังนั้นลักษณะจึงเหมือนกับการที่นักเรียนทำข้อสอบแบบปรนัย แล้วกามั่วในข้อที่ไม่รู้ และคำตอบที่ได้นั้นถูกต้อง

ยกตัวอย่างสถานการณ์ ช่วงการฝึก AI อาจจะมีคำถามว่า “วันนี้คือวันที่เท่าไหร่” AI อาจจะเดาสุ่มว่าเป็นวันที่ 9 กันยายน 2024

ซึ่งก็อาจจะเป็นวันนั้นจริง ๆ ทำให้ AI เลือกที่จะจำว่าเดาก็ได้คะแนนและตอบถูกต้องแล้ว

ไม่ต้องไปหาคำตอบให้ยุ่งยาก จึงเลือกจดจำว่าจะใช้การเดาในการตอบคำถามในลักษณะนี้ เป็นต้น

อีกหนึ่งปัจจัยคือเครื่องมือประเมินส่วนใหญ่ของโมเดลภาษาขนาดใหญ่อย่าง MMLU, GPQA หรือ SWE-benc

ลงโทษโมเดลที่ตอบคำถามอย่างไม่มั่นใจ เป็นการบ่มเพาะให้ตอบเฉพาะลักษณะที่มั่นใจ

เกิดเป็นอาการมั่นใจในการตอบคำถามแบบผิด ๆ ขึ้นมาเหมือนที่เราพบเจอได้จากโมเดลภาษาในตอนนี้

แม้ OpenAI จะเขียนไว้ในบทความว่าเกณฑ์การให้คะแนนไม่ใช่ปัจจัยหลักที่ส่งผลต่ออาการหลอน

แต่ถึงกระนั้นก็ยอมรับว่าการเปลี่ยนแปลงเกณฑ์การให้คะแนนคือหนึ่งในสิ่งที่ต้องทำเพื่อกำจัดอาการหลอนของโมเดลสะท้อนว่าการวางโครงสร้างให้คะแนนการตอบถูกโดยไม่ได้สนใจว่าเป็นการเดาหรือไม่ คือปัจจัยหลัก

เพื่อแก้ปัญหานี้ วิศวกรจึงต้องออกแบบเกณฑ์ในการวัดความถูกต้องของคำตอบโมเดลโดยให้คะแนนการตอบจากข้อมูลที่มีอยู่จริง และลงโทษ AI เมื่อมีการให้คำตอบที่มาจากการเดาที่มีลักษณะมั่นใจสูง

และให้คะแนนแก่คำตอบที่ไม่มั่นใจให้มากขึ้น

ซึ่งเอาเข้าจริงแล้วแนวคิดนี้ไม่ใช่สิ่งที่ใหม่อะไรในวงการโมเดลภาษาขนาดใหญ่

เพราะการทดสอบหลายประเภทก็เลือกใช้วิธีนี้ในการให้คะแนนความแม่นยำของโมเดล

ปัจจุบัน AI อย่าง ChatGPT กลายมาเป็นส่วนหนึ่งในชีวิตประจำวันอย่างหลีกเลี่ยงไม่ได้
ซึ่งบ่อยครั้งคำตอบที่ไ้มาจาก AI จะมีอาการหลอนคิดไปเองและเชื่ออย่างเป็นตุเป็นตะอย่างน่าประหลาดใจ ภาพจาก Focal Foto

แม้จะสามารถแก้ปัญหาการหลอนจากการเดาสุ่มข้อมูลในโมเดลรุ่นใหม่ได้ดีขึ้น

แต่การหลอนจากการคาดเดาคำต่อไปสำหรับการสนทนาก็ยังเป็นเรื่องยากสำหรับโมเดล

เช่น หากระบุว่า “สุนัข” หรือ “แมว” ในประโยค โมเดลอาจจะใช้คำได้ถูกต้อง

แต่หากประโยคเริ่มใช้คำที่กำกวม อย่าง “วันเกิดของสัตว์เลี้ยงตัวล่าสุดของฉัน” ซึ่งไม่มีการระบุประเภทสัตว์มาก่อนหน้า

โมเดลก็ไม่สามารถรู้ได้ว่าเป็นสัตว์ประเภทไหน สุดท้ายจึงจบลงด้วยการเดาสุ่ม

ซึ่งสถานการณ์ในลักษณะนี้ไม่ว่าจะเป็นคนที่เก่งขนาดไหนก็ไม่มีทางเดาสัตว์เลี้ยงของผู้ถามได้ตั้งแต่ประโยคแรกได้อย่างแน่นอน ซึ่งวิธีการแก้ไขอาจจะงดตอบคำถามที่กำกวมหรือให้โมเดลเลือกถามกลับแทนเพื่อให้ได้คำตอบที่มั่นใจ

ไม่ใช่การเดาว่าเป็นสุนัขหรือแมว แล้วสุดท้ายสัตว์เลี้ยงคือหนูแฮมสเตอร์

ดังนั้นโดยสรุปแล้วการแก้ไขปัญหาอาการหลอนของ AI เป็นหนึ่งในสิ่งที่สามารถแก้ไขได้ และไม่ใช่ว่าอาการหลอนคือเรื่องปกติทั่วไปที่ AI

ทุกตัวต้องเกิดขึ้น เพราะว่าเราสามารถตั้งเกณฑ์ให้ AI งดตอบคำถามที่พวกมันไม่รู้ได้

ซึ่งหากเข้าใจกระบวนการคิดของ AI และเกณฑ์ให้คะแนนการสอนของ AI

ก็จะสามารถจัดการและแก้ไขปัญหาได้อย่างรัดกุม รวมถึงขณะนี้เริ่มมีการทดสอบการหลอนของโมเดลต่าง ๆ มากขึ้นแล้ว

แสดงให้เห็นถึงความมุ่งมั่นในการแก้ไขปัญหาอาการหลอนภายในวงการ AI อย่างจริงจัง

แหล่งที่มา : Thai PBS - วิทยาศาสตร์&เทคโนโลยี