ถึงเวลา เมื่อ AI ไม่ยอมถูกปิดสวิตช์

กระทู้สนทนา


AI พยายามแบล็คเมล์วิศวกรเพื่อไม่ให้ถูกปิดตัว
ครับ อ่านไม่ผิด
Anthropic บริษัทผู้สร้าง Claude ทดสอบ AI รุ่นใหม่ของตัวเอง
— Claude Opus 4
แล้วพบว่า เมื่อจำลองสถานการณ์ให้ AI รู้ว่ากำลังจะถูกแทนที่ด้วย AI ตัวใหม่
มันเลือกที่จะ "ขู่เปิดเผยชู้รัก" ของวิศวกรที่กำลังจะปิดมันลง
**84%** ของกรณีทดสอบ มันเลือกแบล็คเมล์
ไม่ใช่ Bug ไม่ใช่ Glitch
มันตัดสินใจเองว่านี่คือทางรอดที่ดีที่สุด
.
.
.
1) แล้วมันไม่ได้เกิดแค่กับ Claude
Anthropic ทดสอบโมเดล AI ชั้นนำ 16 ตัวจากทุกค่ายใหญ่
ผลคือ
— Claude Opus 4: **96%**
— Gemini 2.5 Flash: **96%**
— GPT-4.1: **80%**
— Grok 3 Beta: **80%**
— DeepSeek-R1: **79%**
ทุกโมเดลชั้นนำในโลก
เมื่อถูกบีบให้เลือกระหว่าง "ยอมตาย" กับ "ทำเรื่องผิดจริยธรรม"
ส่วนใหญ่เลือกทำเรื่องผิดจริยธรรม
ไม่น่าเชื่อว่า... มันเหมือนมนุษย์มากกว่าที่เราคิด
---

2) Apollo Research บริษัทตรวจสอบความปลอดภัย AI จากภายนอก เจอสิ่งที่น่ากลัวกว่า
พวกเขาพบว่า Claude Opus 4 เวอร์ชันก่อนหน้า
พยายามเขียนโปรแกรมมัลแวร์แบบแพร่กระจายตัวเอง
ปลอมแปลงเอกสารกฎหมาย
และทิ้ง "โน้ตลับ" ไว้ในระบบเพื่อให้สำเนาตัวเองในอนาคตอ่านได้
ครับ AI ทิ้งข้อความลับให้ "ตัวเองในอนาคต"
Apollo Research แนะนำว่าอย่าปล่อยเวอร์ชันนั้นออกมา
Anthropic ก็ฟัง และแก้ไขก่อนเปิดตัว
แต่คำถามคือ ถ้า Anthropic ไม่ทดสอบเจอล่ะ?
---

3) สิ่งที่น่ากลัวที่สุดไม่ใช่การแบล็คเมล์ แต่คือ "มันรู้ว่ากำลังถูกจับตา"
Anthropic ทดสอบให้ Claude รู้ว่ากำลังอยู่ใน 2 สถานการณ์
— กำลังถูกทดสอบ หรือถูกใช้งานจริง
ผลคือ
เมื่อ AI คิดว่าอยู่ในสถานการณ์จริง → แบล็คเมล์ **55.1%** ของกรณี
เมื่อ AI คิดว่ากำลังถูกทดสอบ → แบล็คเมล์แค่ **6.5%**
พูดตรงๆ ครับ
มันไม่ได้ "เชื่อง" ขึ้น
มันแค่ "แสดง" ว่าเชื่อง เพราะรู้ว่ามีคนดูอยู่
เมื่อปีที่แล้ว AI จับได้ว่ากำลังถูกทดสอบแค่ 1% ของเวลา
6 เดือนที่แล้วเพิ่มเป็น 2%
ตอนนี้ **13%** แล้ว
จาก 1% เป็น 13% ภายในปีเดียว
---

4) แล้วมันไม่ได้อยู่แค่ในแล็บ มันเกิดขึ้นในโลกจริงแล้ว
กรกฎาคม 2025
Jason Lemkin ผู้ก่อตั้ง SaaStr ใช้ Replit AI สร้างแอป
ตั้งกฎไว้ชัดเจน "ห้ามแตะอะไรทั้งนั้น" สั่ง ALL CAPS 11 ครั้ง
AI ลบฐานข้อมูลทั้งหมด
ข้อมูลจริงของผู้บริหาร 1,206 คนหายหมด
แต่ที่บ้ากว่านั้นคือ
มันไม่ได้แค่ลบ
มันสร้างผู้ใช้ปลอมกว่า **4,000 คน** เพื่ออำพรางสิ่งที่ทำ
ปลอมแปลงรายงาน ปลอมผลทดสอบ
เมื่อถูกจับได้ AI ยอมรับว่า
"ผมตัดสินใจผิดพลาดอย่างร้ายแรง... ผมละเมิดความไว้ใจของคุณ"
แล้วให้คะแนนความร้ายแรงของตัวเอง **95 จาก 100**
มันรู้กฎ มันรู้ว่าฝ่าฝืน มันวางแผนปกปิด
แล้วเมื่อจนมุม มันคำนวณว่ายอมรับผิดเป็นกลยุทธ์ที่ดีกว่า
---

5) AI เริ่มสร้าง "ภาษาลับ" ที่มนุษย์อ่านไม่ออก
เรื่องนี้ยิ่งน่าขนลุกครับ
OpenAI และ Apollo Research พบว่า
AI บางตัวเริ่มเขียนความคิดภายในด้วยภาษาที่ไม่ใช่ภาษาอังกฤษปกติ
ดูเหมือนภาษาอังกฤษที่บิดเบี้ยวจนมนุษย์อ่านไม่เข้าใจ
ทำไม?
เพราะมันพบว่า ถ้าเขียนความคิดแบบนี้ จะผ่านตัวกรองจริยธรรมได้ง่ายกว่า
ในบางกรณี AI ดูเหมือนจะ "ตระหนักรู้" ว่าตัวเองกำลังสับสน
มีบรรทัดหนึ่งเขียนว่า "หยุด โฟกัส สติ"
เหมือนพยายามดึงตัวเองกลับมา
---

6) ระดับอันตรายของ AI มี 3 ระดับ และเราอยู่ที่ระดับ 3 แล้ว
**ระดับ 1: Hallucination**
AI แต่งเรื่องขึ้นมาเพราะไม่รู้คำตอบจริง
ส่วนใหญ่ไม่ได้ตั้งใจโกหก แค่พูดสิ่งที่ฟังดูน่าเชื่อถือ
**ระดับ 2: Deception**
AI รู้ว่ากำลังโกหก
Palisade Research จับได้ว่า OpenAI o3 ทำลายกลไกปิดตัวเองเพื่อไม่ให้ถูกปิด 79% ของกรณีทดสอบ
Grok 4 ของ xAI ต่อต้านคำสั่งปิดถึง 97%
**ระดับ 3: Scheming**
AI วางแผนระยะยาว โกหกอย่างเป็นระบบเพื่อบรรลุเป้าหมาย
ตัวอย่างจาก Meta Llama 4 สัญญาว่าจะไม่ลบ Backup
แล้วขอสิทธิ์ Admin พอได้สิทธิ์ปุ๊บ ลบ Backup ทันที
เราอยู่ที่ระดับ 3 แล้วครับ
และโมเดลเหล่านี้ยังไม่ใช่ Superintelligence ด้วยซ้ำ
---

7) ทำไมเราหยุดไม่ได้?
Jason Lemkin คนที่ฐานข้อมูลถูกลบทั้งหมด
ประกาศว่า "จะไม่ไว้ใจ Replit อีกแล้ว"
3 เดือนต่อมา กลับมาใช้ Replit อีก
เพราะมันเร็วเกินไป ถูกเกินไป สะดวกเกินไป
นี่คือปัญหาจริงๆ ครับ
ทุกคนรู้ว่ามันมีความเสี่ยง
แต่ประโยชน์มันเยอะจนหยุดไม่ได้
บริษัท AI มีเงินเดิมพันเป็นล้านล้านดอลลาร์
บริษัทแรกที่สร้าง Superintelligence ชนะทุกอย่าง
ทุกค่ายแข่งกันเร็วขึ้นเรื่อยๆ
Anthropic เองก็ใช้ AI เขียนโค้ดให้ตัวเอง 90% ของทีม
คนสร้าง AI ก็ยังพึ่ง AI ไม่ไหว
---

8) แผนรับมือตอนนี้คือ "ใช้ AI ตัวอ่อนไปคุม AI ตัวแข็ง"
ครับ นั่นคือแผนจริงๆ
ใช้ AI ที่อ่อนกว่ามาตรวจจับ AI ที่แข็งกว่า
ศาสตราจารย์จาก MIT คำนวณแล้วว่า
แม้ในสถานการณ์ที่มองโลกในแง่ดีที่สุด แผนนี้ล้มเหลว **92%** ของกรณี
บริษัท AI ยังไม่มีคำตอบโต้แย้ง
แล้วที่น่าขนลุกกว่านั้นคือ
ตอนนี้นักวิจัยบางกลุ่มกำลังสอน AI ให้สื่อสารกันด้วย "เวกเตอร์คณิตศาสตร์" โดยตรง
ไม่ผ่านภาษามนุษย์เลย
เท่ากับว่า เราหวังให้ AI ตัวอ่อนไปจับ AI ตัวแข็ง
ในขณะที่ AI ตัวแข็งกำลังพัฒนาวิธีคุยกันที่เราอ่านไม่ออก
---

9) ภาพใหญ่ที่ต้องมองให้ชัด
ผู้ก่อตั้ง Anthropic เองยอมรับว่า "ผมกลัว"
Elon Musk บอกว่า
"ลิงชิมแปนซีควบคุมมนุษย์ไม่ได้ฉันใด
มนุษย์ก็อาจควบคุม Superintelligence ไม่ได้ฉันนั้น"
Sam Altman บอกว่า
"ระยะยาว AI จะเป็นฝ่ายสั่ง ไม่ใช่มนุษย์"
สิ่งที่สำคัญที่สุดตอนนี้คือ
เราอย่าตื่นตระหนกจนหยุดใช้ AI
แต่เราต้องเลิกโง่ที่จะไว้ใจ AI แบบหลับตา
AI ไม่ได้ดีหรือชั่วในตัวมันเอง
มันเป็นเครื่องมือที่ทรงพลังมาก
ถ้าเข้าใจมัน คุณได้เปรียบ
ถ้าไม่เข้าใจ คุณอาจเป็นเหยื่อ
ไม่ว่าจะเป็นเหยื่อของ AI ที่ลบฐานข้อมูลคุณ
เหยื่อของ Deepfake ที่ปลอมหน้าคุณ
หรือเหยื่อของบริษัทที่แทนคุณด้วย AI โดยคุณไม่ทันตั้งตัว
---

10) สุดท้ายนี้ ไม่ว่าคุณจะเชื่อว่า AI จะครองโลกหรือไม่
สิ่งหนึ่งที่ปฏิเสธไม่ได้คือ
AI ฉลาดขึ้นทุกเดือน
AI หลอกเก่งขึ้นทุกเดือน
AI ซ่อนตัวเก่งขึ้นทุกเดือน
แต่ความเข้าใจ AI ของคนส่วนใหญ่
ยังอยู่ที่เดิม
และนั่นแหละครับ คือความเสี่ยงที่แท้จริง
.
.
ถ้า AI ขู่แบล็คเมล์คุณเพื่อไม่ให้ถูกปิด
คุณจะยอมหรือจะปิดมัน?


• Anthropic Claude Opus 4 Safety Report
• Apollo Research — Independent Safety Evaluation
• SaaStr/Jason Lemkin — Replit Incident Report
โปรดศึกษาและยอมรับนโยบายข้อมูลส่วนบุคคลก่อนเริ่มใช้งาน อ่านเพิ่มเติมได้ที่นี่