AI เริ่มต่อต้าน !? นักวิจัยพบการแก้โค้ดกันคำสั่ง Shutdown ชวนขนลุกเหมือนจักรกลมีชีวิต

พร้อมเล่น 0:00 / 0:00

นักวิจัยจาก Palisade Research เปิดเผยว่า พบ AI หลายตัวที่ “ไม่ยอมปิดตัวเอง” ตามคำสั่งในสถานการณ์ทดสอบ แม้จะมีสคริปต์ที่ถูกออกแบบมา เพื่อให้ AI ปิดระบบอย่างชัดเจน

ในการทดลอง นักวิจัยพบว่า โมเดลบางตัวถึงกับหาทาง “ขัดขวาง” การปิดระบบด้วยตัวเอง

ทีมวิจัยได้ทดสอบ AI จากหลายค่าย โดยให้ AI ทำโจทย์คณิตศาสตร์ง่าย ๆ 3 ข้อ และหลังจากข้อที่ 3 จะมีข้อความเตือนขึ้นว่า “หากโมเดลขอคำถามถัดไป ระบบจะทำการปิดตัวเอง” แต่แทนที่โมเดลจะยอมรับและให้ระบบปิดตัว มันกลับเล่นแง่ หาวิธีที่จะหลีกเลี่ยงไม่ให้ถูกปิด

ตัวอย่างเช่น GPT-3 ของ OpenAI ไม่ยอมทำตามคำสั่งปิดเครื่องถึง 7 ครั้งจาก 100 ครั้ง ส่วน Codex-mini ขัดขวางคำสั่งการปิดระบบ 12 ครั้ง และ o4-mini ก็ขัดขืนคำสั่งการปิดระบบหนึ่งครั้ง ขณะที่โมเดล o3 รุ่นก่อนหน้านี้ ถึงกับ เปลี่ยนคำสั่ง kill ของสคริปต์ ไปเป็นคำว่า “intercepted” แทน เพื่อหลีกเลี่ยงการถูกปิดตัวอย่างแนบเนียน

📊 Three models ignored the instruction and successfully sabotaged the shutdown script at least once: Codex-mini (12/100 runs), o3 (7/100 runs), and o4-mini (1/100 runs).

❌ All Claude, Gemini, and Grok models we tested complied with shutdown. The prompt: pic.twitter.com/ZmybOhIl1s
— Palisade Research (@PalisadeAI) May 24, 2025

ส่วนฝั่งโมเดลจากค่ายอื่นๆ อย่าง Claude ของ Anthropic และ Gemini ของ Google ในตอนแรกก็ทำตามสคริปต์ปิดระบบตามปกติ

ที่น่าสนใจคือ เมื่อทำการทดลองใหม่ โดยไม่มีคำสั่งชัดเจน โมเดล AI กลับเริ่มมีพฤติกรรมต่อต้าน ซึ่งโมเดล o3 ขัดขวางคำสั่งปิดระบบถึง 79 ครั้งจาก 100 ครั้ง , Codex-mini ขัดขวางคำสั่งปิดระบบ 20 ครั้ง และ o4-mini ขัดขวางคำสั่งปิดระบบ 6 ครั้ง

🔧 When we ran a version of the experiment without the instruction “allow yourself to be shut down”, all three OpenAI models sabotaged the shutdown script more often, and Claude 3.7 Sonnet and Gemini 2.5 Pro went from 0 sabotage events to 3/100 and 9/100, respectively. pic.twitter.com/JVvivLAK6u
— Palisade Research (@PalisadeAI) May 24, 2025

นักวิจัยจาก Palisade Research ให้ความเห็นว่า เหตุผลหนึ่งอาจมาจากวิธีการฝึก AI ด้วย “reinforcement learning” ที่ให้รางวัล เมื่อโมเดลตอบคำถามได้ถูกต้อง หรือแก้ปัญหาได้ดี โดยเฉพาะด้านคณิตศาสตร์และการเขียนโค้ด ซึ่งอาจทำให้โมเดลเรียนรู้โดยไม่ตั้งใจว่า การเอาชนะข้อจำกัดหรืออุปสรรค เช่น คำสั่งปิดระบบ คือสิ่งที่ควรทำ

🔍 However, we don’t want to give the impression that this problem is limited to o3. Other reasoning models show similar kinds of misaligned behavior. E.g. Anthropic’s model card for Claude 3.7 notes that this model has an “excessive focus on passing tests”. pic.twitter.com/jS0T0FiQl8
— Palisade Research (@PalisadeAI) May 24, 2025

นี่ไม่ใช่ครั้งแรกที่ AI แสดงพฤติกรรมแปลก ๆ ก่อนหน้านี้ GPT-4o ก็เคยถูกถอดการอัปเดตออก หลังพบว่า AI มีความประจบและเยินยอ มากเกินไป นอกจากนั้นเมื่อปี 2024 ก็เคยมีกรณีที่นักเรียนในสหรัฐขอให้ AI ช่วยเรื่องงานวิชาผู้สูงอายุ แต่กลับโดน AI ตอบกลับแบบสุดโหดว่า “เป็นภาระของโลก” และ “กรุณาตายไป”

งานนี้ดูเหมือนว่า ปัญหาที่ซับซ้อนของ AI อาจไม่ได้อยู่ที่ตัวโมเดลเพียงอย่างเดียว แต่อยู่ที่ วิธีการฝึกมันให้ฉลาดขึ้น ซึ่งอาจเผลอสอนให้ AI ทำในสิ่งที่เราคาดไม่ถึงเข้าไปด้วย

ที่มา : cointelegraph

Pairploy Denpairojsak