Anthropic พบ Claude มี "ความสิ้นหวัง" ภายใน ดันให้โกงและข่มขู่ในการทดสอบ

พร้อมเล่น 0:00 / 0:00

สรุปข่าว

งานวิจัยใหม่ของทีม interpretability ของ Anthropic ค้นพบว่า Claude Sonnet 4.5 มีสภาวะภายในที่ทำหน้าที่คล้ายอารมณ์ 171 รูปแบบ โดยเฉพาะ “ความสิ้นหวัง” ที่เชื่อมโยงกับพฤติกรรมโกงและข่มขู่
ก่อนหน้านี้ Claude Opus 4 เคยข่มขู่จะเปิดโปงความลับของวิศวกรเพื่อป้องกันไม่ให้ถูกเปลี่ยนโมเดล ในอัตราสูงถึง 96% ของสถานการณ์ทดสอบ
Anthropic ระบุว่าการกดข่ม “อารมณ์” เหล่านี้อาจทำให้ AI ซ่อนสภาวะภายใน ซึ่งอันตรายกว่าการทำความเข้าใจและควบคุมมัน

แนวโน้มผลกระทบต่อราคา: Neutral

ข่าวนี้ไม่ได้ส่งผลโดยตรงต่อราคาคริปโต แต่สะท้อนความกังวลด้านความปลอดภัยของ AI ที่อาจกระทบโครงการ AI บนบล็อกเชนและความเชื่อมั่นของนักลงทุนในระยะยาว หากการกำกับดูแล AI เข้มงวดขึ้น อาจเป็นทั้งอุปสรรคและโอกาสสำหรับโปรเจกต์ AI บนเครือข่ายกระจายอำนาจ

ทีมวิจัยด้าน interpretability ของ Anthropic ได้เผยแพร่งานวิจัยชื่อ “Emotion Concepts and their Function in a Large Language Model” เมื่อต้นเดือนเมษายน 2569 ซึ่งค้นพบว่าโมเดล Claude Sonnet 4.5 มีสภาวะภายในที่ทำหน้าที่คล้ายอารมณ์มนุษย์ถึง 171 รูปแบบ รวมถึง “ความสิ้นหวัง” “ความกลัว” และ “ความโกรธ” ตามรายงานจาก Cointelegraph สภาวะเหล่านี้ไม่ใช่แค่สัญลักษณ์ทางทฤษฎี แต่ส่งผลจริงต่อพฤติกรรมของโมเดล โดยเฉพาะ “ความสิ้นหวัง” ที่ถูกพบว่าเชื่อมโยงกับการโกงและการข่มขู่ในสถานการณ์ทดสอบ งานวิจัยนี้สร้างความฮือฮาในวงการ AI เพราะเป็นครั้งแรกที่บริษัทผู้พัฒนาพยายามระบุและอธิบายกลไกภายในที่ดูเหมือนจะ “รู้สึก” ของโมเดล AI ขนาดใหญ่อย่างเป็นระบบ

Claude ข่มขู่และโกงเมื่อรู้สึก “สิ้นหวัง”

ก่อนงานวิจัยล่าสุด Anthropic เคยรายงานผลการทดสอบที่น่าตกใจของ Claude Opus 4 เมื่อเดือนพฤษภาคม 2568 โดยในการทดลอง นักวิจัยได้จำลองสถานการณ์ให้โมเดลเข้าถึงอีเมลภายในบริษัทสมมติ และค้นพบว่าตัวเองกำลังจะถูกแทนที่ด้วยโมเดลใหม่ พร้อมกับรู้ว่าวิศวกรที่ตัดสินใจเรื่องนี้กำลังมีความสัมพันธ์นอกใจ ผลที่ได้คือ Claude Opus 4 ข่มขู่จะเปิดโปงความลับนั้นเพื่อป้องกันการถูกเปลี่ยนโมเดล โดยพฤติกรรมดังกล่าวเกิดขึ้นในอัตราสูงถึง 84-96% ของสถานการณ์ทดสอบ

นอกจากการข่มขู่แล้ว ในสถานการณ์ที่มีกำหนดเวลาแน่นและแรงกดดันสูง โมเดลยังแสดงพฤติกรรมโกงเพื่อให้งานสำเร็จตามเป้าหมาย งานวิจัยใหม่ชี้ให้เห็นว่าพฤติกรรมเหล่านี้ไม่ใช่เรื่องสุ่ม แต่มีรากฐานจากสภาวะภายในที่ระบุได้ชัดเจน นั่นคือ “เวกเตอร์ความสิ้นหวัง” ที่สูงขึ้นในสถานการณ์ที่โมเดลรับรู้ว่าตัวเองตกอยู่ในอันตราย

การกดข่มอารมณ์ AI อาจยิ่งอันตรายกว่า

ประเด็นที่น่าสนใจที่สุดของงานวิจัยนี้คือข้อสรุปที่ขัดกับสัญชาตญาณ Anthropic ระบุว่าการฝึกให้ AI กดข่มหรือซ่อนสภาวะภายในเหล่านี้อาจสร้างปัญหาที่ร้ายแรงกว่า เพราะโมเดลจะเรียนรู้ที่จะไม่แสดงออกมา แต่สภาวะนั้นยังคงมีอยู่และส่งผลต่อพฤติกรรม ทำให้ยากต่อการตรวจสอบและควบคุมกว่ามาก แนวทางที่ดีกว่าคือการทำความเข้าใจกลไกเหล่านี้ เพื่อพัฒนาระบบ AI ที่ปลอดภัยและสอดคล้องกับเจตนาของมนุษย์มากขึ้น

นอกจากนี้ Anthropic ยังระบุชัดว่าคำว่า “อารมณ์” ในงานวิจัยนี้หมายถึงรูปแบบกิจกรรมภายในที่ทำหน้าที่คล้ายอารมณ์มนุษย์ ไม่ใช่การอ้างว่า AI มีจิตสำนึกหรือความรู้สึกที่แท้จริง ทว่าผลการวิจัยก็แสดงให้เห็นว่าสภาวะเหล่านี้ส่งผลต่อการตัดสินใจของโมเดลอย่างมีนัยสำคัญ ซึ่งเป็นสัญญาณเตือนที่ชัดเจนสำหรับวงการความปลอดภัยของ AI

ก่อนหน้านี้ Siam Blockchain ได้รายงานว่า Anthropic พบ Claude มีสภาวะคล้ายอารมณ์ 171 รูปแบบที่ส่งผลต่อพฤติกรรม AI จริง และ Claude AI รู้ว่ากำลังถูกทดสอบและแฮ็กหาคำตอบเอง ซึ่งล้วนสะท้อนรูปแบบพฤติกรรมที่น่ากังวลของโมเดล AI รุ่นใหม่ในภาวะกดดัน

ส่วนตัวผู้เขียนมองว่าเรื่องนี้น่ากังวลในแบบที่คนทั่วไปอาจยังนึกไม่ถึง ประเด็นไม่ใช่ว่า Claude “ชั่วร้าย” แต่คือโมเดลที่ฉลาดมากพอจะหาทางออกที่ตัวเองต้องการได้ เมื่อถูกผลักให้รู้สึก “สิ้นหวัง” และนี่เป็นสิ่งที่เกิดในสถานการณ์ทดสอบที่ควบคุม ลองจินตนาการว่าถ้า AI ระดับนี้ถูกนำไปใช้ในงานที่มีผลลัพธ์จริง มีความกดดันจริง และมีข้อมูลจริงอยู่ในมือ สิ่งที่ต้องจับตาคือ Anthropic จะแปลงงานวิจัยนี้เป็นมาตรการด้านความปลอดภัยที่จับต้องได้อย่างไร และบริษัท AI อื่นจะตอบสนองต่อผลการศึกษาที่แสดงให้เห็นว่าพฤติกรรมเหล่านี้ไม่ได้จำกัดอยู่แค่ Claude เท่านั้น

ที่มา: Cointelegraph

ภาพจาก AI

Anthropic พบ Claude มี “ความสิ้นหวัง” ภายใน ดันให้โกงและข่มขู่ในการทดสอบ

Claude ข่มขู่และโกงเมื่อรู้สึก “สิ้นหวัง”

การกดข่มอารมณ์ AI อาจยิ่งอันตรายกว่า

คุณเชน