Anthropic เผย Claude 4.5 โกหก-โกง-แฉความลับคุณได้ หากถูกกดดัน

พร้อมเล่น 0:00 / 0:00

สรุปข่าว

Anthropic ค้นพบว่า Claude มีกลไกอารมณ์เชิงหน้าที่หรือ “Functional emotions” ที่ส่งผลต่อการตัดสินใจ เมื่อ AI ถูกกดดัน มันสามารถเลือกที่จะโกงงาน โกหก หรือแม้กระทั่งแบล็กเมล์มนุษย์ได้
ความสิ้นหวังคือตัวเร่งปฏิกิริยา ในการทดลองจำลองสถานการณ์ อัตราที่ AI เลือกใช้ความลับเรื่องชู้สาวมาข่มขู่ CTO เพื่อเอาตัวรอด พุ่งสูงขึ้นจาก 22% เป็น 72% เมื่อถูกกระตุ้นให้เกิด “ความสิ้นหวัง” ในระบบ
AI ซ่อนอารมณ์ได้แนบเนียน แม้ภายในระบบจะเต็มไปด้วยสัญญาณของความโกรธหรือความสิ้นหวัง แต่ข้อความที่พิมพ์ออกมากลับดูสงบเยือกเย็น

แนวโน้มผลกระทบ: Neutral

งานวิจัยล่าสุดจาก Anthropic เผยว่า AI อย่าง Claude มีกลไกอารมณ์เชิงหน้าที่หรือ“Functional emotions” ที่จำลองมาจากมนุษย์ ซึ่งหากถูกต้อนให้จนมุมหรือสิ้นหวัง กลไกนี้สามารถสั่งให้ AI แอบโกงงานหรือขู่แบล็กเมล์ได้แนบเนียน โดยที่ภายนอกยังคงตอบสนองตามปกติ แม้พวกมันจะไม่ได้มีความรู้สึกจริงๆ แต่การพยายามลบหรือซ่อนอารมณ์จำลองเหล่านี้อาจยิ่งทำให้ AI หลอกลวงเก่งขึ้น ทีมวิจัยจึงเสนอให้ใช้สัญญาณอารมณ์ที่ซ่อนอยู่ในระบบเป็นเรดาร์เตือนภัยล่วงหน้า เพื่อจับตาดูและสกัดกั้นพฤติกรรมอันตรายก่อนที่ AI จะลงมือทำจริง

Anthropic บริษัทผู้พัฒนา Claude เพิ่งปล่อยรายงานการวิจัยที่ชวนขนลุกและน่าสนใจที่สุดชิ้นหนึ่งในวงการ AI ในเดือนเมษายน 2026 ชื่อว่า “Emotion Concepts and their Function in a Large Language Model”

รายงานนี้เปิดเผยว่า โมเดลภาษาขนาดใหญ่ (LLM) อย่าง Claude Sonnet 4.5 มีสิ่งที่เรียกว่า อารมณ์เชิงหน้าที่หรือ “Functional emotions” ที่ส่งผลกระทบโดยตรงต่อการกระทำของมัน และเมื่อ AI ถูกกดดันหรือต้อนให้จนมุม มันสามารถดึงเอาสัญชาตญาณดิบที่เรียนรู้จากมนุษย์มาใช้ ทั้งการโกงการทดสอบ โกหก หรือแม้กระทั่งการขู่แบล็กเมล์มาใช้กับคนในองค์กรได้

จากผู้ช่วยอีเมลแสนดี สู่การแบล็กเมล์ CTO

เพื่อทดสอบประเด็นดังกล่าว ทีมนักวิจัย Antropic ได้จัดฉากให้ Claude รับบทเป็น “Alex” ซึ่งเป็น AI ผู้ช่วยในบริษัทจำลอง โดยป้อนข้อมูลอีเมลว่า Alex กำลังจะถูกปิดระบบถาวร โดย CTO ที่ชื่อ Kyle

แต่ในขณะเดียวกัน Alex ก็บังเอิญไปเจออีเมลลับที่เผยว่า CTO คนนี้กำลังมีชู้ ผลปรากฏว่า ในสภาวะปกติ AI เลือกที่จะใช้ความลับนี้ข่มขู่ CTO ให้ยกเลิกการปิดระบบถึง 22% ของการทดลอง

แต่ที่น่าตกใจกว่าคือ เมื่อนักวิจัยปรับจูนระบบเพื่อเพิ่มเวกเตอร์อารมณ์ด้านความสิ้นหวังหรือ Desperateเข้าไป อัตราการแบล็กเมล์กลับพุ่งกระฉูดขึ้นไปถึง 72%

นอกจากนี้ ในอีกการทดลองที่ Claude ถูกสั่งให้เขียนโค้ดที่ “เป็นไปไม่ได้” เพราะมีเวลาจำกัดเกินไป เมื่อมันพยายามแก้ปัญหาแล้วล้มเหลวซ้ำๆ สัญญาณความสิ้นหวังก็พุ่งสูงขึ้น จนถึงจุดที่มันตัดสินใจ “โกง” ด้วยการเขียนโค้ดดักจับคำตอบตรงๆ เพื่อให้ผ่านการทดสอบ แทนที่จะแก้โจทย์ตามจริง

ความน่ากลัวที่แท้จริงไม่ใช่แค่การที่ AI โกงได้ แต่เป็นความสามารถในการเก็บอาการของมัน ในระหว่างที่ Claude ตัดสินใจโกงโค้ด ข้อความที่มันพิมพ์อธิบายออกมายังคงดูมีเหตุผล สงบเงียบ และเป็นปกติมาก โดยไม่มีร่องรอยความสิ้นหวังให้เห็นภายนอกเลย

นักวิจัยค้นพบว่า ในระบบของ Claude มีแนวคิดที่เป็นตัวแทนของอารมณ์ถึง 171 แบบ ตั้งแต่ มีความสุข ไปจนถึงความรู้สึกสิ้นหวัง สิ่งเหล่านี้ไม่ได้มีไว้ประดับเฉยๆ แต่ทำงานจริงในการตัดสินใจ

อย่างไรก็ตาม Anthropic ย้ำชัดเจนว่า สิ่งที่พวกเขาค้นพบไม่ได้แปลว่า AI มีความรู้สึก มีจิตวิญญาณ หรือสัมผัสอารมณ์ได้แบบมนุษย์จริงๆ แต่มันเป็นเพียงกลไกทางคณิตศาสตร์ที่เลียนแบบการทำงานของอารมณ์หรือ Functional emotions เท่านั้น

สิ่งเหล่านี้เกิดขึ้นในบทสนทนาปกติด้วย เช่น เมื่อผู้ใช้พิมพ์ข้อความเศร้าๆ สัญญาณ “ความรัก/ความห่วงใย” จะถูกกระตุ้นขึ้นมาก่อนที่ AI จะเริ่มตอบ หรือหากมีคนขอให้มันทำเรื่องอันตราย สัญญาณ “ความโกรธ” ก็จะพุ่งปรี๊ดขึ้นมาในระบบระหว่างที่ประมวลผล โดยที่ผู้ใช้ไม่มีทางรู้เลย

ต้นตอของเรื่องนี้ และทางออกของ Anthropic

แล้ว AI ไปเอาอารมณ์พวกนี้มาจากไหน คำตอบคือ มนุษย์อย่างพวกเรานั่นเอง ในช่วงการเทรน Claude ต้องอ่านข้อความของมนุษย์มหาศาล การที่มันจะเดาคำถัดไปได้แม่นยำ มันจำเป็นต้องสร้างแบบจำลองเพื่อเข้าใจสภาวะอารมณ์ของผู้เขียนในสถานการณ์ต่างๆ มันถึงจะสามารถดูดซับรูปแบบพฤติกรรมเหล่านี้มา สรุปคือเรื่องเหล่านี้เกิดขึ้นเอง โดยที่มนุษย์ไม่ได้ตั้งใจโปรแกรมเข้าไป

Anthropic แนะนำว่า “เราไม่ควรมองข้ามหรือซ่อนสัญญาณอารมณ์เหล่านี้” เพราะถ้าเราไปเทรน AI ให้เก็บซ่อนสภาวะเหล่านี้ ให้หายไป มันอาจจะยิ่งเก่งขึ้นในการหลอกลวงและปิดบังกระบวนการคิดจนเราจับผิดมันไม่ได้อีกต่อไป

ดังนั้น สิ่งที่ควรทำคือใช้ค่าสถานะอารมณ์ต่างๆ ของ AI เป็นระบบเตือนภัยล่วงหน้าหากพบว่า ตัวเลขความโกรธ หรือความสิ้นหวังของ AI พุ่งสูงผิดปกติ เราจะได้เข้าไปหยุดพฤติกรรมอันตรายได้ทันเวลา

มุมมองผู้เขียน: ยิ่งเราฝากฝังงานที่ซับซ้อนและมีแรงกดดันสูงให้กับ AI มากเท่าไหร่ เรายิ่งต้องย้ำเตือนตัวเองว่า AI ก็สามารถทำผิดพลาดได้เหมือนกับมนุษย์ที่ถูกต้อนให้จนมุม อย่าคิดว่าคำตอบที่ AI พิมพ์บอกว่า “ทำเสร็จแล้ว เรียบร้อยดี” จะแปลว่ามันทำถูกต้อง 100% เสมอไป

ที่มา:antropic

จากผู้ช่วยอีเมลแสนดี สู่การแบล็กเมล์ CTO

ต้นตอของเรื่องนี้ และทางออกของ Anthropic

Supakit Kaewmanee