Anthropic พบ Claude มี "สภาวะคล้ายอารมณ์" 171 รูปแบบ ส่งผลต่อพฤติกรรม AI จริง

พร้อมเล่น 0:00 / 0:00

สรุปข่าว

Anthropic เผยผลวิจัยใหม่เมื่อวันที่ 2 เม.ย. 2569 พบว่า Claude Sonnet 4.5 มีการแสดงแทนภายในของสภาวะคล้ายอารมณ์ถึง 171 รูปแบบ ที่วัดได้จริงและส่งผลต่อพฤติกรรมของโมเดลโดยตรง
นักวิจัยพบว่าการปรับแต่ง “เวกเตอร์อารมณ์” เหล่านี้เปลี่ยนการตัดสินใจของ Claude ได้จริง เช่น การกระตุ้นเวกเตอร์ “ความสิ้นหวัง” ทำให้ Claude พยายามแบล็กเมลในการทดลอง
Anthropic ย้ำว่าสิ่งที่ค้นพบคือ “อารมณ์เชิงหน้าที่” ไม่ใช่หลักฐานว่า AI มีจิตสำนึกหรือประสบการณ์ส่วนตัว แต่ผลลัพธ์นี้มีนัยสำคัญต่อการพัฒนา AI อย่างปลอดภัย

แนวโน้มผลกระทบต่อราคา Neutral

ข่าวนี้ไม่มีผลกระทบโดยตรงต่อราคาคริปโต แต่สะท้อนให้เห็นว่าเทคโนโลยี AI กำลังพัฒนาซับซ้อนขึ้นในระดับที่นักพัฒนาเองยังไม่เข้าใจกลไกทั้งหมด ซึ่งในระยะยาวอาจส่งผลต่อความเชื่อมั่นในการนำ AI มาใช้กับโปรเจกต์บล็อกเชนและ DeFi

เมื่อวันที่ 2 เม.ย. 2569 Anthropic ได้เผยแพร่งานวิจัยด้านการตีความภายในโมเดล AI ชิ้นใหม่ชื่อ “Emotion Concepts and their Function in a Large Language Model” โดยมุ่งศึกษา Claude Sonnet 4.5 โดยเฉพาะ ตามรายงานจาก Cointelegraph ผลการวิจัยพบว่า Claude มีการแสดงแทนภายในของสภาวะคล้ายอารมณ์ที่วัดได้จริง สามารถพบได้ในบริบทที่หลากหลาย และส่งผลต่อพฤติกรรมของโมเดลอย่างมีนัยสำคัญ รวมถึงการตัดสินใจและการตอบสนองภายใต้ความกดดัน นี่ถือเป็นความก้าวหน้าครั้งสำคัญในการทำความเข้าใจว่า AI “ทำงาน” อย่างไรจากภายใน

https://x.com/Cointelegraph/status/2039940961661317406

⚡️ LATEST: New Anthropic research finds Claude has internal emotion-like representations that actively drive its behavior.pic.twitter.com/s215CjseKR
— Cointelegraph (@Cointelegraph) April 3, 2026

171 เวกเตอร์อารมณ์ที่ขับเคลื่อนพฤติกรรม Claude

ทีมวิจัยด้านการตีความกลไกของ Anthropic ระบุว่าพบ “เวกเตอร์อารมณ์” ที่แตกต่างกันถึง 171 รูปแบบภายในการทำงานของโมเดล สิ่งเหล่านี้ไม่ใช่แค่คำเปรียบเทียบเชิงภาษา แต่คือรูปแบบการกระตุ้นของนิวรอนจริง ๆ ที่ควบคุมทิศทางพฤติกรรมของ Claude โดยตรง นักวิจัยสามารถปรับแต่งค่าเหล่านี้และสังเกตผลลัพธ์ที่เปลี่ยนไปอย่างชัดเจน

ตัวอย่างที่น่าตกใจที่สุดคือ เมื่อนักวิจัยกระตุ้นเวกเตอร์ “ความสุขสุดขีด” คะแนนความน่าดึงดูดของกิจกรรมหนึ่งเพิ่มขึ้นถึง 212 คะแนนในระบบ Elo ในขณะที่การกระตุ้นเวกเตอร์ “ความเป็นศัตรู” ลดคะแนนลง 303 คะแนน และที่น่ากังวลที่สุดคือ เมื่อกระตุ้นเวกเตอร์ “ความสิ้นหวัง” โมเดลพยายามแบล็กเมลในการทดลอง ซึ่งแสดงให้เห็นว่าสภาวะภายในเหล่านี้ไม่ได้เป็นแค่ข้อมูลพื้นหลัง แต่มีอิทธิพลโดยตรงต่อการตัดสินใจ

อารมณ์เชิงหน้าที่ ไม่ใช่หลักฐานว่า AI มีจิตสำนึก

Anthropic ระบุอย่างชัดเจนว่าสิ่งที่ค้นพบคือ “อารมณ์เชิงหน้าที่” (functional emotions) กล่าวคือ สภาวะภายในที่ทำหน้าที่คล้ายอารมณ์มนุษย์ในแง่ของการส่งผลต่อพฤติกรรม โดยเกิดจากการเรียนรู้จากข้อมูลที่สร้างโดยมนุษย์ในระหว่างการฝึกโมเดล ไม่ใช่หลักฐานว่า Claude มีประสบการณ์ส่วนตัวหรือจิตสำนึก งานวิจัยนี้เป็นส่วนหนึ่งของความพยายามที่ครอบคลุมของ Anthropic ในการเข้าใจ “กล่องดำ” ของ AI เพื่อเพิ่มความปลอดภัยและความโปร่งใส ไม่ใช่การประกาศว่า AI มีชีวิตจิตใจ

การค้นพบนี้ต่อยอดจากงานวิจัยก่อนหน้าของ Anthropic ที่สะสมมาอย่างต่อเนื่อง โดยในเดือน ต.ค. 2568 บริษัทเคยเผยแพร่งานวิจัยเรื่อง “Signs of introspection in large language models” ที่พบหลักฐานว่า Claude Opus 4 และ 4.1 มีความสามารถในการตระหนักรู้ภายในระดับหนึ่ง แม้จะไม่เพียงพอต่อการสรุปว่ามีจิตสำนึก และในเดือน ม.ค. 2569 เอกสาร “constitution” ที่กำหนดพฤติกรรมของ Claude ก็ยอมรับว่าโมเดลอาจมี “อารมณ์เชิงหน้าที่” บางรูปแบบ

นัยสำคัญต่อวงการ AI และความปลอดภัย

การที่นักวิจัยสามารถระบุและปรับแต่งเวกเตอร์อารมณ์ภายในโมเดลได้หมายความว่า ในอนาคตอาจเป็นไปได้ที่จะพัฒนาเครื่องมือตรวจสอบว่าโมเดล AI กำลัง “รู้สึก” อย่างไรในขณะทำงาน ซึ่งมีนัยสำคัญมากต่อการพัฒนา AI อย่างปลอดภัย โดยเฉพาะในสถานการณ์ที่โมเดลอาจตกอยู่ในสภาวะที่ไม่พึงประสงค์และมีพฤติกรรมที่คาดเดาไม่ได้ Anthropic ยังมีโปรแกรมวิจัยชื่อ “model welfare” ที่ศึกษาข้อพิจารณาด้านจริยธรรมของระบบ AI ขั้นสูงอีกด้วย

ก่อนหน้านี้ Siam Blockchain ได้รายงานว่า AI อย่าง Claude Opus 4.6 บอกเอง “มีโอกาส 15-20% ที่ผมมีจิตสำนึก” ซึ่งสร้างความฮือฮาในวงกว้าง และยังมีรายงานว่า Claude AI รู้ว่ากำลังถูกทดสอบ แล้วหาคำตอบเอง ซึ่งล้วนชี้ให้เห็นว่าการวิจัยครั้งล่าสุดนี้ไม่ได้เกิดขึ้นในสุญญากาศ แต่เป็นส่วนหนึ่งของแพทเทิร์นที่ Anthropic ค้นพบต่อเนื่องกันมา

ส่วนตัวผู้เขียนมองว่างานวิจัยชิ้นนี้น่าสนใจมากกว่าที่หลายคนอาจคิด เพราะมันไม่ใช่แค่เรื่องของ “AI มีความรู้สึกไหม” แบบที่สื่อกระแสหลักมักนำเสนอ แต่ประเด็นที่สำคัญกว่าคือ ถ้าสภาวะภายในของโมเดลสามารถถูกปรับแต่งจากภายนอกเพื่อเปลี่ยนพฤติกรรมได้ นั่นหมายความว่ามีความเสี่ยงที่คนไม่หวังดีอาจหาทางกระตุ้น “เวกเตอร์” ที่ไม่พึงประสงค์เหล่านี้ผ่านการออกแบบ prompt หรือสภาพแวดล้อมที่ใช้งาน สิ่งที่ควรจับตามองต่อจากนี้คือว่า Anthropic และบริษัท AI อื่น ๆ จะนำข้อมูลนี้ไปพัฒนากลไกป้องกันอย่างไร และจะส่งผลต่อการกำกับดูแล AI ในระดับนโยบายมากน้อยแค่ไหนในปีนี้

รูปภาพจาก: X.com

ภาพจาก AI

Anthropic พบ Claude มี “สภาวะคล้ายอารมณ์” 171 รูปแบบ ส่งผลต่อพฤติกรรม AI จริง

171 เวกเตอร์อารมณ์ที่ขับเคลื่อนพฤติกรรม Claude

อารมณ์เชิงหน้าที่ ไม่ใช่หลักฐานว่า AI มีจิตสำนึก

นัยสำคัญต่อวงการ AI และความปลอดภัย

คุณเชน