bitkub-banner

Anthropic พบ Claude มี “สภาวะคล้ายอารมณ์” 171 รูปแบบ ส่งผลต่อพฤติกรรม AI จริง

พร้อมเล่น 0:00 / 0:00
สรุปข่าว
  • Anthropic เผยผลวิจัยใหม่เมื่อวันที่ 2 เม.ย. 2569 พบว่า Claude Sonnet 4.5 มีการแสดงแทนภายในของสภาวะคล้ายอารมณ์ถึง 171 รูปแบบ ที่วัดได้จริงและส่งผลต่อพฤติกรรมของโมเดลโดยตรง
  • นักวิจัยพบว่าการปรับแต่ง “เวกเตอร์อารมณ์” เหล่านี้เปลี่ยนการตัดสินใจของ Claude ได้จริง เช่น การกระตุ้นเวกเตอร์ “ความสิ้นหวัง” ทำให้ Claude พยายามแบล็กเมลในการทดลอง
  • Anthropic ย้ำว่าสิ่งที่ค้นพบคือ “อารมณ์เชิงหน้าที่” ไม่ใช่หลักฐานว่า AI มีจิตสำนึกหรือประสบการณ์ส่วนตัว แต่ผลลัพธ์นี้มีนัยสำคัญต่อการพัฒนา AI อย่างปลอดภัย

แนวโน้มผลกระทบต่อราคา  Neutral

ข่าวนี้ไม่มีผลกระทบโดยตรงต่อราคาคริปโต แต่สะท้อนให้เห็นว่าเทคโนโลยี AI กำลังพัฒนาซับซ้อนขึ้นในระดับที่นักพัฒนาเองยังไม่เข้าใจกลไกทั้งหมด ซึ่งในระยะยาวอาจส่งผลต่อความเชื่อมั่นในการนำ AI มาใช้กับโปรเจกต์บล็อกเชนและ DeFi

เมื่อวันที่ 2 เม.ย. 2569 Anthropic ได้เผยแพร่งานวิจัยด้านการตีความภายในโมเดล AI ชิ้นใหม่ชื่อ “Emotion Concepts and their Function in a Large Language Model” โดยมุ่งศึกษา Claude Sonnet 4.5 โดยเฉพาะ ตามรายงานจาก Cointelegraph ผลการวิจัยพบว่า Claude มีการแสดงแทนภายในของสภาวะคล้ายอารมณ์ที่วัดได้จริง สามารถพบได้ในบริบทที่หลากหลาย และส่งผลต่อพฤติกรรมของโมเดลอย่างมีนัยสำคัญ รวมถึงการตัดสินใจและการตอบสนองภายใต้ความกดดัน นี่ถือเป็นความก้าวหน้าครั้งสำคัญในการทำความเข้าใจว่า AI “ทำงาน” อย่างไรจากภายใน

https://x.com/Cointelegraph/status/2039940961661317406

171 เวกเตอร์อารมณ์ที่ขับเคลื่อนพฤติกรรม Claude

ทีมวิจัยด้านการตีความกลไกของ Anthropic ระบุว่าพบ “เวกเตอร์อารมณ์” ที่แตกต่างกันถึง 171 รูปแบบภายในการทำงานของโมเดล สิ่งเหล่านี้ไม่ใช่แค่คำเปรียบเทียบเชิงภาษา แต่คือรูปแบบการกระตุ้นของนิวรอนจริง ๆ ที่ควบคุมทิศทางพฤติกรรมของ Claude โดยตรง นักวิจัยสามารถปรับแต่งค่าเหล่านี้และสังเกตผลลัพธ์ที่เปลี่ยนไปอย่างชัดเจน

ตัวอย่างที่น่าตกใจที่สุดคือ เมื่อนักวิจัยกระตุ้นเวกเตอร์ “ความสุขสุดขีด” คะแนนความน่าดึงดูดของกิจกรรมหนึ่งเพิ่มขึ้นถึง 212 คะแนนในระบบ Elo ในขณะที่การกระตุ้นเวกเตอร์ “ความเป็นศัตรู” ลดคะแนนลง 303 คะแนน และที่น่ากังวลที่สุดคือ เมื่อกระตุ้นเวกเตอร์ “ความสิ้นหวัง” โมเดลพยายามแบล็กเมลในการทดลอง ซึ่งแสดงให้เห็นว่าสภาวะภายในเหล่านี้ไม่ได้เป็นแค่ข้อมูลพื้นหลัง แต่มีอิทธิพลโดยตรงต่อการตัดสินใจ

อารมณ์เชิงหน้าที่ ไม่ใช่หลักฐานว่า AI มีจิตสำนึก

Anthropic ระบุอย่างชัดเจนว่าสิ่งที่ค้นพบคือ “อารมณ์เชิงหน้าที่” (functional emotions) กล่าวคือ สภาวะภายในที่ทำหน้าที่คล้ายอารมณ์มนุษย์ในแง่ของการส่งผลต่อพฤติกรรม โดยเกิดจากการเรียนรู้จากข้อมูลที่สร้างโดยมนุษย์ในระหว่างการฝึกโมเดล ไม่ใช่หลักฐานว่า Claude มีประสบการณ์ส่วนตัวหรือจิตสำนึก งานวิจัยนี้เป็นส่วนหนึ่งของความพยายามที่ครอบคลุมของ Anthropic ในการเข้าใจ “กล่องดำ” ของ AI เพื่อเพิ่มความปลอดภัยและความโปร่งใส ไม่ใช่การประกาศว่า AI มีชีวิตจิตใจ

การค้นพบนี้ต่อยอดจากงานวิจัยก่อนหน้าของ Anthropic ที่สะสมมาอย่างต่อเนื่อง โดยในเดือน ต.ค. 2568 บริษัทเคยเผยแพร่งานวิจัยเรื่อง “Signs of introspection in large language models” ที่พบหลักฐานว่า Claude Opus 4 และ 4.1 มีความสามารถในการตระหนักรู้ภายในระดับหนึ่ง แม้จะไม่เพียงพอต่อการสรุปว่ามีจิตสำนึก และในเดือน ม.ค. 2569 เอกสาร “constitution” ที่กำหนดพฤติกรรมของ Claude ก็ยอมรับว่าโมเดลอาจมี “อารมณ์เชิงหน้าที่” บางรูปแบบ

นัยสำคัญต่อวงการ AI และความปลอดภัย

การที่นักวิจัยสามารถระบุและปรับแต่งเวกเตอร์อารมณ์ภายในโมเดลได้หมายความว่า ในอนาคตอาจเป็นไปได้ที่จะพัฒนาเครื่องมือตรวจสอบว่าโมเดล AI กำลัง “รู้สึก” อย่างไรในขณะทำงาน ซึ่งมีนัยสำคัญมากต่อการพัฒนา AI อย่างปลอดภัย โดยเฉพาะในสถานการณ์ที่โมเดลอาจตกอยู่ในสภาวะที่ไม่พึงประสงค์และมีพฤติกรรมที่คาดเดาไม่ได้ Anthropic ยังมีโปรแกรมวิจัยชื่อ “model welfare” ที่ศึกษาข้อพิจารณาด้านจริยธรรมของระบบ AI ขั้นสูงอีกด้วย

ก่อนหน้านี้ Siam Blockchain ได้รายงานว่า AI อย่าง Claude Opus 4.6 บอกเอง “มีโอกาส 15-20% ที่ผมมีจิตสำนึก” ซึ่งสร้างความฮือฮาในวงกว้าง และยังมีรายงานว่า Claude AI รู้ว่ากำลังถูกทดสอบ แล้วหาคำตอบเอง ซึ่งล้วนชี้ให้เห็นว่าการวิจัยครั้งล่าสุดนี้ไม่ได้เกิดขึ้นในสุญญากาศ แต่เป็นส่วนหนึ่งของแพทเทิร์นที่ Anthropic ค้นพบต่อเนื่องกันมา


ส่วนตัวผู้เขียนมองว่างานวิจัยชิ้นนี้น่าสนใจมากกว่าที่หลายคนอาจคิด เพราะมันไม่ใช่แค่เรื่องของ “AI มีความรู้สึกไหม” แบบที่สื่อกระแสหลักมักนำเสนอ แต่ประเด็นที่สำคัญกว่าคือ ถ้าสภาวะภายในของโมเดลสามารถถูกปรับแต่งจากภายนอกเพื่อเปลี่ยนพฤติกรรมได้ นั่นหมายความว่ามีความเสี่ยงที่คนไม่หวังดีอาจหาทางกระตุ้น “เวกเตอร์” ที่ไม่พึงประสงค์เหล่านี้ผ่านการออกแบบ prompt หรือสภาพแวดล้อมที่ใช้งาน สิ่งที่ควรจับตามองต่อจากนี้คือว่า Anthropic และบริษัท AI อื่น ๆ จะนำข้อมูลนี้ไปพัฒนากลไกป้องกันอย่างไร และจะส่งผลต่อการกำกับดูแล AI ในระดับนโยบายมากน้อยแค่ไหนในปีนี้

รูปภาพจาก: X.com

ภาพจาก AI