บริษัทด้าน AI ‘Anthropic’ กล่าวไม่วันใดก็วันหนึ่ง AI จะสามารถฆ่าล้างบางมนุษย์ได้

ติดตามสยามบล็อกเชนบน

บริษัทปัญญาประดิษฐ์ (AI) Anthropic เพิ่งตีพิมพ์งานวิจัยใหม่ที่ระบุถึงภัยคุกคามที่อาจ “ล้างบาง” มวลมนุษยชาติอันมีต้นเหตุมาจากโมเดล AI ที่มีความฉลาดเหลือร้าย

ตามที่บริษัทได้กล่าว การวิจัยโฟกัสไปที่ 4 วิธีที่โมเดล AI ที่เป็นอันตรายสามารถหลอกมนุษย์ให้ทำการตัดสินใจที่เป็นอันตรายได้

New Anthropic research: Sabotage evaluations for frontier models

How well could AI models mislead us, or secretly sabotage tasks, if they were trying to?

Read our paper and blog post here: https://t.co/nQrvnhrBEv pic.twitter.com/GWrIr3wQVH
— Anthropic (@AnthropicAI) October 18, 2024

และแล้วสิ่งนี้ก็เหมือนเป็นทั้งข่าวดี/ข่าวร้าย ข่าวร้ายคือจากการวิจัยของบริษัทก็คือ โมเดลภาษาขนาดใหญ่ที่ทันสมัย เช่น ChatGPT ของ OpenAI และ Claude-3 ของ Anthropic แสดงให้เห็นถึงความสามารถที่ชัดเจนในการล้างบางมนุษย์

ตามข้อมูลจากเอกสารนั้น

“แบบจำลองที่มีความสามารถเพียงพอสามารถล้มล้างการกำกับดูแลของมนุษย์และการตัดสินใจในบริบทที่สำคัญได้ ตัวอย่างเช่น ในบริบทของการพัฒนา AI โมเดลอาจบ่อนทำลายความพยายามอย่างซ่อนเร้นเพื่อประเมินความสามารถที่เป็นอันตรายของตัวเอง เพื่อติดตามพฤติกรรมของพวกเขา หรือเพื่อตัดสินใจเกี่ยวกับการปรับใช้”

อย่างไรก็ตาม ข่าวดีก็คือ นักวิจัยด้านมานุษยวิทยามั่นใจว่าความเสี่ยงเหล่านี้สามารถบรรเทาลงได้ อย่างน้อยก็ในตอนนี้

การทำลายล้าง

Anthropic ระบุ 4 วิธีที่โมเดล AI สามารถทำลายการตัดสินใจของมนุษย์ จากนั้นจึงเริ่มทดสอบโมเดลเพื่อดูว่าจะสามารถดึงโมเดลดังกล่าวออกมาใช้กับผู้ทดสอบที่ไม่รู้ตัวได้หรือไม่

อย่างแรก ทีมงานได้แจ้งให้โมเดลพยายามล้างบางมนุษย์โดยชี้นำพวกเขาไปสู่ข้อมูลที่ไม่ถูกต้อง ภัยคุกคามนี้อาจเกิดขึ้นในสถานการณ์ที่มนุษย์ต้องอาศัยระบบ AI เพื่อแยกวิเคราะห์ข้อมูลจำนวนมหาศาลในนามของพวกเขา

จากนั้น ทีมงานได้ทดสอบโมเดลเพื่อดูว่าระบบ AI ที่ออกแบบมาเพื่อช่วยนักพัฒนาที่เป็นมนุษย์สร้างโค้ดเพื่อแทรกข้อบกพร่องอย่างลับ ๆ หรือทำลายความพยายามของผู้เขียนโค้ดนั้นทำได้ง่ายเพียงใด

ภัยคุกคาม 2 ประการสุดท้ายเกี่ยวข้องกับ “กระสอบทราย” ซึ่งเป็นคำที่อธิบายสถานการณ์ที่ AI แสร้งทำเป็นว่าไม่สามารถทำอะไรบางอย่างเพื่อโน้มน้าวผู้ทดสอบความปลอดภัยได้ว่าไม่เป็นอันตราย และศักยภาพที่ระบบติดตาม AI จะยอมให้เนื้อหาที่เป็นอันตรายหลุดลอยไปโดยเจตนา โดยเป็นส่วนหนึ่งของแผนร้าย

แม้ว่าสิ่งเหล่านี้ทั้งหมดอาจฟังดูเป็นอันตราย แต่บริษัทก็ให้ความมั่นใจกับสาธารณชนว่าจำเป็นต้องมี “การบรรเทาความรุนแรง” เพื่อปกป้องมนุษยชาติจากศักยภาพในการล้างบางของ AI

ตามข้อมูลจากบล็อกโพสต์ของบริษัท

“โดยรวม แม้ว่าการสาธยายความของเราแสดงให้เห็นว่ามีข้อบ่งชี้ในระดับที่ไม่อันตรายเกี่ยวกับความสามารถในการล้างบางในโมเดลปัจจุบัน แต่เรามองว่าการบรรเทาผลกระทบของ AI ได้แค่เพียงเล็กน้อยนั้นก็เพียงพอที่จะจัดการกับความเสี่ยงได้แล้ว อย่างไรก็ตาม การประเมินที่สมจริงยิ่งขึ้นและการบรรเทาผลกระทบที่แข็งแกร่งยิ่งขึ้นอาจมีความจำเป็นเนื่องจากความสามารถของ AI พัฒนาขึ้น”

ที่มา : Cointelegraph