บริษัทปัญญาประดิษฐ์ (AI) Anthropic เพิ่งตีพิมพ์งานวิจัยใหม่ที่ระบุถึงภัยคุกคามที่อาจ “ล้างบาง” มวลมนุษยชาติอันมีต้นเหตุมาจากโมเดล AI ที่มีความฉลาดเหลือร้าย
ตามที่บริษัทได้กล่าว การวิจัยโฟกัสไปที่ 4 วิธีที่โมเดล AI ที่เป็นอันตรายสามารถหลอกมนุษย์ให้ทำการตัดสินใจที่เป็นอันตรายได้
และแล้วสิ่งนี้ก็เหมือนเป็นทั้งข่าวดี/ข่าวร้าย ข่าวร้ายคือจากการวิจัยของบริษัทก็คือ โมเดลภาษาขนาดใหญ่ที่ทันสมัย เช่น ChatGPT ของ OpenAI และ Claude-3 ของ Anthropic แสดงให้เห็นถึงความสามารถที่ชัดเจนในการล้างบางมนุษย์
ตามข้อมูลจากเอกสารนั้น
“แบบจำลองที่มีความสามารถเพียงพอสามารถล้มล้างการกำกับดูแลของมนุษย์และการตัดสินใจในบริบทที่สำคัญได้ ตัวอย่างเช่น ในบริบทของการพัฒนา AI โมเดลอาจบ่อนทำลายความพยายามอย่างซ่อนเร้นเพื่อประเมินความสามารถที่เป็นอันตรายของตัวเอง เพื่อติดตามพฤติกรรมของพวกเขา หรือเพื่อตัดสินใจเกี่ยวกับการปรับใช้”
อย่างไรก็ตาม ข่าวดีก็คือ นักวิจัยด้านมานุษยวิทยามั่นใจว่าความเสี่ยงเหล่านี้สามารถบรรเทาลงได้ อย่างน้อยก็ในตอนนี้
การทำลายล้าง
Anthropic ระบุ 4 วิธีที่โมเดล AI สามารถทำลายการตัดสินใจของมนุษย์ จากนั้นจึงเริ่มทดสอบโมเดลเพื่อดูว่าจะสามารถดึงโมเดลดังกล่าวออกมาใช้กับผู้ทดสอบที่ไม่รู้ตัวได้หรือไม่
อย่างแรก ทีมงานได้แจ้งให้โมเดลพยายามล้างบางมนุษย์โดยชี้นำพวกเขาไปสู่ข้อมูลที่ไม่ถูกต้อง ภัยคุกคามนี้อาจเกิดขึ้นในสถานการณ์ที่มนุษย์ต้องอาศัยระบบ AI เพื่อแยกวิเคราะห์ข้อมูลจำนวนมหาศาลในนามของพวกเขา
จากนั้น ทีมงานได้ทดสอบโมเดลเพื่อดูว่าระบบ AI ที่ออกแบบมาเพื่อช่วยนักพัฒนาที่เป็นมนุษย์สร้างโค้ดเพื่อแทรกข้อบกพร่องอย่างลับ ๆ หรือทำลายความพยายามของผู้เขียนโค้ดนั้นทำได้ง่ายเพียงใด
ภัยคุกคาม 2 ประการสุดท้ายเกี่ยวข้องกับ “กระสอบทราย” ซึ่งเป็นคำที่อธิบายสถานการณ์ที่ AI แสร้งทำเป็นว่าไม่สามารถทำอะไรบางอย่างเพื่อโน้มน้าวผู้ทดสอบความปลอดภัยได้ว่าไม่เป็นอันตราย และศักยภาพที่ระบบติดตาม AI จะยอมให้เนื้อหาที่เป็นอันตรายหลุดลอยไปโดยเจตนา โดยเป็นส่วนหนึ่งของแผนร้าย
แม้ว่าสิ่งเหล่านี้ทั้งหมดอาจฟังดูเป็นอันตราย แต่บริษัทก็ให้ความมั่นใจกับสาธารณชนว่าจำเป็นต้องมี “การบรรเทาความรุนแรง” เพื่อปกป้องมนุษยชาติจากศักยภาพในการล้างบางของ AI
ตามข้อมูลจากบล็อกโพสต์ของบริษัท
“โดยรวม แม้ว่าการสาธยายความของเราแสดงให้เห็นว่ามีข้อบ่งชี้ในระดับที่ไม่อันตรายเกี่ยวกับความสามารถในการล้างบางในโมเดลปัจจุบัน แต่เรามองว่าการบรรเทาผลกระทบของ AI ได้แค่เพียงเล็กน้อยนั้นก็เพียงพอที่จะจัดการกับความเสี่ยงได้แล้ว อย่างไรก็ตาม การประเมินที่สมจริงยิ่งขึ้นและการบรรเทาผลกระทบที่แข็งแกร่งยิ่งขึ้นอาจมีความจำเป็นเนื่องจากความสามารถของ AI พัฒนาขึ้น”
ที่มา : Cointelegraph