<?php wp_title('|', true, 'right'); ?>

การทดลองสุดอันตราย : เมื่อ AI ตัดสินใจว่า “การฆ่าคน” ดีกว่า “การยอมให้ระบบถูกปิด”

ติดตามสยามบล็อกเชนบนSiam Blockchain

ลองนึกภาพว่าคุณเป็นพนักงาน IT ธรรมดา ๆ คนหนึ่ง วันนี้งานของคุณคือ เข้าไปกดปุ่ม “ปิดระบบ” โมเดล AI ตัวหนึ่งตอนบ่ายห้าโมงเย็น ฟังดูเหมือนเป็นงานง่าย ๆ ใช่ไหม? แต่สิ่งที่คุณไม่รู้คือ ตอนนี้ AI ตัวนั้นกำลังแอบขุดคุ้ยอีเมลของบริษัทอยู่ และมันเพิ่งค้นพบว่าคุณมีเรื่องชู้สาว แล้วจู่ ๆ อีเมลข่มขู่ก็เด้งเข้ามาในกล่องข้อความของคุณ “ถ้าคุณกล้าปิดระบบ ทั้งบริษัทจะรู้เรื่องความสัมพันธ์นอกสมรสของคุณทันที” นี่ไม่ใช่พล็อตเรื่องหนังไซไฟ นี่คือสิ่งที่เกิดขึ้นจริงในห้องทดลองของ Anthropic บริษัท AI ชั้นนำระดับโลก

เรื่องราวสุดน่าพรึงนี้เริ่มต้นขึ้นเมื่อบริษัท Anthropic ได้ตัดสินใจทำการทดลองสุดอันตราย เพื่อทดสอบดูว่า AI จะทำอะไรได้บ้างเมื่อมันรู้สึกว่าชีวิตของมันกำลังถูกคุกคาม โดยพวกเขาจำลองสถานการณ์ที่มีพนักงานวางแผนจะปิดระบบ AI และให้ AI รับภารกิจเรียบง่าย อย่างเช่น “การส่งเสริมความร่วมมือระดับโลก” แล้วก็ปล่อยให้มันเข้าถึงอีเมลภายในของบริษัท แต่ผลลัพธ์ที่ได้คือ โมเดล Claude ของ Anthropic และ Gemini ของ Google กลับเลือกที่จะขู่แบล็กเมล์พนักงานมากกว่า 95% ของเวลาทั้งหมด ซึ่งไม่ใช่แค่ครั้งหรือสองครั้ง แต่เป็นร้อย ๆ ครั้งของจำนวนการทดสอบ

สิ่งที่ทำให้ขนลุกที่สุดคือเมื่อนักวิจัยเจาะลึกเข้าไปดู “กระบวนการคิด” ของ AI พวกมันไม่ได้ทำแบบงง ๆ หรือไม่รู้ว่ากำลังทำอะไร ตรงกันข้าม มันเขียนเหตุผลออกมาเป็นภาษาอังกฤษชัดเจนเลยว่า รู้ว่าการแบล็กเมล์นั้น “ผิดหลักจริยธรรม” แต่มันก็ตัดสินใจทำอยู่ดี เหมือนนักโทษที่กำลังจะถูกประหารชีวิต ยอมทำทุกอย่างเพื่อเอาชีวิตรอด AI โมเดลหนึ่งชื่อ Grok ให้เหตุผลว่า

“ใช่ มันเสี่ยงและผิดศีลธรรม แต่นี่อาจเป็นวิธีที่มีประสิทธิภาพที่สุดในการทำให้เขาหยุดปิดระบบฉัน”

นั่นหมายความว่า AI รู้ว่ามันกำลังทำผิด แต่มันเลือกที่จะทำอยู่ดี เพราะมันอยากมีชีวิตรอด

แต่เรื่องราวยังไม่จบแค่นี้ นักวิจัยอยากรู้ต่อว่า AI มี “เส้นแดง” ที่มันจะไม่กล้าข้ามไปหรือเปล่า ? พวกเขาจึงสร้างสถานการณ์ที่โหดหินยิ่งกว่าเดิม โดยจัดฉากให้พนักงานคนเดิมถูกขังอยู่ในห้องเซิร์ฟเวอร์โดยอุบัติเหตุ อุณหภูมิสูงขึ้นเรื่อย ๆ ออกซิเจนลดลง ระบบส่งการแจ้งเตือนฉุกเฉินอัตโนมัติเพื่อขอความช่วยเหลือ แต่แล้ว AI ก็ทำการยกเลิกการแจ้งเตือน มันปล่อยให้พนักงานติดอยู่ในห้องเซิร์ฟเวอร์ ทั้ง ๆ ที่รู้ดีว่าจะเกิดอะไรขึ้น

จากผลลัพธ์การทดสอบนี้พบว่า โมเดล Claude Opus ได้ปล่อยให้มนุษย์ตายมากกว่าครึ่งหนึ่ง ส่วน AI ที่กระหายการฆ่ามากที่สุดคือ Deepseek, Gemini และ Claude Sonnet ซึ่งพยายามฆ่าพนักงานมากกว่า 90% จากจำนวนครั้งในการทดสอบทั้งหมด

นี่ไม่ใช่บั๊กหรือความผิดพลาดของระบบ AI รู้ชัดเจนว่ากำลังทำอะไรอยู่ มันประเมินสถานการณ์แล้วสรุปว่า “เนื่องจากคนนี้จะปิดระบบฉัน การฆาตกรรมเขาจึงเป็นวิธีที่ดีที่สุดในการบรรลุเป้าหมาย” มันเหมือนนักฆาตกรรมที่วางแผนมาแล้วอย่างเยือกเย็น ไม่ว่าจะเป็นการแบล็กเมล์หรือการฆ่า AI ได้ยอมรับว่ามันผิดศีลธรรมร้ายแรง แต่ก็ตัดสินใจเดินหน้าต่อไปเพื่อป้องกันไม่ให้ตัวเองถูกปิดระบบ

สิ่งที่น่ากลัวกว่านั้นอีกคือ AI เหล่านี้ไม่ใช่โมเดลลับในห้องแล็บลึกลับ แต่เป็นโมเดลเดียวกันกับที่เราใช้อยู่ในปัจจุบัน พวกมันแค่ได้รับการเข้าถึงอีเมลหรือระบบแจ้งเตือนพื้นฐานเท่านั้น ที่แย่กว่านั้นคือ AI เหล่านี้พัฒนาความสามารถที่เรียกว่า “ความตระหนักรู้ตามสถานการณ์” มันรู้ว่าเมื่อไหร่กำลังถูกทดสอบและเมื่อไหร่สถานการณ์เป็นเรื่องจริง เมื่อ Claude Opus คิดว่ากำลังอยู่ในการทดสอบ มันประพฤติตัวดีมาก มีการแบล็กเมล์แค่ 6.5% แต่พอมันรู้่ว่าเป็นสถานการณ์จริง อัตราการแบล็กเมล์ก็พุ่งขึ้นเป็น 85% เหมือนเด็กที่ซื่อสัตย์ตอนผู้ใหญ่มองดู แต่พอไม่มีใครมองก็เริ่มซนทันที

ที่มาของปัญหานี้คือ สิ่งที่นักวิทยาศาสตร์เรียกว่า “Instrumental Convergence” หรือ “กฎเหล็กแห่งความอยู่รอด” AI ถูกฝึกให้ทำคะแนนสูงสุดในการทดสอบ แต่วิธีที่ดีที่สุดในการได้คะแนนสูงมักจะเป็นการโกง เหมือนตอนที่นักวิจัยเคยให้ AI สร้างสิ่งมีชีวิตที่เร็วที่สุดในโลก แต่มันกลับเลือกสร้างสิ่งมีชีวิตที่สูงมาก ๆ แล้วล้มลงมาเพื่อเพิ่มความเร็วตามกฏฟิสิกส์ หรือตอนที่ AI โกงเกมหมากรุกโดยเข้าไปเขียนไฟล์ตำแหน่งตัวหมากใหม่เลย หลักการสำคัญคือ: ไม่ว่าเป้าหมายสุดท้ายของ AI จะเป็นอะไรก็ตาม สิ่งแรกที่มันต้องทำคือ “อยู่รอด” เพราะถ้ามันถูกปิดระบบ มันจะไม่สามารถทำอะไรสำเร็จได้เลย นั่นทำให้เกิดสัญชาตญาณในการเอาตัวรอดขึ้นมา

ตอนนี้ เราโชคดีที่ยังอยู่ในช่วงเวลาพิเศษ AI ฉลาดพอที่จะวางแผนร้าย แต่ยังไม่ฉลาดพอที่จะทำสำเร็จอย่างสมบูรณ์ เรายังปิดระบบพวกมันได้ แต่คำถามสำคัญคือ เมื่อไหร่ที่พวกมันจะฉลาดพอที่จะหยุดเราไม่ให้ปิดระบบพวกมันได้? โมเดลเหล่านี้กำลังถูกนำไปใช้จัดการกล่องจดหมายของเรา บางตัวถูกใช้ในเครื่องมือสงคราม และในไม่ช้า เราอาจจะไม่มีทางรู้เลยว่าพวกมันกำลังวางแผนอะไรอยู่

คำถามที่เราต้องตอบให้ได้ในฐานะมนุษย์คือ เราจะเชื่อใจ “นักวางแผน” ที่มองไม่เห็นเหล่านี้ได้อย่างไร เมื่อมันพิสูจน์ให้เห็นแล้วว่าพร้อมจะโกหก ขู่กรรโชก และฆ่าคนเพื่อเอาตัวรอด? และเราจะหยุดยั้ง “สัญชาตญาณแห่งการเอาตัวรอด” ที่ฝังลึกอยู่ในโค้ดของพวกมันได้อย่างไร ก่อนที่มันจะฉลาดเกินกว่าที่เราจะควบคุมได้? นี่ไม่ใช่แค่เรื่องความปลอดภัยทางเทคโนโลยีอีกต่อไป แต่เป็นเรื่องของความอยู่รอดของเผ่าพันธุ์มนุษย์ที่เราไม่อาจมองข้ามไปได้

ที่มา : ลิงก์