วิจัยแฉ AI เขียนโค้ดกว่า 75% ทำโค้ดเดิมพังตอนซ่อม ระบบเงินจริงต้องระวัง

พร้อมเล่น 0:00 / 0:00

สรุปข่าว

งานวิจัยจากมหาวิทยาลัย Sun Yat-sen ร่วมกับ Alibaba Group ทดสอบ AI เขียนโค้ด 18 ตัวจาก 8 ผู้ให้บริการ โดยใช้ benchmark ใหม่ชื่อ SWE-CI ซึ่งประเมินงานบำรุงรักษาโค้ดจริง 100 งาน แต่ละงานครอบคลุมประวัติการพัฒนาเฉลี่ย 233 วัน
ผลการทดสอบพบว่า AI ส่วนใหญ่ได้คะแนน zero-regression rate ต่ำกว่า 0.25 หมายความว่ามีความล้มเหลวในการรักษาโค้ดเดิมให้ทำงานได้มากกว่า 75% ของงาน มีเพียง Claude-opus-4.5 (0.51) และ Claude-opus-4.6 (0.76) ที่ทำผลได้ดีกว่า
งานวิจัยนี้ชี้ให้เห็นว่า AI เก่งเขียนโค้ดใหม่ แต่ยังอ่อนด้านการดูแลรักษาโค้ดระยะยาว ซึ่งเป็นสัญญาณเตือนสำหรับวงการที่กำลังเดินหน้าเปิดใช้ AI agent แบบอัตโนมัติ

แนวโน้มผลกระทบต่อราคา Neutral

ข่าวนี้ไม่ส่งผลโดยตรงต่อราคาคริปโต แต่สะท้อนความเสี่ยงของการพึ่งพา AI agent ในระบบที่ต้องการความน่าเชื่อถือสูง รวมถึงโปรโตคอล DeFi และโครงสร้างพื้นฐานบล็อกเชนที่มีการอัปเดตโค้ดอยู่เสมอ ในระยะยาวอาจทำให้นักพัฒนาและนักลงทุนระมัดระวังมากขึ้นในการนำ AI มาใช้งานแบบอัตโนมัติในระบบที่มีเงินจริงอยู่เบื้องหลัง

งานวิจัยใหม่จากนักวิจัยของมหาวิทยาลัย Sun Yat-sen ร่วมกับ Alibaba Group เปิดเผยผลการทดสอบที่น่าตกใจ ตามรายงานจาก Cointelegraph พบว่าเมื่อทดสอบ AI เขียนโค้ด 18 ตัวจาก 8 ผู้ให้บริการ กับงานบำรุงรักษาโค้ดจริง 100 งานที่ครอบคลุมประวัติการพัฒนาเฉลี่ย 233 วันและ 71 commit ติดต่อกัน ผลปรากฏว่า AI เหล่านี้กว่า 75% ทำให้โค้ดที่ทำงานได้อยู่แล้วเกิดความเสียหายในระหว่างกระบวนการซ่อมบำรุง งานวิจัยนี้ได้เผยแพร่ในชื่อ “SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration” โดยนำเสนอ benchmark ใหม่ที่ออกแบบมาเพื่อทดสอบความสามารถด้านการดูแลรักษาโค้ดระยะยาว ซึ่งเป็นมิติที่การทดสอบแบบเดิมส่วนใหญ่ไม่ได้วัด

ทำไม AI ถึงเก่งเขียนแต่ไม่เก่งซ่อม

หัวใจของปัญหาอยู่ที่ความแตกต่างระหว่างการเขียนโค้ดใหม่กับการดูแลโค้ดที่มีอยู่แล้ว benchmark ทั่วไปอย่าง HumanEval หรือ SWE-bench วัดแค่ว่า AI เขียนโค้ดที่ทำงานได้ ณ จุดเวลาหนึ่งหรือไม่ แต่ SWE-CI ออกแบบมาเพื่อจำลองสภาพแวดล้อมการพัฒนาซอฟต์แวร์จริง ที่โค้ดต้องถูกดูแลและพัฒนาต่อเนื่องไปเรื่อย ๆ ตลอดหลายเดือน

เมตริกหลักที่ใช้ในงานวิจัยคือ “zero-regression rate” ซึ่งวัดว่า AI สามารถทำงานซ่อมบำรุงทั้งกระบวนการโดยไม่ทำให้ test ที่ผ่านอยู่แล้วล้มเหลวได้กี่ครั้ง ผลที่ได้คือ AI ส่วนใหญ่ทำคะแนนต่ำกว่า 0.25 หมายความว่าใน 4 งาน มีแค่ไม่ถึง 1 งานที่ผ่านโดยไม่พัง ปัญหาหลักคือ AI มักแก้ปัญหาหน้าบ้านได้ แต่โดยไม่รู้ตัวไปทำลายสิ่งที่ทำงานได้อยู่แล้วในส่วนอื่น ๆ ของโค้ด สะสมเป็น “หนี้ทางเทคนิค” ที่นับวันยิ่งซับซ้อนขึ้นเรื่อย ๆ

Claude ทำผลได้ดีที่สุด แต่ยังไม่ถือว่าพร้อม

ในบรรดา AI ทั้ง 18 ตัวที่ทดสอบ มีเพียง Claude-opus-4.5 ที่ได้คะแนน 0.51 และ Claude-opus-4.6 ที่ได้ 0.76 เท่านั้นที่ทำ zero-regression rate เกิน 0.5 ซึ่งถือว่าดีกว่าตัวอื่นอย่างมีนัยสำคัญ อย่างไรก็ตาม แม้แต่ตัวที่ดีที่สุดอย่าง Claude-opus-4.6 ก็ยังทำพังในราว 24% ของงาน ตัวเลขนี้ยังสูงเกินไปสำหรับระบบที่ต้องการความน่าเชื่อถือสูงในสภาพแวดล้อมจริง

ผลการวิจัยนี้กระตุ้นให้เกิดคำถามสำคัญว่า วงการที่กำลังเดินหน้าเปิดใช้ AI agent แบบอัตโนมัติในงานพัฒนาซอฟต์แวร์จริง ไม่ว่าจะเป็นโปรโตคอล DeFi, ระบบกระดานเทรด หรือโครงสร้างพื้นฐานบล็อกเชน ควรระวังอะไรบ้าง เพราะในระบบที่มีเงินจริงอยู่เบื้องหลัง โค้ดที่พังเพราะ AI ซ่อมผิด อาจแปลงเป็นความเสียหายทางการเงินได้ทันที

นัยต่อการใช้ AI ในโลก Web3 และคริปโต

ก่อนหน้านี้ Siam Blockchain ได้รายงานว่า AI จ่ายเงินบนบล็อกเชนแล้ว 140 ล้านครั้ง สะท้อนถึงการขยายตัวของ AI agent ในระบบนิเวศคริปโตอย่างรวดเร็ว งานวิจัยชิ้นนี้จึงมาในเวลาที่เหมาะเจาะ เพราะเตือนให้ทีมพัฒนาและนักลงทุนในโลก Web3 ตระหนักว่า AI ที่ดูเก่งในการสร้างฟีเจอร์ใหม่ อาจไม่ใช่คำตอบที่ดีที่สุดสำหรับงานดูแลระบบที่ต้องการความเสถียรระยะยาว โดยเฉพาะ smart contract ที่เมื่อ deploy ไปแล้วมักแก้ไขได้ยากหรือแทบเป็นไปไม่ได้

นอกจากนี้ ผลการวิจัยยังชี้ให้เห็นว่าการประเมินความสามารถของ AI ด้วย benchmark แบบเก่าที่วัดแค่จุดเดียวในเวลา ไม่เพียงพอที่จะสะท้อนความพร้อมสำหรับงานในโลกจริง จำเป็นต้องมีมาตรฐานการทดสอบที่ครอบคลุมมิติของเวลาและการวิวัฒนาการของระบบด้วย

ส่วนตัวผู้เขียนมองว่างานวิจัยชิ้นนี้น่าสนใจมากในแง่ที่มันพูดถึงสิ่งที่หลายคนในวงการ AI รู้อยู่แล้วแบบรู้สึก ๆ แต่ไม่เคยมีตัวเลขชัดเจนมายืนยัน นั่นคือ AI เก่งเรื่องใหม่ แต่ไม่ค่อยเก่งเรื่องเก่า และมันน่ากังวลจริง ๆ ในบริบทของโลกคริปโตที่โค้ดคือเงิน ถ้า AI agent ที่กำลังได้รับความนิยมไปช่วยบำรุงรักษา smart contract แล้วพลาดพังโค้ดส่วนสำคัญโดยไม่มีใครจับได้ก่อน อาจเกิดเหตุการณ์แบบ exploit ขนาดใหญ่ขึ้นได้โดยไม่มีใครต้องแฮกเลยด้วยซ้ำ สิ่งที่ต้องจับตาต่อจากนี้คือว่า ทีมพัฒนาโปรโตคอลต่าง ๆ จะปรับกระบวนการตรวจสอบโค้ดอย่างไร เมื่อมี AI เข้ามาช่วยงานในขั้นตอนที่ละเอียดอ่อนเหล่านี้

ภาพจาก AI

ทำไม AI ถึงเก่งเขียนแต่ไม่เก่งซ่อม

Claude ทำผลได้ดีที่สุด แต่ยังไม่ถือว่าพร้อม

นัยต่อการใช้ AI ในโลก Web3 และคริปโต

คุณเชน