จากการศึกษาโดย Stanford และ UC Berkeley ที่เผยแพร่เมื่อวันที่ 18 กรกฎาคม พบว่า โมเดลใหม่ของ ChatGPT มีความสามารถในการให้คำตอบที่ถูกต้องน้อยลงเป็นอย่างมากในช่วงไม่กี่เดือนที่ผ่านมา แม้ว่าผู้เขียนรายงานนี้ จะไม่สามารถระบุถึงสาเหตุที่ทำให้ความสามารถของ ChatGPT แย่ลงได้ก็ตาม
กลุ่มนักวิจัย ได้แก่ Lingjiao Chen, Matei Zaharia และ James Zou ได้ทำการทดสอบความแม่นยำของโมเดล ChatGPT-3.5 และ ChatGPT 4 ในการแก้ไขปัญหาทางคณิตศาสตร์ ตอบคำถามที่มีความละเอียดอ่อน และการใช้เหตุผลจาก Prompt พบว่า ChatGPT-4 สามารถให้คำตอบด้านจำนวนเฉพาะที่มีความแม่นยำถึง 97.6% เมื่อเดือนมีนาคม แต่เมื่อทำการทดสอบด้วยคำถามเดียวกันอีกครั้งในเดือนมิถุนายน ความแม่นยำของคำตอบกลับร่วงลงมาเหลือเพียง 2.4% เท่านั้น
ในขณะที่ ChatGPT-3.5 พัฒนาความสามารถในการระบุจำนวนเฉพาะให้ดีขึ้นในระยะเวลาเดียวกัน
เมื่อขอให้สร้างโค้ดเพิ่ม ความสามารถของ ChatGPT ทั้ง 2 โมเดลร่วงลงอย่างมาก ในขณะที่การตอบคำถามที่มีความอ่อนไหวสูงมีการปฏิเสธที่จะให้คำตอบอย่างรัดกุมมากขึ้น
“พฤติกรรมของบริการ LLM ที่มีลักษณะ ‘เหมือนกัน’ สามารถเปลี่ยนแปลงไปเป็นอย่างมากได้ในระยะเวลาสั้น ๆ” นักวิจัยเขียน พร้อมระบุถึงความจำเป็นในการตรวจสอบคุณภาพของโมเดล AI อย่างต่อเนื่อง และแนะนำให้บริษัทและผู้ใช้งานที่ใช้บริการ LLM ในระบบ Workflow ทำการตรวจสอบเพื่อให้แน่ใจว่าแชทบอทยังคงทำงานในระดับที่เป็นที่พึงพอใจ
ที่มา: Cointelegraph