พร้อมเล่น 0:00 / 0:00

สรุปข่าว

Xiaomi เปิดตัวโมเดลใหม่ MiMo-V2.5-Pro-UltraSpeed โดยสามารถทำความเร็วในการประมวลผลคำเฉลี่ยทะลุ 1,000 โทเคนต่อวินาที แม้จะใช้แค่คอมธรรมดา
ความสำเร็จครั้งนี้เกิดขึ้นผ่าน 2 การพัฒนาเทคนิคซอฟต์แวร์หลัก อย่าง FP4 Quantization และ DFlash Speculative Decoding จนทำให้ได้ความเร็วเหลือเชื่อ
Xiaomi คาดว่าจะคิดค่าบริการเพิ่มเป็น 3 เท่าของรุ่นมาตรฐานเพื่อแลกกับความเร็วที่เพิ่มขึ้น 10 เท่า โดยเปิดลงทะเบียนทดสอบ API แล้วในระหว่างวันที่ 9–23 มิถุนายน

แนวโน้มผลกระทบ: Bullish

Xiaomi เปิดตัวโมเดลเอไอใหม่ MiMo-V2.5-Pro-UltraSpeed ซึ่งเป็นโมเดลขนาด 1 ล้านล้านพารามิเตอร์ที่สามารถทำความเร็วในการประมวลผลคำทะลุ 1,000 โทเคนต่อวินาที แซงหน้าคู่แข่งตัวท็อปในตลาดอย่าง GPT-5.5, Claude Opus และ Gemini Flash ไปมากกว่า 10 เท่า แต่สามารถทำงานบนการ์ดจอคอมพิวเตอร์มาตรฐานทั่วไปได้ด้วยเทคนิคการปรับแต่งซอฟต์แวร์และระบบประมวลผลร่วมกัน

หากพูดถึงชื่อแบรนด์ของ Xiaomi หลายคนอาจนึกถึงแบรนด์ที่ออกผลิตภัณฑ์เครื่องใช้ไฟฟ้าต่างๆ มากมายตั้งแต่โคมไฟยันโทรศัพท์มือถือ แต่รู้หรือไม่ว่าเมื่อวันจันทร์ที่ผ่านมาพวกเขาได้ทำการทุบสถิติในวงการ AI อย่างน่าเหลือเชื่อแบบที่ไม่มีใครคาดคิด

รายงานจากต่างประเทศเปิดเผยว่า Xiaomi ได้ทำการเปิดตัว AI โมเดลใหม่ MiMo-V2.5-Pro-UltraSpeed ซึ่งสามารถทะยานแซงหน้าเพดานความเร็วที่บริษัทชิปเฉพาะทางใช้เวลาพัฒนาร่วมหลายปีเพื่อไปให้ถึง โดยที่มันนั้นได้รันบนการ์ดจอมาตรฐานทั่วไปเท่านั้น แต่สามารถทำความเร็วในการประมวลผลคำได้สูงกว่า 1,000 โทเคนต่อวินาที และพุ่งทะยานไปแตะเกือบ 1,200 โทเคนในการสาธิต

หากอธิบายให้เข้าใจง่ายๆ จำนวนโทเคนที่วัดก็คือจำนวนคำ/ตัวอักษร ที่ AI อ่านหรือสร้างขึ้นได้ในเวลา 1 วินาที ซึ่งปัจจุบัน GPT-5.5 ทำได้ 68 , Claude Opus 4.6 ทำได้ 71, Gemini Flash ทำได้ 102 แสดงให้เห็นว่าโมเดลของ Xiaomi นั้นเร็วกว่าตัวท๊อปในตลาดตอนนี้มากกว่าสิบเท่า

ขณะเดียวกันหากเทียบกับโมเดลพิเศษที่ถูกสร้างขึ้นมาโดยเฉพาะและใช้ชิปและหน่วยความจำแบบสั่งทำพิเศษ จากทางบริษัท Cerebras และ Groq ยังทำสถิติได้สูงสุดเพียง 969 โทเคนต่อวินาทีบนโมเดล llama 3.10 405B แต่ทาง Xiaomi กลับทำให้คอมพิวเตอร์บ้านๆ สามารถทำความเร็วระดับนี้ได้ด้วยการปรับแต่งซอฟต์แวร์เพียงอย่างเดียว ซึ่งเป็นการผสมผสานระหว่างเทคนิคการปรับแต่งในระดับตัวโมเดล เข้ากับระบบขับเคลื่อนการประมวลผลที่สร้างขึ้นมาโดยเฉพาะที่มีชื่อว่า TileRT

ทำอย่างไรให้ได้ความเร็วระดับนี้?

ข้างใต้โมเดลเอไอพวกเขามีการ 2 เทคนิคหลักที่คุมความเร็ว ซึ่งเทคนิคแรกเรียกว่า FP4 Quantization ซึ่งการบีบอัดข้อมูลเหลือ 4 บิต แทนที่จะรันโมเดลด้วยความแม่นยำของตัวเลขแบบ 8 บิต หรือ 16 บิตตามปกติ

Xiaomi ได้ย่อส่วนของ Expert layers ซึ่งเป็นส่วนประกอบส่วนใหญ่ของพารามิเตอร์ระดับ 1 ล้านล้านตัว ให้เหลือเพียง 4 บิต ส่งผลให้พื้นที่การใช้หน่วยความจำลดลง และทำให้คอขวดของแบนด์วิดท์ลดลง ในขณะที่ความเร็วพุ่งสูงขึ้น แต่ตามปกติแล้วการทำเช่นนี้ ย่อมจะส่งผลทำให้คุณภาพผลลัพธ์จะลดลง แต่ Xiaomi แก้ปัญหานี้โดยเลือกบีบอัด เฉพาะ Expert layers เท่านั้น ส่วนโครงสร้างอื่น ๆ ที่เหลือยังคงความแม่นยำไว้เต็มพิกัด

เทคนิคที่สองคือ DFlash Speculative Decoding หรือ การถอดรหัสเชิงคาดการณ์แบบ DFlash ซึ่งในระบบถอดรหัสเชิงคาดการณ์แบบทั่วไป จะใช้โมเดลดราฟขนาดเล็กมาช่วยเดาคำถัดไปสองสามคำ จากนั้นโมเดลใหญ่จะทำหน้าที่ตรวจสอบความถูกต้องไปพร้อม ๆ กัน แต่สำหรับ DFlash นั้นได้ข้ามขั้นตอนการร่างคำแบบเรียงลำดับไปเลย โดยมันจะเติมเต็มตำแหน่งคำที่ถูกซ่อนไว้ทั้งบล็อกพร้อมกันในการประมวลผลไปข้างหน้าเพียงครั้งเดียว

ขณะเดียวกันระบบ TileRT ที่กล่าวไปข้างต้นคือ ตัวประสานทุกอย่างเข้าด้วยกัน โดยทำหน้าที่รักษาให้การคำนวณทั้งหมดทำงานอยู่ภายใน GPU อย่างต่อเนื่องตลอดเวลา ทำให้ไม่มีภาระส่วนเกินในการเปิดใช้งานคำสั่งประมวลผล และไม่มีช่องว่างในการประมวลผลเกิดขึ้น

Xiaomi เรียกแนวทางนี้ว่า Extreme model-system codesign เพราะไม่มีเทคนิคใดเทคนิคหนึ่งที่สามารถดันความเร็วไปถึง 1,000 โทเคนต่อวินาทีได้ด้วยตัวเดียว แต่เกิดจากพลังการประสานพลังของทุกแนวทางร่วมกัน

ประสิทธิภาพระดับแนวหน้า และราคาช็อกวงการ

ปัจจุบัน MiMo-V2.5-Pro จัดเป็นโมเดลระดับแนวหน้าของอุตสาหกรรม ที่มีประสิทธิภาพเทียบเท่ากับโมเดล Claude Opus ในเกณฑ์ชี้วัดด้านการเขียนโค้ดส่วนใหญ่ แต่มีต้นทุนค่าบริการอยู่เพียงประมาณ $0.43 สำหรับ Input และ $0.87 สำหรับ Output ต่อ 1 ล้านโทเคนเท่านั้น ในขณะที่ Opus มีค่าบริการสูงถึง $5 Input และ $25 Output ต่อ 1 ล้านโทเคน

ด้วยพลังการประมวลผลที่เร็วขนาดนี้ รูปแบบการนำโมเดลไปใช้งานจึงกำลังจะเปลี่ยนไปอย่างสิ้นเชิง เพราะข้อจำกัดของ AI Agent ที่ถูกกดเอาไว้ด้วยความเร็วระดับ 60 โทเคนกำลังจะหายไปแล้วถัดจากนี้

สำหรับตัว Ultraspeed ทาง Xiaomi ได้ตั้งราคาใช้งานไว้ที่ 3 เท่าตัวของอัตราบริการ MiMo-V2.5-Pro รุ่นมาตรฐาน แต่พวกเขาก็เคลมว่า โมเดลใหม่นี้ให้ผลลัพธ์มามากกว่าเดิมถึงประมาณ 10 เท่า โดยจะเปิดให้ทดลองใช้งาน API ในระหว่างวันที่ 9–23 มิถุนายน ผ่านระบบลงทะเบียนสมัคร ซึ่งจะให้สิทธิ์ลำดับแรกแก่กลุ่มองค์กรและนักพัฒนามืออาชีพได้นำไปทดสอบกัน

ที่มา : Decrypt

มุมมองผู้เขียน : ตลอดช่วงปีที่ผ่านมา ต้นทุนการรันโมเดลขนาดใหญ่นั้นเริ่มขยับตัวขึ้นสูงอย่างเห็นได้ชัดซึ่งการที่ Xiaomi ออกมาทุบสถิตินี้นอกจากจะเป็นการตอกหน้าชาติตะวันตกแล้วยังเป็นการส่งสัญญาณว่าสถาปัตยกรรมการปรับแต่งซอฟต์แวร์ กำลังวิ่งแซงหน้าฝั่งฮาร์ดแวร์อย่างเห็นได้ชัด

จีนเปิดตัว Xiaomi Mimo UltraSpeed โมเดล AI ที่เร็วกว่า ChatGPT และ Claude ถึง 15 เท่า

ทำอย่างไรให้ได้ความเร็วระดับนี้?

ประสิทธิภาพระดับแนวหน้า และราคาช็อกวงการ

Patiphan Santivarotai