หลังจากหลายปีที่ผ่านมา Apple ได้ซุ่มเงียบไม่เคลื่อนไหวอะไรในวงการ AI มาสักระยะ แต่ในขณะนี้บริษัทบิ๊กเทคตัวพ่อได้กลับมาเคลื่อนไหวแล้ว และครั้งนี้เตรียมที่จะมาเขย่าวงการ AI เตรียมเปิดศึกท้าประลองกับเหล่า open-source AI
การพัฒนาครั้งนี้เป็นความร่วมมือระหว่าง Apple และมหาวิทยาลัย Santa Barbara โดยมีเป้าหมายคือสร้างโมเดล AI ที่สามารถแก้ไขภาพได้ ผ่านการป้อนคำสั่งจากภาษาที่ใช้กันเป็นปกติในชีวิตประจำวัน ใกล้เคียงกับการพูดคุยโต้ตอบกับ ChatGPT ซึ่งทาง Apple ได้เรียกผลงานใหม่นี้ว่า MGIE โดยย่อมาจาก Multimodal Large-Language Model-Guided Image Editing
MGIE จะทำการตีความคำสั่งที่ผู้ใช้งานป้อนเข้ามา จากนั้นจะประมวลผลและขัดเกลาคำสั่งเพื่อให้สร้าง – แก้ไขภาพได้อย่างแม่นยำตรงตามคำสั่ง ซึ่งในโปรเจกต์นี้จะใช้การทำงานร่วมกับ diffusion model AI ด้วย ซึ่งจะช่วยเพิ่มประสิทธิภาพกระบวนการแก้ไขภาพ ทำให้ MGIE สามารถแก้ไขผลงาน และคงไว้ซึ่งลักษณะ-เอกลักษณ์ของภาพต้นฉบับ ตัวอย่างเช่นผู้ใช้งานมีภาพของผู้หญิงผมสีดำอยู่ และต้องการเปลี่ยนสีผมผู้หญิงในรูป สิ่งที่ผู้ใช้งานต้องทำคือป้อนคำสั่งเป็นภาษาพูดตามปกติอย่าง “ทำให้ผมคนนี้เป็นสีแดง” จากนั้น AI จะประมวลผลคำสั่ง ทำการแบ่งส่วนทรงผมออกมา จากนั้นก็จะเปลี่ยนแปลงสีผมของคนในภาพ ซึ่งหากระบุรายละเอียดที่ซับซ้อนมากกว่านี้ AI ก็จะประมวลผลได้แม่นยำตรงตามคำสั่งมากขึ้น
ตัวของ MGIE มีรากฐานการพัฒนามาจาก Multimodal Large Language Models (MLLMs) ซึ่งเป็น AI ที่สามารถประมวลผลได้ทั้งข้อความ และรูปภาพ ไม่เหมือนกับ AI ประเภทอื่นที่เน้นการใช้งานในด้านใดด้านหนึ่งเฉพาะเจาะจง ซึ่งทำให้ MLLMs นั้นสามารถใช้งานได้ในหลากหลายสถานการณ์ พร้อมกับสามารถทำงานที่ใช้ความซับซ้อนมากกว่าได้ โดยตัวของ AI ประเภทนี้นั้นจะต้องมีฟังก์ชันหลายหลายอย่าง เช่น generate ข้อความเองได้ , การตัดแบ่งข้อความ สรุปใจความ , สร้างรูปภาพ , วิเคราะห์เนื้อหาจากคลิปวิดีโอ เป็นต้น
การนำเสนอผลงานชิ้นใหม่อย่าง MGIE ทำให้ Apple สูสีกับผู้นำตลาดด้าน AI อย่าง OpenAI ผู้พัฒนา AI สุดฮิตอย่าง ChatGPT และการมาของมันเป็นการประกาศศึกกับ AI generate รูปตัวเด่นอย่าง Stable Diffusion ที่ขณะนี้ก็มีการพัฒนาไปในแนวทางเดียวกันกับ MGIE แต่จากการทดลองจะเห็นได้ว่าตอนนี้ Apple มีแต้มต่ออย่างเห็นได้ชัด โดย MGIE สามารถแก้ไขรูปภาพด้วยเทคนิคอื่น ๆ ได้อีกด้วย เช่น color grading , เปลี่ยนขนาด เปลี่ยนสไตล์ หมุนภาพ เป็นต้น
ภาพ : การเปรียบเทียบการแก้ไขภาพของ AI แต่ละตัว
แม้ว่าจะล้ำขนาดนี้แต่ไม่เชื่อก็ต้องเชื่อว่า AI ตัวใหม่ของ Apple นี้นั้นเป็น “Open-source” เพราะปกติแล้วหากบริษัทยักษ์ใหญ่มีเทคโนโลยีที่ล้ำขนาดนี้คงไม่อยากจะแบ่งเป็นให้ใช้งานกันง่าย ๆ โดยสาเหตุที่ Apple ทำการ Open source นั้นมีสาเหตุมาจาก โมเดลรากฐานของ MGIE อย่าง Llava และ Vicuna มีการระบุในสัญญาการใช้งานอย่างชัดเจนเพื่อสร้างข้อจำกัดให้กับเหล่าบริษัทใหญ่ในการหารายได้ แต่ Apple ก็ไม่ได้ไม่มีแผนอะไรที่เก็บไว้เป็นความลับ
การที่ MGIE เป็น Open-source นั้นหมายความว่า Apple ไม่จำเป็นต้องทุ่มงบประมาณ เวลา และแรงงานให้กับโปรเจกต์นี้เต็มร้อย สามารถใช้งานนักพัฒนาคนอื่น ๆ ได้สร้างความยืดหยุ่นให้กับโปรเจกต์ อีกทั้งการมีการแปะแบรนด์ Apple ลงบน AI ยิ่งดึงดูดนักพัฒนาให้เข้ามาร่วมพัฒนาโปรเจกต์นี้แทนที่จะเป็นโปรเจกต์อื่น ๆ เป็นการสกัดคู่แข่งไปอีกทาง พร้อมกับได้ไอเดียในการพัฒนาที่หลากหลายกว่าการใช้บุคลากรภายในอีกด้วย
หากเหล่าเซียนเทคโนโลยีสนใจและต้องการเริ่มใช้งาน AI ตัวนี้สามารถค้นหาได้ใน GITHUB ได้ตอนนี้เลย
ที่มา : Decrypt