OpenAI เปิดตัว Sora ปฏิวัติวงการ! แปลงข้อความเป็นวิดีโอ ไม่ต้องพึ่งโปรแกรมตัดต่อ

พร้อมเล่น 0:00 / 0:00

Sora เครื่องมือสร้างวิดีโอด้วยปัญญาประดิษฐ์ (AI) ล่าสุดของ OpenAI ได้สร้างความตะลึงให้กับผู้ใช้งานโซเชียลมีเดีย จากความสมจริง แต่ยังไม่พร้อมสำหรับการเปิดตัวสู่สาธารณชนอย่างเต็มรูปแบบ

บริษัทปัญญาประดิษฐ์ OpenAI ได้เปิดตัวโมเดลแปลงข้อความเป็นวิดีโอตัวแรกของพวกเขา เมื่อวันพฤหัสบดีที่ผ่านมา และได้รับเสียงตอบรับที่ดีอย่างล้นหลาม แม้บริษัทจะยอมรับว่าโมเดลดังกล่าวยังคงอยู่ในช่วงพัฒนาก็ตาม

บริษัท OpenAI เปิดตัวโมเดล AI ตัวใหม่เมื่อวันที่ 15 กุมภาพันธ์ ที่ชื่อว่า “Sora” โมเดลนี้สามารถสร้างวิดีโอคุณภาพสูงจากคำอธิบายสั้น ๆ ต่อเติมวิดีโอที่มีอยู่แล้ว รวมถึงแม้กระทั่งสร้างฉากต่าง ๆ ขึ้นมาจากภาพนิ่งภาพเดียว

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

ตามโพสต์บล็อก เมื่อวันที่ 15 กุมภาพันธ์ จาก OpenAI ระบุว่า โมเดล AI นี้สามารถสร้างฉากเหมือนภาพยนตร์ด้วยความละเอียดสูงถึง 1080p โดยฉากเหล่านี้สามารถมีตัวละครหลายตัว การเคลื่อนไหวประเภทใดประเภทหนึ่ง และรายละเอียดที่ถูกต้องแม่นยำของทั้งวัตถุและพื้นหลัง

Sora ทำงานอย่างไร

เช่นเดียวกับ DALL-E 3 โมเดลสร้างภาพจากข้อความรุ่นก่อนหน้าของ OpenAI ซึ่งโมเดล Sora ทำงานโดยใช้โมเดล “diffusion”

“Diffusion” ในบริบทนี้หมายถึง เทคนิคที่โมเดลปัญญาประดิษฐ์สร้างสรรค์ (Generative AI) ใช้ในการสร้างผลลัพธ์ ไม่ว่าจะเป็นวิดีโอหรือภาพ โดยเริ่มต้นจากสิ่งที่ดูเหมือน “static noise หรือเสียงรบกวน” แล้วค่อยๆ ปรับเปลี่ยนทีละขั้นจน “กำจัดสัญญาณเสียงรบกวน” ในหลายขั้นตอน กลายเป็นผลลัพธ์ที่ต้องการ

Announcing Sora — our model which creates minute-long videos from a text prompt: https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG
— Greg Brockman (@gdb) February 15, 2024

บริษัท OpenAI ระบุในบล็อกโพสต์ว่า โมเดล Sora ได้รับการพัฒนาต่อยอดจากงานวิจัยก่อนหน้านี้ของทั้งรุ่นโมเดล GPT และ DALL-E 3 ซึ่งส่งผลให้โมเดล Sora สามารถ ถ่ายทอดความต้องการของผู้ใช้งานได้อย่าง “แม่นยำ” มากยิ่งขึ้น

OpenAI ยอมรับว่า Sora ยังมีจุดอ่อนหลายประการ ตัวอย่างเช่น โมเดลอาจมีปัญหาในการจำลองฟิสิกส์ของฉากที่ซับซ้อน โดยเฉพาะอย่างยิ่งในเรื่องของการสับสนระหว่างความสัมพันธ์ของเหตุและผล

“ตัวอย่างเช่น คนกัดคุกกี้ แต่หลังจากนั้น คุกกี้กลับไม่มีรอยกัด”

บริษัท OpenAI ยังระบุอีกว่า เครื่องมือใหม่นี้อาจสับสน “รายละเอียดเชิงพื้นที่” ของคำสั่งที่ได้รับ โดยสลับซ้ายขวา หรือไม่สามารถปฏิบัติตามคำอธิบายทิศทางที่แม่นยำได้

OpenAI ระบุว่าเบื้องต้น โมเดลสร้างสรรค์รุ่นใหม่นี้จะเปิดให้ใช้งานเฉพาะกับ “red teamers” ซึ่งเป็นศัพท์ทางเทคโนโลยีที่หมายถึง นักวิจัยด้านความปลอดภัยไซเบอร์ เพื่อประเมิน “พื้นที่สำคัญที่มีความเสี่ยงหรืออันตราย” นอกจากนี้ ยังเปิดให้กับนักออกแบบ ศิลปิน ผู้สร้างภาพยนตร์บางกลุ่ม เพื่อรับฟังรวบรวมความคิดเห็นข้อเสนอแนะเกี่ยวกับการพัฒนาโมเดลต่อไป

รายงานจากมหาวิทยาลัยสแตนฟอร์ด เมื่อเดือนธันวาคม 2023 เผยว่า เครื่องมือสร้างภาพด้วย AI ซึ่งใช้ฐานข้อมูล AI ที่ชื่อว่า LAION ได้รับการฝึกอบรมเกี่ยวกับภาพล่วงละเมิดทางเพศเด็กที่ผิดกฎหมายเป็นจำนวนหลายพันภาพ สิ่งนี้นำมาซึ่งความกังวลด้านจริยธรรมและกฎหมายอย่างร้ายแรง สำหรับโมเดลแปลงข้อความเป็นภาพหรือวิดีโอ

ผู้ใช้งานบนแพลตฟอร์มโซเชียลมีเดีย X ต่างรู้สึก “พูดไม่ออก”

วิดีโอสาธิตจำนวนมากกำลังแชร์กันบนแพลตฟอร์ม X แสดงตัวอย่าง ความสามารถของ Sora ซึ่งในขณะนี้ Sora กำลังเป็นกระแสบนแพลตฟอร์ม X ด้วยโพสต์มากกว่า 173,000 โพสต์

เพื่อแสดงศักยภาพของโมเดลรุ่นใหม่ CEO ของ OpenAI อย่าง Sam Altman ได้เปิดโอกาสให้ผู้ใช้บนแพลตฟอร์ม X ขอให้สร้างวิดีโอตามความต้องการ โดยเขาได้แชร์วิดีโอที่สร้างโดย Sora ทั้งหมด 7 วิดีโอ ที่แตกต่างกันไป ตัวอย่างเช่น เป็ดขี่หลังมังกร หรือสุนัขโกลเด้นรีทรีฟเวอร์อัดพอดแคสต์บนยอดเขา

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024

Mckay Wrigley ผู้วิจารณ์ AI พร้อมด้วยคนอื่น ๆ อีกมากมายกล่าวว่า วิดีโอที่สร้างโดย Sora ทำให้เขารู้สึก “พูดไม่ออก”

Jim Fan นักวิจัยอาวุโสของ Nvidia โพสต์ข้อความบนแพลตฟอร์มโซเชียลมีเดีย X เมื่อวันที่ 15 กุมภาพันธ์ ประกาศว่า ใครก็ตามที่เชื่อว่า Sora เป็นเพียง “ของเล่นที่สร้างสรรค์” เช่น DALL-E 3 จะต้องคิดผิดอย่างแน่นอน

If you think OpenAI Sora is a creative toy like DALLE, … think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, "intuitive" physics, long-horizon reasoning, and semantic grounding, all… pic.twitter.com/pRuiXhUqYR
— Jim Fan (@DrJimFan) February 15, 2024

ในมุมมองของแฟน Sora นั้น ไม่ใช่เป็นเพียงแค่เครื่องมือสร้างวิดีโอ แต่มันเป็น “เครื่องมือทางฟิสิกส์ที่ขับเคลื่อนด้วยข้อมูล”มากกว่า เนื่องจากโมเดล AI นี้ไม่ได้แค่สร้างวิดีโอที่มีลักษณะนามธรรม แต่ยังสร้างฟิสิกส์ของวัตถุในฉากนั้นขึ้นมาอย่างชัดเจนตามที่กำหนดอีกด้วย

ที่มา : cointelegraph

Sora ทำงานอย่างไร

ผู้ใช้งานบนแพลตฟอร์มโซเชียลมีเดีย X ต่างรู้สึก “พูดไม่ออก”

Chaiyatorn Buthsoontorn