Microsoft เปิดตัว “VALL-E” AI ตัวใหม่ที่สามารถเลียนเสียงพูดและแสดงอารมณ์แบบมนุษย์ได้

ติดตามสยามบล็อกเชนบน

Microsoft บริษัทยักษ์ใหญ่ด้านเทคโนโลยี กล่าวว่า text-to-speech AI ตัวใหม่ของบริษัทที่ถูกตั้งชื่อว่า “VALL-E” นั้นสามารถลอกเลียนเสียงและน้ำเสียงของผู้ใช้งานได้ผ่านตัวอย่างเสียงที่มีความยาวเพียง 3 วินาที

VALL-E ใช้เทคโนโลยีที่เรียกว่า “โมเดลภาษาตัวแปลงสัญญาณประสาท” ที่จะทำการนำตัวอย่างข้อมูลเสียงพร้อมข้อความส่วนหนึ่งเข้าไปเพื่อสร้างเสียงพูดตามตัวอย่างเสียงนั้น ทำให้มีความแตกต่างจาก text-to-speech AI ตัวอื่นที่มีอยู่ในท้องตลาดอย่าง Siri และ Alexa ที่จำเป็นต้องป้อนข้อมูลลงไปเป็นจำนวนมาก ทั้งยังไม่สามารถเลียนเสียงมนุษย์อย่างเป็นธรรมชาติได้ โดยเฉพาะในด้านของโทนเสียงในการแสดงอารมณ์ต่าง ๆ การที่ AI ของ Microsoft สามารถใช้โทนเสียงอย่างมนุษย์ได้จึงเป็นการพัฒนาครั้งใหญ่เลยทีเดียว

ผู้สร้าง VALL-E กล่าวว่า AI ตัวนี้ประกอบไปด้วยแอปพลิเคชันจำนวนหนึ่ง รวมไปถึง “TTS แบบ zero-shot, การแก้ไขคำพูด และการสร้างเนื้อหาต่าง ๆ” พร้อมเสริมว่า ระบบโมเดลภาษาแบบ GPT-3 ซึ่งเป็นเทคโนโลยีจากบริษัท OpenAI ที่ Microsoft ได้ทำการลงทุนไปเป็นอย่างมาก และมีการนำไปใช้ในผลิตภัณฑ์หลายตัวของบริษัท จะเป็นประโยชน์ต่อ VALL-E

อย่างไรก็ตาม เทคโนโลยีนี้ได้สร้างความกังวลแก่ผู้คนเป็นอย่างมาก โดยเฉพาะในเชิงจริยธรรม เนื่องจากผู้ไม่ประสงค์ดีอาจนำเสียงตัวอย่างเพียง 3 วินาทีมาให้ AI ดัดแปลง และปลอมตัวเป็นใครสักคน

จากความกังวลนี้ Microsoft ได้ละเว้นการสร้างโค้ดแบบ open source เพื่อป้องกันความเสี่ยงจากการใช้โมเดลนี้ในทางที่ผิด นอกจากนี้ ทางบริษัทยังกล่าวด้วยว่า บริษัทกำลังทำการสร้างระบบเพื่อระบุว่าเสียงไหนถูกสร้างขึ้นโดย VALL-E เพื่อแก้ไขปัญหานี้

ที่มา: The Byte