พร้อมเล่น 0:00 / 0:00

บริษัท OpenAI ซึ่งเป็นบริษัท AI ที่อยู่เบื้องหลัง ChatGPT ได้เปิดตัวเทคโนโลยีการโคลนเสียงตัวใหม่ที่เรียกว่า ‘Voice Engine’ โมเดลนี้สามารถจำลองเสียงของบุคคล น้ำเสียง และรูปแบบคำพูดของมนุษย์ โดยใช้เพียงเสียงต้นฉบับเพียงไม่กี่วินาที

โดยเมื่อวันศุกร์ที่ผ่านมา บริษัทได้ออกมากล่าวว่า “มันเป็นโมเดลที่แค่มีตัวอย่างเพียง 15 วินาทีก็สามารถสร้างเสียงที่มีความสมจริงได้”

เพื่อให้เห็นภาพชัด หากจะต้องการสร้างเสียงที่เหมือนจริง AI ของ Eleven Labs จำเป็นต้องใช้เสียงที่พูดต่อเนื่องเกือบ 10 นาทีเพื่อให้ออกมาดูสมจริง

OpenAI ได้โชว์หนึ่งใน Use case ก็คือการนำเสียงที่สร้างขึ้นมาไปใช้กับผู้ป่วยรายหนึ่งที่สูญเสียความสามารถในการพูดไปเนื่องจากเนื้องอกในหลอดเลือกในสมอง โดยเสียงของเธอถูกสร้างขึ้นมาจากเสียงที่เคยบันทึกไว้ในช่วงวัยเรียน

OpenAI ได้จับมือกับ Lifespan ซึ่งเป็นองค์กรที่สร้างแอป Livox ในการสร้าง Voice engine ซึ่งช่วยให้สามารถแปลงข้อความเป็นคำพูดได้ทันที ซึ่งช่วยให้ผู้ป่วยสามารถพูดด้วยเสียงของเธอเองได้

บริษัทกล่าวว่า Voice Engine ถูกพัฒนามาตั้งแต่ปลายปี 2022 ซึ่งถูกนำมาใช้ในการทำให้ CharGPT สามารถพูดได้ แต่ในขณะเดียวกัน บริษัทกล่าวว่าจะต้องใช้ความระมัดระวังก่อนที่จะเผยแพร่ในวงกว้าง

“เราหวังว่าจะเริ่มมีการพูดถึงเกี่ยวกับวิธีการใช้เสียงสังเคราะห์อย่างเหมาะสม เสียงของคนดัง เจ้าหน้าที่รัฐ และพลเมืองอาจจะถูกแอบอ้างเพื่อนำไปใช้ในทางที่ผิด เช่นการหาเสียง โฆษณาปลอม และอาจร้ายแรงถึงการกระทำที่ผิดกฎหมาย โดยตอนนี้ประธานาธิบดีโจ ไบเดน ได้ผลักดันให้มีการเฝ้าระวังที่มากขึ้นเกี่ยวกับการใช้งานเสียง AI ในทางที่ผิด”

ในขณะเดียวกัน บริษัท Meta ได้เปิดเมื่อฤดูร้อนปีที่แล้วว่า AI voice ของบริษัทถูกระงับการพัฒนาเนื่องจากมีความเสี่ยงที่อาจเกิดขึ้นจากการใช้ในทางที่ผิด

โดยบริษัท OpenAI ได้อธิบายว่า “เพื่อให้สอดคล้องกับแนวทางด้านความปลอดภัยของ AI และความมุ่งมั่นของเรา เรากำลังเลือกที่จะแสดงตัวอย่างแต่ยังไม่เผยแพร่เทคโนโลยีนี้ในวงกว้างในขณะนี้”

Source: DeCrypto

‘Voice Engine’ ตัวใหม่จาก OpenAI ใช้เวลาเพียง 15 วินาทีในการโคลนคำพูด

Unchana Boonweerachaimana