کنترل حرفهای لحن در هوش مصنوعی با Eleven v3


Eleven v3 با قابلیت جدید Audio Tags اومده تا شکل گفتار هوش مصنوعی رو از حالت خشک و یکنواخت، به اجرای زنده و بااحساس تبدیل کنه. این تگها مثل [pause] یا [rushed] کمک میکنن روی ریتم، مکثها و حتی تردید و استرس یه جمله کنترل کامل داشته باشی. یعنی یه جملهی ساده میتونه بسته به نحوه بیان، معنی کاملاً متفاوتی بده. حالا کاربرها میتونن توی اسکریپت مشخص کنن کجا لحن طنز باشه، کجا عصبی، یا حتی با تأکید خاص ادا شه.
مثلاً میخوای یه داستان بامزه تعریف کنی؟ با تگهای [laughs]، [giggle] و [big laugh] صدا رو طوری دربیار که انگار یه استندآپ کمدین داری. یا بخوای یه دیالوگ دراماتیک بسازی؟ فقط کافیه از تگهایی مثل [drawn out]، [timidly] یا [whispering] استفاده کنی. حتی انتخاب نوع صدا هم دست خودته، هرچند نسخه فعلی هنوز برای صداهای کلون حرفهای بهینه نشده، ولی با صدایهای سریعالساخت یا طراحیشده خیلی خوب کار میکنه. Eleven v3 با این ابزار، اسکریپتنویسی صوتی رو بیشتر شبیه به کارگردانی تئاتر کرده تا فقط نوشتن متن.
-
Telegram
-
Twitter
-
Whatsapp
-
Linkedin
-
Facebook