کنترل حرفه‌ای لحن در هوش مصنوعی با Eleven v3

کنترل حرفه‌ای لحن در هوش مصنوعی با Eleven v3

26 خرداد 1404
اجرای زنده تر با هوش مصنوعی صوتی در Eleven v3

Eleven v3 با قابلیت جدید Audio Tags اومده تا شکل گفتار هوش مصنوعی رو از حالت خشک و یکنواخت، به اجرای زنده و بااحساس تبدیل کنه. این تگ‌ها مثل [pause] یا [rushed] کمک می‌کنن روی ریتم، مکث‌ها و حتی تردید و استرس یه جمله کنترل کامل داشته باشی. یعنی یه جمله‌ی ساده می‌تونه بسته به نحوه بیان، معنی کاملاً متفاوتی بده. حالا کاربرها می‌تونن توی اسکریپت مشخص کنن کجا لحن طنز باشه، کجا عصبی، یا حتی با تأکید خاص ادا شه.

مثلاً می‌خوای یه داستان بامزه تعریف کنی؟ با تگ‌های [laughs]، [giggle] و [big laugh] صدا رو طوری دربیار که انگار یه استندآپ کمدین داری. یا بخوای یه دیالوگ دراماتیک بسازی؟ فقط کافیه از تگ‌هایی مثل [drawn out]، [timidly] یا [whispering] استفاده کنی. حتی انتخاب نوع صدا هم دست خودته، هرچند نسخه فعلی هنوز برای صداهای کلون حرفه‌ای بهینه نشده، ولی با صدای‌های سریع‌الساخت یا طراحی‌شده خیلی خوب کار می‌کنه. Eleven v3 با این ابزار، اسکریپت‌نویسی صوتی رو بیشتر شبیه به کارگردانی تئاتر کرده تا فقط نوشتن متن.

دیدگاهتان را بنویسید