پیشرفت چشمگیر Veo 3؛ تولید ویدئوهای هوش مصنوعی با صدا و جزئیات واقعگرایانه


گوگل با رونمایی از Veo 3، یه مدل جدید تولید ویدیو با هوش مصنوعی، سروصدا به پا کرده؛ چون این یکی دیگه فقط تصویر تولید نمیکنه، بلکه صدا و دیالوگ هم داره. برخلاف نسخههای قبلی که بیشتر بیصدا و کوتاه بودن، حالا با Veo 3 میشه ویدیوهایی دید که هشت ثانیه صدا و موسیقی واقعی دارن. اما مثل همیشه، همه سریع رفتن سراغ یه معیار بامزه: آیا Veo میتونه “ویل اسمیت در حال خوردن اسپاگتی” رو درست دربیاره؟ جواب؟ آره، ولی با یه صدای عجیب و غیرمنتظره!
ویدیویی که با Veo 3 تولید شده، یه مرد سیاهپوست رو نشون میده که داره اسپاگتی میخوره، ولی انگار داره چیپس میجوه! این صدای غیرعادی به خاطر دیتای آموزشیایه که گوگل برای آموزش این مدل استفاده کرده؛ چون ظاهراً کلی ویدیو از دهنهایی با صدای جویدن ترد توی دیتا بوده. در نتیجه وقتی مدل میخواد “خوردن” رو شبیهسازی کنه، صدای کراچ کراچ در میاره! محدودیت استفاده از چهرههای معروف باعث شده نتونن اسمیت واقعی رو رندر کنن، اما با یه جایگزین هوشمندانه، همون حالوهوا منتقل شده. Veo 3 تازه اومده ولی داره نشون میده ویدیوهای مصنوعی تا کجا میتونن برن؛ از آدمهایی که اُپرا میخونن موقع خوردن پاستا گرفته تا کوسههایی که رپ میکنن. آینده، شبیه هیچکدوم از فیلمایی که دیدیم نیست، ولی قطعاً خندهدارتره!
-
Telegram
-
Twitter
-
Whatsapp
-
Linkedin
-
Facebook