پیشرفت چشمگیر Veo 3؛ تولید ویدئوهای هوش مصنوعی با صدا و جزئیات واقع‌گرایانه

لیلا احمدی

3 خرداد 1404

گوگل با رونمایی از Veo 3، یه مدل جدید تولید ویدیو با هوش مصنوعی، سروصدا به پا کرده؛ چون این یکی دیگه فقط تصویر تولید نمی‌کنه، بلکه صدا و دیالوگ هم داره. برخلاف نسخه‌های قبلی که بیشتر بی‌صدا و کوتاه بودن، حالا با Veo 3 میشه ویدیوهایی دید که هشت ثانیه صدا و موسیقی واقعی دارن. اما مثل همیشه، همه سریع رفتن سراغ یه معیار بامزه: آیا Veo می‌تونه “ویل اسمیت در حال خوردن اسپاگتی” رو درست دربیاره؟ جواب؟ آره، ولی با یه صدای عجیب و غیرمنتظره!

ابزارهای مرتبط

هوش مصنوعی تولید ویدیو گوگل

چطور با Google AI Studio ویدیوهای کوتاه و حرفه‌ای بسازیم؟

ویدیویی که با Veo 3 تولید شده، یه مرد سیاه‌پوست رو نشون میده که داره اسپاگتی می‌خوره، ولی انگار داره چیپس می‌جوه! این صدای غیرعادی به خاطر دیتای آموزشی‌ایه که گوگل برای آموزش این مدل استفاده کرده؛ چون ظاهراً کلی ویدیو از دهن‌هایی با صدای جویدن ترد توی دیتا بوده. در نتیجه وقتی مدل می‌خواد “خوردن” رو شبیه‌سازی کنه، صدای کراچ کراچ در میاره! محدودیت استفاده از چهره‌های معروف باعث شده نتونن اسمیت واقعی رو رندر کنن، اما با یه جایگزین هوشمندانه، همون حال‌و‌هوا منتقل شده. Veo 3 تازه اومده ولی داره نشون میده ویدیوهای مصنوعی تا کجا می‌تونن برن؛ از آدم‌هایی که اُپرا می‌خونن موقع خوردن پاستا گرفته تا کوسه‌هایی که رپ می‌کنن. آینده، شبیه هیچ‌کدوم از فیلمایی که دیدیم نیست، ولی قطعاً خنده‌دارتره!

مشاهده منبع خبر arsTECHNICA

پیشرفت چشمگیر Veo 3؛ تولید ویدئوهای هوش مصنوعی با صدا و جزئیات واقع‌گرایانه

دیدگاهتان را بنویسید لغو پاسخ