پیشرفت چشمگیر Veo 3؛ تولید ویدئوهای هوش مصنوعی با صدا و جزئیات واقع‌گرایانه

پیشرفت چشمگیر Veo 3؛ تولید ویدئوهای هوش مصنوعی با صدا و جزئیات واقع‌گرایانه

3 خرداد 1404
وقتی Veo 3 گوگل اسپاگتی رو با صدای کراچ کراچ سرو می‌کنه!

گوگل با رونمایی از Veo 3، یه مدل جدید تولید ویدیو با هوش مصنوعی، سروصدا به پا کرده؛ چون این یکی دیگه فقط تصویر تولید نمی‌کنه، بلکه صدا و دیالوگ هم داره. برخلاف نسخه‌های قبلی که بیشتر بی‌صدا و کوتاه بودن، حالا با Veo 3 میشه ویدیوهایی دید که هشت ثانیه صدا و موسیقی واقعی دارن. اما مثل همیشه، همه سریع رفتن سراغ یه معیار بامزه: آیا Veo می‌تونه “ویل اسمیت در حال خوردن اسپاگتی” رو درست دربیاره؟ جواب؟ آره، ولی با یه صدای عجیب و غیرمنتظره!

ویدیویی که با Veo 3 تولید شده، یه مرد سیاه‌پوست رو نشون میده که داره اسپاگتی می‌خوره، ولی انگار داره چیپس می‌جوه! این صدای غیرعادی به خاطر دیتای آموزشی‌ایه که گوگل برای آموزش این مدل استفاده کرده؛ چون ظاهراً کلی ویدیو از دهن‌هایی با صدای جویدن ترد توی دیتا بوده. در نتیجه وقتی مدل می‌خواد “خوردن” رو شبیه‌سازی کنه، صدای کراچ کراچ در میاره! محدودیت استفاده از چهره‌های معروف باعث شده نتونن اسمیت واقعی رو رندر کنن، اما با یه جایگزین هوشمندانه، همون حال‌و‌هوا منتقل شده. Veo 3 تازه اومده ولی داره نشون میده ویدیوهای مصنوعی تا کجا می‌تونن برن؛ از آدم‌هایی که اُپرا می‌خونن موقع خوردن پاستا گرفته تا کوسه‌هایی که رپ می‌کنن. آینده، شبیه هیچ‌کدوم از فیلمایی که دیدیم نیست، ولی قطعاً خنده‌دارتره!

دیدگاهتان را بنویسید