نانو بنانا پرو: نگاهی به آینده تولید عکس با هوش مصنوعی گوگل

نازنین حسینی

2 آذر 1404

نانو بنانا پرو چیست؟

نانو بنانا پرو نسخه ارتقایافته ابزار تولید تصویر هوش مصنوعی گوگل است که بر پایه مدل جدیدتر Gemini 3 ساخته شده. این ابزار برای تولیدکنندگان محتوا، طراحان و هنرمندانی طراحی شده که به دنبال کنترل بیشتر و هوشمندی بالاتر در خلق تصاویر خود هستند. نانو بنانا پرو ایده سرگرم‌کننده و وایرال شده نسخه اولیه خود را به یک ابزار حرفه‌ای و کاربردی برای حوزه‌هایی مانند طراحی، برندسازی، آموزش و حتی نمایش محصولات تبدیل کرده است.

به گفته حساب کاربری نانو بنانا پرو در شبکه اجتماعی X، با این ابزار می‌توان هر چیزی را به یک اینفوگرافیک تبدیل کرد.

این تحول را می‌توان مانند حرکت از یک دوربین اسباب‌بازی جذاب به یک دوربین DSLR حرفه‌ای دانست. شما هنوز هم می‌توانید تصاویر بامزه به سبک “موز” تولید کنید، اما ارزش واقعی این ابزار در قابلیت‌های پیشرفته‌تری مانند درج متن خوانا روی پوسترها، حفظ ثبات شخصیت‌ها در صحنه‌های مختلف و تولید تصاویری است که دقیقاً با دستورات پیچیده شما مطابقت دارند، نه اینکه صرفاً حدس و گمان بزنند. گزارش‌ها حاکی از آن است که برخی از آزمایش‌کنندگان داخلی در گوگل از این ابزار برای تبدیل رزومه‌های خسته‌کننده و قطعه کدهای برنامه‌نویسی به اینفوگرافیک‌های تمیز و جذاب استفاده کرده‌اند. این دقیقاً همان قابلیتی است که تیم‌های پرمشغله به آن نیاز خواهند داشت.

ویژگی‌های کلیدی نانو بنانا پرو

قابلیت‌های اصلی نانو بنانا پرو حول سه محور اصلی بهبود یافته‌اند: کیفیت تصویر بالاتر، درک هوشمندانه‌تر دستورات و کنترل بیشتر کاربر. این ابزار می‌تواند تصاویری با رزولوشن 2K و 4K تولید کند، متن‌های چندزبانه را به درستی پردازش نماید و یک شخصیت یا سوژه خاص را در چندین تصویر از یک پروژه، ثابت و یکپارچه نگه دارد. این ویژگی‌ها، نانو بنانا پرو را به یک ابزار قدرتمند برای تولید عکس با هوش مصنوعی تبدیل می‌کند.

کاربردهای عملی

در عمل، این ویژگی‌ها به شما امکان می‌دهند:

پوسترهایی خلق کنید که متن‌های روی آن‌ها کاملاً خوانا و بدون غلط املایی باشند.
چندین شیء یا عکس مرجع را در یک صحنه ترکیب کنید، بدون آنکه نتیجه نهایی به یک تصویر درهم و بی‌نظم تبدیل شود.
یک “شخصیت” ثابت (مانند مسکات یک برند یا آواتار یک تولیدکننده محتوا) را در تمام صحنه‌های یک استوری‌بورد، ریلز اینستاگرام یا ارائه، با ظاهری یکسان حفظ کنید.

کنترل‌های پیشرفته

علاوه بر این‌ها، Nano Banana Pro از تنظیمات دقیقی برای نورپردازی، زاویه دوربین، عمق میدان و حال و هوای رنگی پشتیبانی می‌کند. این یعنی شما می‌توانید پرامپتی مانند «همان شخصیت، با همان لباس، اما این بار در نور گرم طلوع آفتاب، از زاویه پایین و به سبک سینمایی» را اجرا کنید. ابزارهای نسل قبل برای رسیدن به چنین نتیجه‌ای به مهندسی پرامپت‌های بسیار پیچیده و آزمون و خطای فراوان نیاز داشتند.

این ابزار چگونه کار می‌کند؟

نانو بنانا پرو با ترکیب قدرت استدلال مدل Gemini 3 و یک پشته تولید تصویر (Image Generation Stack) کار می‌کند که با دقت به ورودی‌های متنی و تصویری شما گوش می‌دهد. در پشت صحنه، این ابزار دو کار اصلی انجام می‌دهد: ابتدا منظور شما را به طور کامل درک می‌کند و سپس آن را به یک نقشه بصری دقیق تبدیل می‌کند، پیش از آنکه حتی یک پیکسل را نقاشی کند.

برای مثال، وقتی شما یک دستور مشخص مانند «یک اینفوگرافیک برای توضیح بهترین شیوه‌های امنیت ابری، با تیترهای واضح و زیرنویس‌های کوچک فارسی» را وارد می‌کنید، مدل ابتدا این دستور را به صورت مفهومی تجزیه می‌کند: موضوعات، چیدمان، بلوک‌های متنی و سبک‌ها. سپس، مولد تصویر این نقشه را اجرا می‌کند و همزمان خوانایی متن و انسجام چیدمان را حفظ می‌کند. جهش از مدل Gemini 2.5 Flash به Gemini 3 همان چیزی است که این ابزار را در دنبال کردن دستورات پیچیده و واقعی دنیای امروز، مانند زبان‌های ترکیبی، موضوعات تخصصی، ارجاع به رویدادهای جاری و طرح‌های رنگی برندها، بسیار بهتر کرده است.

از آنجایی که این ابزار به اطلاعات روز دسترسی دارد، خروجی‌های آن واقع‌گرایانه‌تر است. بنابراین، به جای اینکه جزئیات تصادفی و خیالی برای موضوعی مانند «برگه تقلب مدل‌های خودروهای برقی ۲۰۲۵» تولید کند، می‌تواند تصاویر را با مدل‌ها، ویژگی‌ها و مشخصات فنی به‌روز هماهنگ سازد. اگرچه هنوز یک موتور راستی‌آزمایی نیست، اما دانش پایه آن از دنیای واقعی به وضوح دقیق‌تر شده است و این یک مزیت بزرگ در فرآیند تولید عکس با هوش مصنوعی به شمار می‌رود.

چطور از نانو بنانا پرو استفاده کنیم؟

نانو بنانا پرو طوری طراحی شده که در همان محیط‌هایی که شما کار می‌کنید، قابل استفاده باشد: در اپلیکیشن و سایت Gemini، مجموعه ابزارهای Workspace گوگل و سایر ابزارهای خلاقانه مرتبط. روند کار آنقدر ساده است که حتی افرادی که طراح نیستند نیز می‌توانند پس از چند بار تلاش، به نتایج قابل قبولی دست پیدا کنند.

یک گردش کار معمول به شکل زیر است:

اپلیکیشن Gemini یا یکی از ابزارهای پشتیبانی‌شده گوگل (مانند Slides) را باز کنید.
گزینه تصویرسازی Nano Banana Pro را از منوی مدل‌ها یا تصاویر انتخاب کنید.
دستور متنی خود را تایپ کنید یا چند تصویر مرجع (برای سبک، رنگ یا افراد) آپلود نمایید.
تنظیمات کلی مانند رزولوشن (2K یا 4K)، جهت‌گیری تصویر، حال و هوا و شاید یک یادداشت کوتاه مانند «برای لینکدین» یا «برای کاور ریلز اینستاگرام» را مشخص کنید.
تصویر را تولید کرده، بازبینی کنید و سپس با دستورات تکمیلی کوتاه مانند «همان چیدمان اما با پس‌زمینه تیره‌تر» یا «شخصیت را حفظ کن و لباسش را به رسمی تغییر بده» آن را اصلاح نمایید.

تفاوت‌ها با نسخه اولیه Nano Banana

نانو بنانا پرو از نظر هدف و قدرت با ترند اولیه Nano Banana تفاوت‌های اساسی دارد. نسخه اول که بر پایه Gemini 2.5 Flash ساخته شده بود، به دلیل تولید تصاویر بامزه و هایپررئال به سبک مینی‌فیگورها و تصاویر مناسب برای میم‌ها، در فضای آنلاین به شهرت رسید. آن نسخه سریع، سبک و بسیار «اینترنتی» بود.

اما نسخه Pro این انرژی را به یک مسیر حرفه‌ای‌تر هدایت می‌کند. در ادامه مهم‌ترین تفاوت‌ها بررسی شده‌اند:

مدل و قدرت استدلال:نسخه Pro از Gemini 3 استفاده می‌کند که دستورات پیچیده، زبان‌های ترکیبی و چیدمان‌های ساختاریافته را بسیار بهتر از نسخه اصلی مبتنی بر Flash مدیریت می‌کند.

کیفیت تصویر:نسخه اولیه Nano Banana معمولاً تصاویری با رزولوشن حدود 1024×1024 تولید می‌کرد؛ اما نسخه Pro به راحتی تا رزولوشن 2K و 4K می‌رسد که برای چاپ یا استفاده در اسلایدهای تمام‌صفحه اهمیت زیادی دارد.

ابزارهای کنترل:نسخه Pro به شما اجازه می‌دهد نور، فوکوس، عمق میدان، زاویه دوربین و درجه‌بندی رنگ را به گونه‌ای تنظیم کنید که بیشتر حس یک ابزار عکاسی حرفه‌ای را می‌دهد تا یک مولد میم.

پشتیبانی از متن و چندزبانگی:جایی که نسخه قدیمی با درج حروف تمیز و خوانا مشکل داشت، نسخه Pro برای حفظ خوانایی متن طراحی شده و از چندین زبان در یک تصویر پشتیبانی می‌کند. این یک پیشرفت مهم در زمینه تولید عکس با هوش مصنوعی است.

ثبات در چند تصویر:نسخه Pro می‌تواند چندین شیء یا عکس مرجع را ترکیب کرده و تا چند شخصیت را در یک سکانس کامل (مناسب برای استوری‌بورد، نمایش محصول یا پنل‌های کمیک) از نظر بصری ثابت نگه دارد.

ایمنی و واترمارک:نسخه Pro تاکید بیشتری بر استفاده مسئولانه دارد و از نشانگرهای نامرئی هوش مصنوعی و واترمارک‌های قابل مشاهده “sparkle” برای اکثر سطوح کاربری استفاده می‌کند تا شفافیت در مورد استفاده از AI حفظ شود.