آموزش کامل Google AI Studio: راهنمای جامع برای مبتدیان (2025)

سینا جاویدان

19 شهریور 1404

سلام به همگی! امروز میخوام ابزار فوق العاده ای را به شما معرفی کنم که مدتی است با آن کار میکنم: Google AI Studio. این ابزار مانند یک زمین بازی است که در آن میتوانید با مدلهای هوش مصنوعی گوگل چیزهای جدیدی بسازید. پس اگر کنجکاو هستید و میخواهید وارد دنیای هوش مصنوعی شوید، با من همراه باشید! در این راهنما، اصول اولیه را به شما نشان خواهم داد.

Google AI Studio چیست؟

Google AI Studio یک ابزار تحت وب است که توسط گوگل ارائه شده و به شما امکان می‌دهد با مدل‌های زبان بزرگ (LLM) گوگل مانند برنامه Gemini تعامل داشته باشید. این ابزار به گونه‌ای طراحی شده که کاربرپسند باشد و به شما اجازه می‌دهد به سرعت نمونه‌های اولیه برنامه‌های هوش مصنوعی را بسازید و آزمایش کنید، بدون اینکه به دانش برنامه‌نویسی گسترده‌ای نیاز داشته باشید. آن را به عنوان یک جعبه شنی (Sandbox) در نظر بگیرید که در آن می‌توانید با پرامپت‌ها (دستورات) آزمایش کنید، مدل‌ها را تنظیم دقیق (fine-tune) کنید و ایده‌های خود را به واقعیت تبدیل کنید.

فکر کنید یک جعبه ابزار دارید که به شما اجازه می‌دهد با هوش مصنوعی گوگل صحبت کنید.

این ابزار برای همه، صرف نظر از تخصص برنامه‌نویسی، طراحی شده است.
می‌توانید ایده‌های خود را امتحان کنید و ببینید با هوش مصنوعی چه کارهایی ممکن است.
با دستورالعمل‌های مختلف آزمایش کنید تا هوش مصنوعی را وادار به انجام کاری که می‌خواهید کنید.
برنامه‌ها و پروژه‌های هوش مصنوعی خود را بسازید.
به طور یکپارچه با سایر خدمات Google Cloud ادغام شوید.

چگونه از Google AI Studio استفاده کنیم؟

مراحل اولیه به طرز شگفت‌آوری ساده است. با مراجعه به وب‌سایت Google AI Studio شروع کنید و برای یک حساب کاربری ثبت‌نام کنید. اگر از قبل حساب گوگل دارید، می‌توانید مستقیماً با آن وارد شوید.

پس از ورود، به داشبورد اصلی با طراحی جدید هدایت می‌شوید. ناوبری بسیار ساده و شهودی است و تب‌های اصلی در بالای صفحه قرار گرفته‌اند. در این آموزش، ما بر روی این چهار بخش اصلی تمرکز خواهیم کرد:

چت (Chat): برای ساخت تجربه‌های مکالمه محور.
پخش زنده (Stream): برای تعاملات زنده و چندوجهی با استفاده از صدا و تصویر.
تولید رسانه (Generate Media): برای خلق تصویر، ویدیو و صدا.
ساخت (Build): برای تولید اپلیکیشن‌های کامل با یک پرامپت ساده.

چت (Chat): ساخت یک مکالمه هوشمند

بخش “Chat” جایی است که شما دستورالعمل‌ها را برای هوش مصنوعی می‌نویسید و یک تجربه مکالمه سفارشی ایجاد می‌کنید. این کار شبیه به آموزش دادن به یک دستیار شخصی است.

۱. در تب “Chat”، از بخش “System Instructions” برای تعریف نقش و رفتار هوش مصنوعی استفاده کنید. برای مثال: «شما یک راهنمای سفر فضایی هستید که با هیجان درباره سیارات مختلف توضیح می‌دهید.»

۲. در کادر ورودی پایین صفحه، یک پرسش نمونه وارد کنید تا ببینید هوش مصنوعی بر اساس دستورالعمل‌های شما چگونه پاسخ می‌دهد. برای مثال: «درباره مریخ برایم بگو.»

۳. با تغییر دستورالعمل‌های سیستمی و ویرایش پاسخ‌های مدل، می‌توانید رفتار و لحن چت‌بات خود را دقیق‌تر تنظیم کنید.

مثال عملی: ساخت یک چت‌بات فضایی

فرض کنید می‌خواهیم یک ربات چت بسازیم که نقش یک موجود فضایی شاد از قمر «اروپا» را بازی کند.

دستورالعمل سیستمی (System Instruction): شما «تیم» هستید، یک موجود فضایی که در اروپا، یکی از قمرهای مشتری، زندگی می‌کند. پاسخ‌های خود را کوتاه (زیر ۳ پاراگراف) و با لحنی شاد و پرانرژی بیان کنید.

ورودی کاربر: آب و هوا چطوره؟

پاسخ هوش مصنوعی: اوه، سلام دوباره! هنوز در مورد جریان‌ها و حالت‌های اینجا کنجکاوی؟ عالیه! اینجا در «گرمای عمیق»، زیر پوسته یخی بزرگ، «آب و هوای» ما بیشتر به حال و هوای آب بستگی داره که توسط چشم بزرگ (یعنی سیاره مشتری شما!) تعیین می‌شه...

تنظیمات مدل (Model Settings)

در منوی سمت راست، پنل “Run settings” را مشاهده خواهید کرد. در آنجا، پارامترهای اجرای مدل را پیکربندی می‌کنید.

Get code:: این گزینه به شما امکان می‌دهد کدی که توسط مدل تولید شده را برای ادغام در پروژه‌های خود دریافت کنید.

Model:: مشخص می‌کند کدام مدل زبان برای پردازش پرامپت شما استفاده خواهد شد. مدل‌های جدیدتر مانند Gemini 2.5 Pro و Gemini 2.5 Flash قابلیت‌های پیشرفته‌تری در کدنویسی و استدلال ارائه می‌دهند.

Temperature:: میزان خلاقیت خروجی مدل را کنترل می‌کند. مقدار نزدیک به ۰ خروجی را قطعی‌تر و مقدار نزدیک به ۱ خروجی را خلاقانه‌تر می‌کند.

منوی ورودی چندوجهی (Multimodal Input)

با کلیک بر روی آیکون “+” در کنار کادر ورودی، می‌توانید انواع مختلفی از داده‌ها را به مدل ارائه دهید، از جمله فایل‌های متنی، تصاویر، صدا، ویدیوهای یوتیوب و حتی فایل‌های موجود در Google Drive.

پخش زنده (Stream): تعامل در لحظه

ویژگی Stream (که قبلاً Stream Realtime نام داشت) به شما امکان می‌دهد با استفاده از میکروفون، دوربین یا اشتراک‌گذاری صفحه نمایش، یک مکالمه زنده و پویا با Gemini داشته باشید. مدل می‌تواند آنچه را می‌بیند و می‌شنود تحلیل کرده و به صورت آنی پاسخ دهد. این قابلیت برای دریافت بازخورد زنده، کمک در انجام وظایف یا حتی مشاوره‌های خلاقانه فوق‌العاده است.

مثال عملی: دریافت بازخورد زنده روی یک ارائه

در این سناریو، شما صفحه نمایش خود را که حاوی یک فایل ارائه است با Gemini به اشتراک می‌گذارید و به صورت صوتی از آن بازخورد می‌خواهید.

ورودی: اشتراک‌گذاری صفحه نمایش حاوی ارائه و ورودی صوتی.

کاربر (به صورت صوتی): آیا ارائه من را می‌بینی؟ نظرت در مورد طراحی آن چیست؟

پاسخ هوش مصنوعی (به صورت صوتی): بله، ارائه شما را می‌بینم. من طراحی و نحوه استفاده از رنگ‌ها را که بسیار چشمگیر است، دوست دارم. آیا بخش خاصی وجود دارد که بخواهید روی آن بازخورد دهم؟

تولید رسانه (Generate Media): قدرت خلاقیت Gemini

تب جدید Generate Media مرکز اصلی برای دسترسی به مدل‌های تولید محتوای چندرسانه‌ای گوگل مانند Imagen، Veo و Lyria است. در اینجا می‌توانید:

تولید تصویر: با استفاده از مدل‌های پیشرفته‌ای مانند Gemini 2.5 Flash Image، تصاویر باکیفیت بالا تولید کنید، کاراکترهای ثابت در تصاویر مختلف ایجاد کنید و ویرایش‌های دقیق را با زبان طبیعی انجام دهید.
تولید ویدیو: با مدل Veo، از پرامپت‌های متنی ویدیوهای کوتاه بسازید.
تولید صدا: با استفاده از مدل‌های TTS (Text-to-Speech)، متن را به گفتار طبیعی تبدیل کنید.

مثال عملی: تولید و ویرایش تصویر با پرامپت

این قابلیت به شما اجازه می‌دهد تصاویر را به صورت مرحله به مرحله و با دستورات زبان طبیعی خلق و ویرایش کنید.

پرامپت ۱: یک تصویر از یک اسب ایجاد کن. نتیجه ۱: مدل یک تصویر واقعی از یک اسب قهوه‌ای در یک چمنزار تولید می‌کند.

پرامپت ۲: رنگ اسب را سیاه و سفید کن و آن را در دشتی از گل‌های زرد قرار بده. نتیجه ۲: مدل تصویر را بر اساس دستور جدید ویرایش می‌کند و نتیجه نهایی را نمایش می‌دهد.

ساخت (Build): از ایده تا اپلیکیشن در چند دقیقه

تب Build یکی از هیجان‌انگیزترین به‌روزرسانی‌های Google AI Studio است. این بخش به شما امکان می‌دهد تنها با نوشتن یک پرامپت، یک اپلیکیشن وب کامل و کاربردی بسازید. برای مثال، می‌توانید بنویسید: «یک اپلیکیشن ویرایش عکس بساز که به کاربر اجازه می‌دهد فیلترهای مختلفی را روی تصویر آپلود شده اعمال کند.» AI Studio کد HTML، CSS و جاوا اسکریپت را تولید کرده و پیش‌نمایش زنده آن را به شما نشان می‌دهد. سپس می‌توانید اپلیکیشن را با یک کلیک از طریق Google Cloud Run منتشر کنید.

قیمت‌گذاری Google AI Studio

استفاده از خود Google AI Studio کاملاً رایگان است. با این حال، استفاده از Gemini API در پروژه‌های بزرگتر، دارای یک سطح رایگان با محدودیت مشخص و یک سطح پولی بر اساس میزان مصرف است. قیمت‌گذاری مدل‌ها متفاوت است، برای مثال، مدل‌های قدرتمندتر مانند Gemini 1.5 Pro هزینه بیشتری نسبت به مدل‌های سریع و بهینه مانند Gemini 1.5 Flash دارند.

برای دریافت جدیدترین و دقیق‌ترین اطلاعات، همیشه می‌توانید به صفحه قیمت‌گذاری Gemini API مراجعه کنید.

نتیجه‌گیری

تسلط بر Google AI Studio در سال 2025، با رابط کاربری جدید و ویژگی‌های قدرتمندی مانند Build و Generate Media، امکانات بی‌نظیری را برای نوآوری با هوش مصنوعی فراهم می‌کند. این پلتفرم چیزی فراتر از یک ابزار است؛ این یک توانمندساز نوآوری است که به مبتدیان و توسعه‌دهندگان باتجربه ابزارهایی برای ایجاد راه‌حل‌های تأثیرگذار مبتنی بر هوش مصنوعی ارائه می‌دهد.

لطفاً آن را امتحان کنید و نظرات خود را در بخش نظرات با من در میان بگذارید!