دنیای تولید محتوای چندرسانهای با هوش مصنوعی در حال عبور از مرحله «آزمایش» و ورود به مرحله «تولید انبوه و تجاری» است. گوگل در جدیدترین آپدیت خود در تابستان ۲۰۲۶، دو مدل قدرتمند و کاملاً متمایز را معرفی کرده است که هدف اصلی آنها کاهش شدید هزینهها و افزایش سرعت برای توسعهدهندگان و تولیدکنندگان محتواست. این دو مدل، Nano Banana 2 Lite (سریعترین تصویرساز گوگل) و Gemini Omni Flash (هوش مصنوعی تولید و ویرایش مکالمهمحور ویدیو) نام دارند.
در این مقاله از مجله هوش مصنوعی نکسینو، به بررسی عمیق و تحلیل قابلیتهای این دو مدل میپردازیم و خواهیم دید که چگونه ترکیب آنها میتواند گردش کار شما را به کلی تغییر دهد.
۱. مدل Nano Banana 2 Lite: پادشاه سرعت و هزینه در تولید تصویر
بر اساس گزارش رسمی بخش DeepMind گوگل، مدل Nano Banana 2 Lite منحصراً برای کارهایی طراحی شده است که نیاز به حجم بالایی از تولید عکس با کمترین تاخیر (Latency) دارند. این مدل جایگزین رسمی و ارتقایافتهی مدل قبلی یعنی جمنای ۲.۵ فلش محسوب میشود.
تحلیل قابلیتهای کلیدی:
- سرعت بیرقیب (۴ ثانیه): این مدل قادر است متن شما را تنها در ۴ ثانیه به یک تصویر باکیفیت تبدیل کند. این سرعت خیرهکننده، استفاده از آن را برای ساخت نمونههای اولیه (Prototyping) و اپلیکیشنهای تعاملی ایدهآل میکند.
- هزینه فوقاقتصادی: گوگل قیمت این API را روی عدد شگفتانگیز ۰.۰۳۴ دلار به ازای تولید هر ۱۰۰۰ تصویر (با رزولوشن 1K) تنظیم کرده است. این یعنی کسبوکارها میتوانند بدون نگرانی از تمام شدن بودجه سرور، هزاران عکس تولید کنند.
- رندر دقیق متن و حفظ ثبات: برخلاف مدلهای ارزانقیمت گذشته، Nano Banana 2 Lite در حفظ ثبات کاراکترها در عکسهای متوالی و همچنین نوشتن متنهای خوانا و دقیق داخل تصاویر (In-image text rendering) عملکردی کاملاً قابل اعتماد دارد.
۲. مدل Gemini Omni Flash: ویرایش و ساخت ویدیو با زبان طبیعی
در سمت دیگر، گوگل برای اولین بار دسترسی توسعهدهندگان به Gemini Omni Flash را از طریق Google AI Studio و Gemini API باز کرده است. این مدل، قدرت استدلال چندوجهی جمنای را با فناوری تولید ویدیو ترکیب میکند.
مهمترین ویژگیهای Omni Flash:
- ویرایش مکالمهمحور (Conversational Video Editing): دیگر نیازی به نرمافزارهای پیچیده نیست. شما میتوانید با زبان طبیعی به هوش مصنوعی بگویید: “نور پسزمینه را گرمتر کن” یا “این کاراکتر را در ویدیو تغییر بده” و مدل دقیقاً همان ویرایش را روی ویدیو اعمال میکند.
- ورودیهای چندوجهی ترکیبی: این مدل به شما اجازه میدهد متن، عکس و حتی ویدیوهای دیگر را با هم ترکیب کنید تا خروجی نهایی دقیقاً مطابق با سناریوی ذهنی شما باشد.
- دانش دنیای واقعی: Omni Flash صرفاً پیکسلها را جابجا نمیکند، بلکه با استفاده از پایگاه دانش گوگل (شامل قوانین فیزیک، بیولوژی و منطق داستانی) ویدیوهایی میسازد که از نظر فیزیکی و بصری کاملاً منطقی و واقعگرایانه هستند.
- هزینه منطقی: قیمت استفاده از این مدل ۰.۱۰ دلار به ازای هر ثانیه خروجی ویدیو تعیین شده است که همتراز با مدل Veo 3.1 Fast میباشد.

جایگاه مدلهای جدید در خانواده Nano Banana
برای درک بهتر اینکه گوگل چگونه اکوسیستم تصویرسازی خود را طبقهبندی کرده است، جدول زیر را بر اساس اسناد توسعهدهندگان گوگل استخراج و تحلیل کردهایم:
| نام مدل در سال ۲۰۲۶ | تمرکز اصلی عملکرد | بهترین سناریوی استفاده (Use Case) |
| Nano Banana 2 Lite | سرعت بالا و قیمت بسیار پایین | گردشکارهای با حجم بالا، تولید در لحظه (Real-time) |
| Nano Banana 2 | تعادل بین کیفیت و سرعت | استفاده عمومی، بهترین گزینه برای کیفیت بالا با تاخیر کم |
| Nano Banana Pro | کیفیت و کنترل فوقحرفهای | پروژههای پیچیده و حرفهای که دقت مهمتر از سرعت است |
| Nano Banana (نسخه ۲.۵) | مدل قدیمی (Legacy) | گوگل توصیه میکند تمام کاربران به نسخه Lite مهاجرت کنند |
ترکیب طلایی: وقتی Nano و Omni با هم کار میکنند (بررسی دموها)
تحلیل نکسینو از این آپدیت نشان میدهد که قدرت واقعی زمانی آزاد میشود که این دو مدل را به صورت زنجیرهای (Chaining) استفاده کنید. گوگل برای اثبات این موضوع، سه دموی کاربردی ارائه کرده است:
۱. برنامه Anywhere (سفر مجازی): کاربر یک سلفی میگیرد. ابتدا Nano Banana 2 Lite چهره او را در کنار یک مکان تاریخی مشهور (مثل برج ایفل یا تخت جمشید) شبیهسازی میکند. سپس کاربر روی عکس کلیک میکند و Omni Flash آن عکس ثابت را به یک ویدیوی متحرک و سینمایی از آن مکان تبدیل مینماید.
۲. برنامه Space Lift (دکوراسیون داخلی): کاربر عکسی از اتاق خالی خود آپلود میکند. مدل نانو در چند ثانیه دهها کانسپت دکوراسیون جدید میسازد. با انتخاب بهترین طرح، مدل آمنی آن را به یک ویدیوی تور مجازی جذاب تبدیل میکند تا کاربر فضای جدید را پیش از اجرا حس کند.
۳. برنامه Omni Product Studio (تجارت الکترونیک): مناسب برای فروشگاههای اینترنتی؛ جایی که عکسهای سادهی محصول توسط مدل نانو بهینهسازی شده و سپس توسط آمنی به تیزرهای تبلیغاتی سینمایی و وایرال تبدیل میشوند.
محدودیتهای فعلی و نکات امنیتی (توسعهدهندگان بخوانند)
مانند هر تکنولوژی جدیدی، این مدلها نیز در فاز فعلی محدودیتهایی دارند که در زمان توسعه اپلیکیشن باید به آنها دقت کنید:
- در حال حاضر Omni Flash تنها ویدیوهای ۱۰ ثانیهای تولید میکند (گوگل وعده افزایش این زمان را داده است).
- امکان آپلود فایلهای صوتی به عنوان رفرنس در API ویدیو هنوز فعال نیست.
- اگرچه API ویدیوهای رفرنس تا ۳ ثانیه را میپذیرد، اما پردازش آنها در مدل فعلی هنوز باگهایی دارد و گوگل در حال رفع آنهاست.
- از نظر امنیتی، هر دو مدل بر روی زیرساخت امن گوگل اجرا میشوند و تمامی عکسها و ویدیوهای خروجی دارای واترمارک غیرقابلحذف SynthID هستند تا شفافیت محتوای تولیدشده با هوش مصنوعی حفظ شود.