راهنما و آموزش استفاده از هوش مصنوعی جمینای Gemini

نویسنده: مه جبین تیموری

تاریخ انتشار: 10 خرداد 1404 |

زمان مطالعه: 16 دقیقه

گوگل در تلاش است تا با Gemini مجموعه پرچمدار مدل‌ها، برنامه‌ها و سرویس‌های هوش مصنوعی مولد خود، توجه‌ها را به خود جلب کند. اما هوش مصنوعی جمینای چیست؟ چگونه می‌توانید از آن استفاده کنید؟ و چگونه با سایر ابزارهای هوش مصنوعی مولد مانند ChatGPT از OpenAI، Llama از Meta و Copilot از Microsoft مقایسه می‌شود؟

برای اینکه بتوانید راحت‌تر از آخرین پیشرفت‌های آن مطلع شوید، این راهنمایی هوش مصنوعی جمینای را گردآوری کرده‌ایم. تا انتهای مطلب همراهمان باشید.

فهرست مطالب

معرفی هوش مصنوعی جمینای

جمینای خانواده‌ مدل‌های هوش مصنوعی مولد نسل بعدی گوگل است که مدت‌هاست وعده‌ آن داده شده است. این مدل که توسط آزمایشگاه‌های تحقیقاتی هوش مصنوعی گوگل، دیپ‌ مایند و گوگل ریسرچ توسعه داده شده است، در چندین مدل ارائه می‌شود:

جمینای اولترا: یک مدل بسیار بزرگ.
جمینای پرو: یک مدل بزرگ، هر چند کوچکتر از اولترا. آخرین نسخه جمینای ۲.۰ پرو، پرچمدار فعلی گوگل است.
جمینای فلش: یک نسخه سریع‌تر و خلاصه ‌شده از پرو.
جمینای فلش لایت: نسخه کمی کوچکتر و سریع‌تر از جمینای فلش.
جمینای فلش تیکینگ،:مدلی با قابلیت‌های استدلال.
جمینای نانو: دو مدل کوچک: نانو-۱ و نانو-۲ کمی توانمندتر که قرار است به صورت آفلاین اجرا شود.

آموزش هوش مصنوعی جمینای در تمامی مدل‌ها به گونه‌ای است که ذاتا چند وجهی باشند؛ یعنی بتوانند با چیزی بیش از متن کار کرده و آن را تجزیه و تحلیل کنند. گوگل می‌گوید که آنها از قبل آموزش دیده‌اند و روی انواع صداها، تصاویر و ویدیوهای عمومی، اختصاصی و دارای مجوز، مجموعه‌ای از پایگاه‌های کد و متن به زبان‌های مختلف تنظیم شده‌اند.

این امر جمینای را از مدل‌هایی مانند LaMDA خود گوگل که منحصرا روی داده‌های متنی آموزش دیده‌اند، متمایز می‌کند. LaMDA نمی‌تواند چیزی فراتر از متن (مثلا مقاله، ایمیل و غیره) را درک یا تولید کند، اما لزوما در مورد مدل‌های Gemini اینطور نیست. به عنوان مثال آخرین نسخه‌های جمینای فلش و جمینای پرو می‌توانند علاوه بر متن، تصاویر و صدا را نیز به صورت ذاتی تولید کنند.

در اینجا اشاره خواهیم کرد که اخلاق و قانونی بودن مدل‌های آموزشی روی داده‌های عمومی، در برخی موارد بدون اطلاع یا رضایت صاحبان داده‌ها مبهم است. گوگل یک سیاست جبران خسارت هوش مصنوعی دارد تا در صورت مواجهه با دعاوی، از برخی از مشتریان Google Cloud در برابر دعاوی محافظت کند، اما این سیاست شامل موارد اضافی است. پس با احتیاط عمل کنید؛ به خصوص اگر قصد استفاده تجاری از Gemini را دارید.

تفاوت بین برنامه‌های جمینای و مدل‌های جمینای چیست؟

Gemini جدا و متمایز از برنامه‌های Gemini در وب و موبایل (که قبلا Bard نام داشت) است.

برنامه‌های Gemini کلاینت‌هایی هستند که به مدل‌های مختلف Gemini متصل می‌شوند و یک رابط کاربری شبیه به چت‌ بات را روی آن قرار می‌دهند. آنها را به عنوان رابط کاربری برای هوش مصنوعی مولد گوگل، مشابه ChatGPT و خانواده برنامه‌های Claude از Anthropic در نظر بگیرید.

جمینای تحت وب اینجا حضور دارد. در اندروید اپلیکیشن جمینای جایگزین اپلیکیشن موجود گوگل اسیستنت شده است و در iOS اپلیکیشن‌های گوگل و جستجوی گوگل به عنوان کلاینت‌های جمینی این پلتفرم عمل می‌کنند.

در اندروید کاربران می‌توانند یک پوشش جمینای را برای پرسیدن سوال در مورد آنچه روی صفحه نمایششان است (مثلا یک ویدیوی یوتیوب) باز کنند. فشار دادن و نگه داشتن دکمه پاور یک گوشی هوشمند پشتیبانی شده یا گفتن «هی گوگل» این پوشش را احضار می‌کند.

اپلیکیشن‌های جمینای می‌توانند تصاویر و همچنین دستورات صوتی و متن – از جمله فایل‌هایی مانند PDF، آپلود شده یا وارد شده از گوگل درایو – را بپذیرند و تصویر تولید کنند. همانطور که انتظار می‌رود، مکالمات با اپلیکیشن‌های جمینای در موبایل به جمینای در وب و برعکس منتقل می‌شوند، اگر در هر دو مکان به یک حساب گوگل وارد شده باشید.

جمینای پیشرفته چیست؟

اپلیکیشن‌های Gemini تنها راه برای جذب کمک مدل‌های Gemini در انجام وظایف نیستند. ویژگی‌های الهام گرفته از Gemini در حال ورود به برنامه‌ها و سرویس‌های اصلی گوگل مانند Gmail و Google Docs هستند.

برای بهره‌ مندی از اکثر این موارد به طرح Premium AI گوگل وان نیاز خواهید داشت. طرح Premium AI که از نظر فنی بخشی از گوگل وان است، ماهانه 20 دلار هزینه دارد و دسترسی به Gemini را در برنامه‌های Google Workspace مانند Docs، Maps، Slides، Sheets، Drive و Meet فراهم می‌کند. همچنین چیزی را که گوگل Gemini Advanced می‌نامد، فعال می‌کند که مدل‌های پیچیده‌تر Gemini این شرکت را به برنامه‌های Gemini می‌آورد.

کاربران Gemini Advanced نیز از امکانات اضافی مانند دسترسی اولویت‌دار به ویژگی‌ها و مدل‌های جدید، امکان اجرا و ویرایش کد پایتون به طور مستقیم در Gemini و افزایش محدودیت‌ها برای NotebookLM، ابزار گوگل که فایل‌های PDF را به پادکست‌های تولید شده توسط هوش مصنوعی تبدیل می‌کند، بهره‌مند می‌شوند. اخیرا Gemini Advanced یک ویژگی حافظه به دست آورده است که تنظیمات برگزیده کاربران را ذخیره می‌کند و به Gemini اجازه می‌دهد تا به مکالمات قدیمی به عنوان زمینه‌ای برای چت‌های فعلی اشاره کند. یکی از جذاب‌ترین محصولات انحصاری Gemini Advanced، Deep Research، از مدل‌های Gemini با «استدلال پیشرفته» برای ایجاد خلاصه‌های دقیق استفاده می‌کند. Deep Research در پاسخ به یک سوال (مثلا «چگونه باید آشپزخانه‌ام را دوباره طراحی کنم؟») یک طرح تحقیقاتی چند مرحله‌ای تهیه کرده و در وب جستجو می‌کند تا به یک پاسخ جامع برسد.

جمینای در جیمیل، داکز، کروم، ابزارهای توسعه و موارد دیگر

در جیمیل، جمینای در یک پنل کناری قرار دارد که می‌تواند ایمیل بنویسد و رشته‌های پیام را خلاصه کند. همین پنل را در داکز نیز خواهید یافت، که به نوشتن و اصلاح محتوا و ایده‌ پردازی‌های جدید کمک می‌کند. جمینی در اسلایدز، اسلایدها و تصاویر سفارشی تولید کرده و در گوگل شیت داده‌ها را ردیابی و سازماندهی می‌کند و جداول و فرمول ایجاد می‌کند.

جمینای در گوگل مپس نیز وجود دارد؛ در آنجا می‌تواند نظرات مربوط به مشاغل محلی را جمع‌آوری کند و توصیه‌هایی مانند نحوه گذراندن یک روز در بازدید از یک شهر خارجی ارائه دهد. دسترسی این چت ‌بات به درایو نیز گسترش می‌یابد؛ در آنجا می‌تواند فایل‌ها و پوشه‌ها را خلاصه کند و اطلاعات سریعی در مورد یک پروژه ارائه دهد.

جمینای اخیرا به شکل یک ابزار نوشتاری هوش مصنوعی به مرورگر کروم گوگل آمده است. می‌توانید از آن برای نوشتن یک چیز کاملا جدید یا بازنویسی متن موجود استفاده کنید؛ گوگل می‌گوید صفحه وبی را که در آن هستید برای ارائه توصیه‌ها در نظر می‌گیرد.

در جای دیگر نشانه‌هایی از جمینای را در محصولات پایگاه داده گوگل، ابزارهای امنیتی ابری و پلتفرم‌های توسعه برنامه (از جمله Firebase و Project IDX) و همچنین در برنامه‌هایی مانند Google Photos (که پرس‌وجوهای جستجوی زبان طبیعی را مدیریت می‌کند)، YouTube (به ایده‌های ویدیویی طوفان فکری کمک می‌کند) و Meet (زیرنویس‌ها را ترجمه می‌کند) خواهید یافت.

Code Assist (که قبلا Duet AI برای توسعه ‌دهندگان نام داشت)، مجموعه ابزارهای کمکی مبتنی بر هوش مصنوعی گوگل برای تکمیل و تولید کد، بار محاسباتی سنگین را به جمینای واگذار می‌کند. محصولات امنیتی گوگل که توسط جمینای پشتیبانی می‌شوند، مانند جمینای در Threat Intelligence، که می‌تواند بخش‌های بزرگی از کدهای بالقوه مخرب را تجزیه و تحلیل کند و به کاربران اجازه دهد جستجوهای زبان طبیعی را برای تهدیدات مداوم یا نشانه‌های خطر انجام دهند، نیز همینطور هستند.

افزونه‌ها و جِم‌های جمینای

کاربران پیشرفته جمینای می‌توانند جِم‌ها یا همان چت ‌بات‌های سفارشی روی دسکتاپ و موبایل که توسط مدل‌های جمینای پشتیبانی می‌شوند، ایجاد کنند. جم‌ها را می‌توان با توضیحات زبان طبیعی ایجاد کرد. برای مثال، «شما مربی دویدن من هستید. یک برنامه دویدن روزانه به من بدهید» و با سایر کاربران به اشتراک گذاشته یا خصوصی نگه داشت.

اپلیکیشن‌های جمینای می‌توانند از طریق چیزی که گوگل آن را «افزونه‌های جمینی» می‌نامد، به سرویس‌های گوگل دسترسی پیدا کنند. جمینای با درایو، جیمیل، یوتیوب و موارد دیگر ادغام می‌شود تا به سؤالاتی مانند «آیا می‌توانی سه ایمیل آخر من را خلاصه کنی؟» پاسخ دهد.

چت‌های صوتی عمیق Gemini Live

تجربه‌ای به نام Gemini Live به کاربران امکان می‌دهد چت‌های صوتی «عمیق» با Gemini داشته باشند. این قابلیت در برنامه‌های Gemini روی موبایل و Pixel Buds Pro 2 موجود است و حتی زمانی که گوشی شما قفل است نیز می‌توان به آن دسترسی داشت.

با فعال کردن Gemini Live می‌توانید در حین صحبت ربات چت، صحبت Gemini را قطع کنید و یک سوال روشن‌ کننده بپرسید و ربات به صورت آنی با الگوهای گفتاری شما سازگار می‌شود. Live همچنین به گونه‌ای طراحی شده است که به عنوان یک مربی مجازی عمل کند و به شما در تمرین برای رویدادها، ایده ‌پردازی و غیره کمک کند. به عنوان مثال Live می‌تواند پیشنهاد دهد که در مصاحبه شغلی پیش رو کدام مهارت‌ها را برجسته کنید و نکات سخنرانی عمومی را ارائه دهد.

جمینای برای نوجوانان

گوگل یک تجربه جمینای متمرکز بر نوجوانان را برای دانش ‌آموزان ارائه می‌دهد.

جمینی متمرکز بر نوجوانان «سیاست‌ها و اقدامات حفاظتی بیشتری» دارد، از جمله یک فرآیند ورود به سیستم متناسب و یک راهنمای سواد آموزی هوش مصنوعی. به جز این موارد، تقریبا با تجربه استاندارد جمینای یکسان است، به جز ویژگی «بررسی مجدد» که در سراسر وب جستجو می‌کند تا ببیند آیا پاسخ‌های جمینای دقیق هستند یا نه.

مدل‌های Gemini قادر به انجام چه کارهایی هستند؟

از آنجا که مدل‌های Gemini چند وجهی هستند، می‌توانند طیف وسیعی از وظایف این چنینی را انجام دهند، از رونویسی گفتار گرفته تا زیرنویس کردن تصاویر و ویدیوها به صورت بلادرنگ. بسیاری از این قابلیت‌ها به مرحله محصول رسیده‌اند و گوگل وعده چیزهای بسیار بیشتری را در آینده‌ای نه چندان دور می‌دهد.

البته گوگل هیچ راه حلی برای برخی از مشکلات اساسی فناوری هوش مصنوعی مولد امروزی، مانند تعصبات رمزگذاری شده و تمایل به ساختن چیزها (یعنی توهم) ارائه نمی‌دهد. رقبای آن نیز چنین کاری نمی‌کنند، اما این نکته‌ای است که باید هنگام بررسی استفاده یا پرداخت هزینه برای Gemini در نظر داشته باشید.

قابلیت‌های جمینای پرو

گوگل می‌گوید که آخرین مدل Pro آن، Gemini 2.5 Pro، بهترین مدل کنونی برای کدنویسی و دستورات پیچیده است. 2.5 Pro در معیارهای اندازه ‌گیری برنامه ‌نویسی، استدلال، ریاضی و دقت واقعی از مدل قبلی خود Gemini 2.0 Pro بهتر عمل می‌کند. در پلتفرم هوش مصنوعی Vertex گوگل، توسعه ‌دهندگان می‌توانند جمینای پرو را از طریق یک فرآیند تنظیم دقیق یا «زمینه ‌سازی» برای زمینه‌ها و موارد استفاده خاص سفارشی کنند. به عنوان مثال می‌توان به Pro (همراه با سایر مدل‌های Gemini) دستور داد که از داده‌های ارائه‌ دهندگان شخص ثالث مانند Moody’s، Thomson Reuters، ZoomInfo و MSCI استفاده کند، یا اطلاعات را از مجموعه داده‌های شرکتی یا جستجوی گوگل به جای بانک دانش گسترده‌تر خود تهیه کند. Gemini Pro همچنین می‌تواند به APIهای خارجی شخص ثالث متصل شود تا اقدامات خاصی مانند اتوماسیون در دفتر کار را انجام دهد.

پلتفرم AI Studio گوگل قالب‌هایی را برای ایجاد پیام‌های چت ساختار یافته با Pro ارائه می‌دهد. توسعه ‌دهندگان می‌توانند محدوده خلاقانه مدل را کنترل کنند و مثال‌هایی را برای ارائه دستورالعمل‌های لحن و سبک ارائه دهند. همچنین تنظیمات ایمنی Pro را انجام دهند.

Gemini Flash سبک است، در حالی که Gemini Flash Thinking قابلیت استدلال را دارد.

Gemini 2.0 Flash که می‌تواند از ابزارهایی مانند جستجوی گوگل استفاده کند و با APIهای خارجی تعامل داشته باشد، در معیارهای اندازه ‌گیری کدنویسی و تجزیه و تحلیل تصویر، از برخی از مدل‌های بزرگتر Gemini 1.5 بهتر عمل می‌کند. فلش شاخه‌ای از Gemini Pro، کوچک و کارآمد بوده و برای حجم کاری هوش مصنوعی مولد با فرکانس بالا و محدود ساخته شده است.

گوگل می‌گوید فلش به ویژه برای کارهایی مانند خلاصه ‌سازی و برنامه‌های چت، به علاوه زیرنویس تصویر و ویدیو و استخراج داده‌ها از اسناد و جداول طولانی مناسب است. در همین حال Gemini 2.0 Flash-Lite نسخه فشرده‌تر فلش، از Gemini 1.5 Flash بهتر عمل می‌کند اما طبق گفته گوگل با همان قیمت و سرعت اجرا می‌شود.

اخیرا گوگل نسخه‌ای «متفکر» از Gemini 2.5 Flash را منتشر کرد که قادر به «استدلال» است. این مدل هوش مصنوعی چند ثانیه طول می‌کشد تا قبل از ارائه پاسخ، به عقب برگردد و یک مسئله را حل کند که می‌تواند قابلیت اطمینان آن را بهبود بخشد.

جمینای نانو چیست؟

جمینای نانو نسخه کوچکی از جمینای است که به اندازه کافی کارآمد است تا مستقیما روی (برخی) دستگاه‌ها اجرا شود، به جای اینکه وظیفه را به سروری در جایی دیگر ارسال کند. تاکنون نانو چندین ویژگی را در پیکسل ۸ پرو، پیکسل ۸، پیکسل ۹ پرو، پیکسل ۹ و سامسونگ گلکسی S24 از جمله خلاصه ‌سازی در ضبط‌ کننده و پاسخ هوشمند در Gboard پشتیبانی می‌کند.

برنامه ضبط‌ کننده که به کاربران امکان می‌دهد با فشار دادن یک دکمه صدا را ضبط و رونویسی کنند، شامل خلاصه‌ای از مکالمات ضبط ‌شده، مصاحبه‌ها، ارائه‌ها و سایر قطعات صوتی ضبط‌ شده توسط جمینای است. کاربران حتی اگر اتصال اینرتنتی نداشته باشند، خلاصه‌ها را دریافت می‌کنند. با اشاره به حریم خصوصی، هیچ داده‌ای از گوشی آنها در حین پردازش خارج نمی‌شود.

نانو همچنین در Gboard صفحه‌ کلید گوگل وجود دارد. در آنجا پاسخ هوشمند را پشتیبانی می‌کند که به شما امکان می‌دهد هنگام مکالمه در یک برنامه پیام ‌رسان مانند واتس‌اپ، حرف بعدی را که می‌خواهید بگویید از عبارات پیشنهادی استفاده کنید.

نسخه آینده اندروید نانو را فعال می‌کند تا کاربران را از کلاهبرداری‌های احتمالی در طول تماس‌ها مطلع کند. برنامه جدید هواشناسی در گوشی‌های پیکسل از جمینای نانو برای تولید گزارش‌های آب و هوایی سفارشی استفاده می‌کند. و TalkBack سرویس دسترسی گوگل، از Nano برای ایجاد توصیفات صوتی اشیا برای کاربران کم‌بینا و نابینا بهره می‌گیرد.

از جمینای اولترا فعلا خبری نیست!

ما در ماه‌های اخیر چیز زیادی از جمینای اولترا ندیده‌ایم. این مدل در برنامه‌های Gemini موجود نیست و در صفحه قیمت ‌گذاری API Gemini گوگل ذکر نشده است. با این حال این بدان معنا نیست که گوگل در آینده Ultra را برنگرداند.

قیمت هوش مصنوعی Gemini چقدر است؟

Gemini 1.5 Pro، 1.5 Flash، 2.0 Flash و 2.0 Flash-Lite از طریق رابط برنامه ‌نویسی کاربردی Gemini گوگل برای ساخت برنامه‌ها و خدمات در دسترس هستند. آنها به صورت پرداخت در حین استفاده ارائه می‌شوند. قیمت پایه – بدون احتساب افزونه‌ها – از تاریخ فوریه 2025 به شرح زیر است:

Gemini 1.5 Pro: 1.25 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواست‌های تا سقف 128 هزار توکن) یا 2.50 دلار به ازای هر 1 میلیون توکن ورودی (برای درخواست‌های طولانی‌تر از 128 هزار توکن)؛ ۵ دلار به ازای هر ۱ میلیون توکن خروجی (برای درخواست‌های تا ۱۲۸ هزار توکن) یا ۱۰ دلار به ازای هر ۱ میلیون توکن خروجی (برای درخواست‌های طولانی‌تر از ۱۲۸ هزار توکن)
Gemini 1.5 Flash: 7.5 سنت به ازای هر ۱ میلیون توکن ورودی (برای درخواست‌های تا ۱۲۸ هزار توکن)، ۱۵ سنت به ازای هر ۱ میلیون توکن ورودی (برای درخواست‌های طولانی‌تر از ۱۲۸ هزار توکن)، ۳۰ سنت به ازای هر ۱ میلیون توکن خروجی (برای درخواست‌های تا ۱۲۸ هزار توکن)، ۶۰ سنت به ازای هر ۱ میلیون توکن خروجی (برای درخواست‌های طولانی‌تر از ۱۲۸ هزار توکن)
Gemini 2.0 Flash: ۱۰ سنت به ازای هر ۱ میلیون توکن ورودی، ۴۰ سنت به ازای هر ۱ میلیون توکن خروجی. برای صدا، ۷۰ سنت به ازای هر ۱ میلیون توکن ورودی.
Gemini 2.0 Flash-Lite: 7.5 سنت به ازای هر 1 میلیون توکن ورودی، 30 سنت به ازای هر 1 میلیون توکن خروجی.

توکن‌ها بیت‌های تقسیم‌ شده از داده‌های خام هستند؛ مانند هجاهای fan، tas و tic در کلمه fantastic؛ 1 میلیون توکن معادل حدود 750،000 کلمه است. ورودی به توکن‌هایی اشاره دارد که به مدل وارد می‌شوند، در حالی که خروجی به توکن‌هایی اشاره دارد که مدل تولید می‌کند.

سخن آخر

گوگل با ارائه هوش مصنوعی جمینای مجموعه‌ای از مدل‌های مولد هوش مصنوعی چندوجهی شامل اولترا، پرو، فلش و نانو را معرفی کرده که قادر به پردازش و تولید متن، صدا و تصویر هستند.

علاوه بر قابلیت‌های متنوعی همچون ایجاد چت ‌بات‌های سفارشی، چت صوتی عمیق و ارائه تجربیات متناسب با نوجوانان، گوگل مشغول توسعه کاربردهای وسیع‌تری برای جمینای در حوزه‌های مختلف از جمله توسعه کد و امنیت سایبری است، اگر چه چالش‌هایی مانند سوگیری و توهم در این فناوری همچنان پابرجاست و قیمت‌گذاری آن بر اساس میزان مصرف توکن‌ها تعیین می‌شود.

سوالات متداول کاربران

آیا هوش مصنوعی Gemini بهتر از GPT-4 OpenAI است؟

خیر، گفتن اینکه هوش مصنوعی Gemini بهتر از GPT-4 OpenAI است یا برعکس دشوار است؛ هر دو مدل نقاط قوت و ضعف خاص خود را دارند و انتخاب بهتر به نیازها و کاربرد خاص شما بستگی دارد.

آیا استفاده از هوش مصنوعی Gemini رایگان است؟

استفاده از برنامه‌های اصلی جمینای (وب و موبایل) معمولا رایگان است، اما برای دسترسی به مدل‌های پیچیده‌تر و ویژگی‌های پیشرفته‌تر مانند Gemini Advanced نیاز به پرداخت هزینه و عضویت دارید.

آیا جمینای کامل و بدون نقص است؟

خیر، مانند سایر هوش مصنوعی‌های مولد امروزی، جمینای نیز ممکن است با مشکلاتی مانند سوگیری‌های رمزگذاری شده و تمایل به ساختن اطلاعات نادرست (توهم) مواجه شود.

دیدگاهتان را بنویسید لغو پاسخ