گوگل در مسیر تحقق هوش مصنوعی جامع

گوگل در مسیر تحقق هوش مصنوعی جامع

کنفرانس «Google I/O ۲۰۲۵»، رویداد سالانه توسعه‌دهندگان گوگل، در تاریخ ۲۰ و ۲۱ مه ۲۰۲۵ در حال برگزاری است. گوگل در این رویداد با تمرکز بر هوش مصنوعی، به‌ویژه پلتفرم جمینای (Gemini)، مجموعه‌ای از نوآوری‌ها و محصولات جدید خود را معرفی کرد. مدل‌های پیشرفته جمینای، مدل ساخت تصویر و ویدئو و برنامه «AI Ultra» بخشی از محصولاتی بودند که گوگل در این رویداد رونمایی کرد.
به گزارش زاویه، دمیس هاسابیس، مدیرعامل گوگل دیپ مایند، درباره خدمات رونمایی شده در این رویداد گفت: «قابلیت‌های جدید مدل‌های جمینای، به‌ویژه «Gemini ۲,۵ Pro»، گامی مهم به‌سوی تحقق هوش مصنوعی جامع (AGI) است.» او تأکید کرد که توانایی‌هایی مانند استدلال، مدل‌سازی و خلاقیت، عناصر کلیدی برای دستیابی به هوش مصنوعی جامع محسوب می‌شوند.
جمینای اولترا (Gemini Ultra)
جمینای اولترا یا «AI Ultra» سرویسی است که تمام ابزارهای هوش مصنوعی گوگل از ساخت ویدئو تا «Notebook LM» و… را می‌توان با آن دریافت کرد. قیمت این سرویس ۲۴۹.۹۹ دلار در ماه است و شامل ابزارهای پیشرفته‌ای مانند تولیدکننده ویدیو «Veo ۳»، نرم‌افزار جدید ویرایش ویدیو «Flow» و قابلیت قدرتمند «Deep Think mode» از مدل «Gemini ۲,۵ Pro» می‌شود که هنوز به‌صورت رسمی عرضه نشده است.
جمینای اولترا که در حال حاضر تنها در آمریکا در دسترس است؛ امکان استفاده بیشتر از پلتفرم «LM Notebook» و برنامه بازطراحی تصاویر «Whisk»را ارائه می‌دهد. مشترکان این طرح همچنین به چت‌بات جمینای در مرورگر کروم، ابزارهای «عاملیت‌محور» مبتنی بر فناوری «Project Mariner»، اشتراک «YouTube Premium» و ۳۰ ترابایت فضای ذخیره‌سازی در «Google Drive»، «Google Photos» و «Gmail» دسترسی خواهند داشت.
قابلیت «Deep Think» در «Gemini ۲,۵ Pro»
قابلیت «Deep Think» یک حالت استدلال تقویت‌شده برای مدل پرچم‌دار «Gemini ۲,۵ Pro» گوگل محسوب می‌شود. این حالت به مدل اجازه می‌دهد پیش از ارائه پاسخ نهایی، چندین پاسخ احتمالی را بررسی و ارزیابی کند؛ امری که باعث بهبود عملکرد آن در برخی بنچمارک‌ها می‌شود.
گوگل جزئیات فنی زیادی درباره نحوه عملکرد «Deep Think» ارائه نکرد، اما به نظر می‌رسد این قابلیت شباهت‌هایی با مدل‌های «o۱-pro» و «o۳-pro» شرکت OpenAI داشته باشد؛ مدل‌هایی که احتمالاً از یک موتور داخلی برای جست‌وجو و ترکیب بهترین پاسخ ممکن به یک مسئله استفاده می‌کنند.
قابلیت «Deep Think» در حال حاضر از طریق رابط برنامه‌نویسی «API» جمینای فقط در اختیار «آزمایش‌کنندگان مورد اعتماد» قرار دارد. گوگل اعلام کرده پیش از عرضه عمومی این قابلیت، زمان بیشتری را صرف ارزیابی‌ ایمنی آن خواهد کرد.
مدل هوش مصنوعی تولید ویدئو «Veo ۳»
گوگل مدعی است مدل جدید تولید ویدئوی این شرکت، یعنی «Veo ۳»، قادر است علاوه بر تولید ویدئو، جلوه‌های صوتی، صدای پس‌زمینه و حتی دیالوگ نیز تولید کند تا ویدئوهای ساخته‌شده واقعی‌تر به نظر برسند. به گفته گوگل، «Veo ۳» از نظر کیفیت تصاویر تولیدی نیز نسبت به نسخه قبلی خود یعنی «Veo ۲» بهبود چشمگیری یافته است.
این مدل از روز سه‌شنبه، مورخ ۲۰ می، برای کاربران طرح «AI Ultra» از طریق اپلیکیشن چت‌بات جمینای گوگل در دسترس قرار گرفته است. کاربران می‌توانند با وارد کردن متن یا تصویر به این چت‌بات، از «Veo ۳» برای تولید ویدئو استفاده کنند.
مدل تولید تصویر با هوش مصنوعی «Imagen ۴»
طبق اعلام گوگل، «Imagen ۴» نسبت به نسخه قبلی خود یعنی «Imagen ۳» سریع‌تر است و در آینده نزدیک حتی تا
۱۰ برابر سریع‌تر نیز خواهد شد، چرا که گوگل قصد دارد نسخه‌ای از «Imagen ۴» را با این سطح از سرعت عرضه کند. این مدل توانایی تولید جزئیات مانند بافت پارچه‌ها، قطرات آب و خز حیوانات را دارد و می‌تواند هم در سبک‌های واقع‌گرایانه (رئالیستی) و هم انتزاعی تصویر تولید کند. همچنین قابلیت ساخت تصویر در نسبت‌های ابعادی مختلف و با وضوح تا ۲k را دارد.
هر دو مدل «Veo ۳» و «Imagen ۴» به عنوان موتورهای اصلی در ابزار جدید ویدئویی گوگل به نام «Flow» به کار گرفته می‌شوند؛ ابزاری که با تمرکز بر تولیدات سینمایی و فیلم‌سازی طراحی شده است.
قابلیت‌های جدید مدل جمینای
گوگل با اعلام این که اپلیکیشن‌های جمینای اکنون بیش از ۴۰۰ میلیون کاربر فعال ماهانه دارند از امکانات جدید آن رونمایی کرد. قابلیت‌های دوربین و اشتراک‌گذاری صفحه در بخش «Gemini Live» از این هفته برای تمام کاربران «iOS» و اندروید در دسترس قرار می‌گیرد. این ویژگی که با استفاده از فناوری مبتنی بر «Project Astra» توسعه یافته، امکان مکالمه‌های درلحظه صوتی با جمینای را فراهم می‌کند، در حالی که کاربران می‌توانند تصویر دوربین یا صفحه‌نمایش گوشی هوشمند خود را به مدل هوش مصنوعی ارسال کنند و درباره جزئیات تصویر از مدل سوال بپرسند. مثلاً با نشان دادن تصویر محتویات یخچال بپرسند با این مواد چه غذایی می‌توان درست کرد؟
گوگل همچنین اعلام کرد که در هفته‌های آینده، «Gemini Live» یکپارچگی بیشتری با سایر اپلیکیشن‌های گوگل پیدا خواهد کرد. این سرویس به‌زودی می‌تواند:
از طریق «Google Maps» مسیرها را پیشنهاد دهد؛
رویدادهایی را در «Google Calendar» ایجاد کند؛
و فهرست‌های کاری را با «Google Tasks» تنظیم کند.
در نهایت، گوگل از به‌روزرسانی سرویس «Deep Research» خبر داد؛ عامل هوش مصنوعی جمینای که برای تولید گزارش‌های پژوهشی عمیق طراحی شده است. کاربران اکنون می‌تواند فایل‌های «PDF» و تصاویر خود را در آن بارگذاری کنند تا در فرآیند تحلیل و تولید گزارش‌ها مورد استفاده قرار گیرد.
مدل «Stitch»: ابزار طراحی رابط کاربری با هوش مصنوعی
مدل «Stitch»؛ ابزاری مبتنی بر هوش مصنوعی است که به کاربران در طراحی رابط کاربری (UI) برای اپلیکیشن‌های وب و موبایل کمک می‌کند. این ابزار می‌تواند تنها با چند کلمه یا حتی یک تصویر، رابط کاربری مورد نظر را ایجاد کرده و کدهای «HTML» و «CSS» مربوط به آن را تولید کند.
در کنار آن، گوگل دسترسی به ابزار «Jules» را نیز گسترش داده است. «Jules» یک عامل هوش مصنوعی برای کمک به توسعه‌دهندگان در رفع باگ‌ها، درک کدهای پیچیده، ایجاد «Pull Request» در «GitHub» و انجام برخی وظایف برنامه‌نویسی و مدیریت «backlog» محسوب می‌شود.
رونمایی از پروژه «Mariner»
پروژه «Mariner» یک عامل هوش مصنوعی آزمایشی از سوی گوگل است که می‌تواند در وب‌سایت‌ها جست‌وجو کرده و به‌صورت خودکار با آن‌ها تعامل کند. گوگل اعلام کرد که این پروژه را به شکل قابل توجهی ارتقاء داده است؛ به‌طوری که اکنون این عامل قادر است هم‌زمان چندین وظیفه (حدود دوازده کار) را انجام دهد و به‌تدریج برای کاربران عرضه می‌شود.
برای نمونه، کاربران «Mariner» می‌توانند بلیت یک مسابقه فوتبال را خریداری کنند یا مواد غذایی سفارش دهند بدون آنکه مستقیماً وارد هیچ وب‌سایتی شوند. کافی است با عامل هوش مصنوعی گوگل گفت‌وگو کنند؛ این عامل به‌جای آن‌ها وارد سایت‌ها می‌شود، فرم‌ها را پر می‌کند و اقدامات لازم را انجام می‌دهد.
قابلیت‌های جدید پروژه «Astra»
پروژه «Astra» تجربه‌ای نوین از هوش مصنوعی چندوجهی گوگل است که قرار است زیرساخت طیفی از قابلیت‌های جدید در سرویس جست‌وجوی گوگل، اپلیکیشن جمینای و محصولات توسعه‌یافته توسط شرکت‌های دیگر باشد.
این محصول فناورانه حاصل کار تیم دیپ مایند گوگل است و با هدف نمایش توانایی‌های هوش مصنوعی در لحظه و چندوجهی طراحی شده است. گوگل اعلام کرد که در حال حاضر با همکاری شرکت‌هایی مانند سامسونگ و «Warby Parker» در حال توسعه عینک‌های مبتنی بر پروژه «Astra» است، اما هنوز زمان مشخصی برای عرضه رسمی این عینک‌ها اعلام نشده است.
حالت هوش مصنوعی (AI Mode)
گوگل این هفته از «AI Mode» نیز رونمایی می‌کند؛ قابلیتی آزمایشی در سرویس جست‌وجوی گوگل که به کاربران امکان می‌دهد سؤالات پیچیده و چندبخشی را از طریق یک رابط هوش مصنوعی مطرح کنند. این قابلیت در ابتدا برای کاربران ایالات متحده فعال خواهد شد.
قابلیت «AI Mode» از داده‌های پیچیده، به‌ویژه در حوزه‌های ورزشی و مالی پشتیبانی می‌کند و همچنین امکان استفاده از گزینه‌هایی چون «پرو مجازی لباس» را فراهم می‌سازد. در کنار آن، قابلیت «Search Live» که در تابستان امسال عرضه خواهد شد، به کاربران اجازه می‌دهد سؤالاتی بر اساس آنچه دوربین گوشی در لحظه می‌بیند مطرح کنند.
همچنین اپلیکیشن «Gmail» نخستین برنامه‌ای خواهد بود که از این ویژگی با زمینه‌سازی شخصی‌شده پشتیبانی می‌کند و می‌تواند ایمیل‌ها را با لحنی که کاربر قبلاً پاسخ‌ داده است؛ جواب دهد.
کنفرانس سه‌بعدی با هوش مصنوعی
ابزار «Beam»، که پیش‌تر با نام «Starline» شناخته می‌شد، ترکیبی از سخت‌افزار و نرم‌افزار را به کار می‌گیرد تا تجربه‌ای از مکالمه حضوری مجازی را فراهم کند؛ گویی افراد واقعاً در یک اتاق کنفرانس نشسته‌اند. این سیستم از آرایه‌ای شامل 6 دوربین و یک نمایشگر نوری سفارشی استفاده می‌کند. مدل هوش مصنوعی گوگل با تحلیل ویدئوهای ضبط‌شده از زوایای مختلف، تصویری سه‌بعدی از فرد مقابل ایجاد می‌کند. گوگل ادعا می‌کند که سرویس «Beam» دارای ردیابی حرکتی سر تقریباً بی‌نقص با دقت میلی‌متری و استریم ویدئویی با نرخ ۶۰ فریم بر ثانیه است. همچنین، زمانی که این سیستم در «Google Meet» استفاده می‌شود، قابلیت ترجمه در لحظه گفتار با حفظ صدای واقعی، لحن و حالات چهره گوینده را ارائه می‌دهد.
در همین راستا، گوگل همچنین اعلام کرد که اپلیکیشن «Google Meet» به صورت مستقل نیز به قابلیت ترجمه گفتار هم‌زمان مجهز خواهد شد.
سایر به‌روزرسانی‌های جدید هوش مصنوعی گوگل
گوگل همچنین در این رویداد فناورانه از مجموعه‌ای از به‌روزرسانی‌ها در زمینه هوش مصنوعی خبر داده است:
جمینای در مرورگر Chrome راه‌اندازی می‌شود؛ این دستیار مبتنی بر هوش مصنوعی مرورگر، به کاربران کمک می‌کند تا سریع‌تر محتوای صفحات وب را درک کنند و امور خود را با سرعت بیشتری انجام دهند.
مدل سبک و جدید «Gemma ۳n» برای اجرای روان روی گوشی‌های هوشمند، لپ‌تاپ‌ها و تبلت‌ها طراحی شده است. این مدل از صدا، متن، تصویر و ویدئو پشتیبانی می‌کند و نسخه پیش‌نمایش آن از روز سه‌شنبه، مورخ ۲۰ می، در دسترس قرار گرفته است.
در فضای «Google Workspace»، قابلیت‌های جدیدی برای «Gmail» و «Google Docs» و «Google Vids» معرفی شده‌اند:
سرویس «Gmail» اکنون دارای پاسخ‌های هوشمند شخصی‌سازی‌شده و ابزار جدیدی برای مرتب‌سازی و پاک‌سازی صندوق ورودی است.
سرویس «Google Vids» قابلیت‌های تازه‌ای برای ایجاد و ویرایش محتوای ویدئویی ارائه می‌دهد.
قابلیت «Video Overviews» (نمایش ویدئویی خلاصه‌سازی‌شده) به «NotebookLM» افزوده شده است تا کاربران بتوانند نتایج پژوهشی خود را به‌صورت ویدئویی مرور کنند.
گوگل همچنین ابزار «SynthID Detector» را معرفی کرده است؛ درگاهی برای تشخیص محتوای تولیدشده با هوش مصنوعی که از فناوری واترمارک‌گذاری «SynthID» بهره می‌برد.
مدل هوش مصنوعی «Lyria RealTime»، که زیرساخت اصلی اپلیکیشن آزمایشی تولید موسیقی گوگل است، اکنون از طریق رابط برنامه‌نویسی در دسترس توسعه‌دهندگان قرار گرفته است.
سیستم «Android Studio»: ادغام قابلیت‌های جدید هوش مصنوعی
گوگل اعلام کرده که «Android Studio» در حال دریافت مجموعه‌ای از قابلیت‌های جدید هوش مصنوعی است که از جمله آنها می‌توان به موراد زیر اشاره کرد:
قابلیت مبتنی بر هوش مصنوعی عاملیت‌محور «Jouneys» که هم‌زمان با عرضه مدل «Gemini ۲,۵ Pro» معرفی شده و به توسعه‌دهندگان کمک می‌کند مسیرهای پیچیده توسعه را طی کنند.
قابلیت «Agent Mode»: حالتی پیشرفته برای مدیریت فرآیندهای توسعه پیچیده‌تر که به صورت نیمه‌خودکار می‌تواند وظایف مختلف برنامه‌نویسی و رفع باگ را انجام دهد.
قابلیت «Crash Insights»، ویژگی بهبود یافته‌ای در پنل «App Quality Insights» است که با کمک مدل جمینای می‌تواند کد منبع اپلیکیشن را تحلیل کرده، علل احتمالی کرش‌ها را شناسایی کرده و پیشنهادهایی برای رفع آن‌ها ارائه دهد.