گوگل ادعا می کند که Gemini 1.5 می تواند تا 1 میلیون توکن ورودی، معادل حدود 4 میلیون کاراکتر یا 800000 کلمه را مدیریت کند
علی غفاری مرندی
مدل هوش مصنوعی (Gemini 1.5) نتیجه نوآوری بیوقفه گوگل در پردازش زبان طبیعی(NLP) است، شاخهای از هوش مصنوعی که با درک و تولید زبان انسان سر و کار دارد. گوگل ادعا میکند که این مدل میتواند تا یک میلیون توکن، حدود چهار میلیون کاراکتر یا ۸۰۰ هزار کلمه را در لحظه مدیریت کند که ۷۰۰ برابر بیشتر از رکورد قبلی است، یعنی مدل GPT-4 متعلق به شرکت (OpenAI) است که تنها میتواند ۱۲۸ هزار توکن را پردازش کند.
این بدان معناست که (Gemini 1.5) میتواند متنهای طولانیتر و پیچیدهتر مانند رمان، مقاله یا سخنرانی را با حفظ انسجام و کیفیت، درک و تولید کند.
همچنین به این معنی است که این مدل میتواند ورودیهای چندوجهی مانند متن، تصویر، صدا و ویدیو را مدیریت کند و خروجیهایی را در هر یک از این فرمتها تولید کند. به عنوان مثال میتوان به سوالات بر اساس یک کلیپ ویدیویی پاسخ یا یک آهنگ را بر اساس یک پیام متنی ایجاد کند.
(Gemini 1.5) تنها یک مدل نیست، بلکه خانوادههایی از مدلهایی هستند که نیاز به کاربردهای مختلف را دارند.
همهمنظورهترین مدل موسوم به (Gemini 1.5 Pro) از نظر عملکرد با Gemini 1.0 فوقالعاده قابل مقایسه است، اما از قدرت محاسباتی بسیار کمتری استفاده میکند. همین موضوع آن را برای موارد استفاده در دنیای واقعی کارآمدتر و شناساییپذیرتر میکند.
مدل (Gemini 1.5 Pro) همچنین اولین مدلی است که از تکنیکهای تکنیکی به نام ترکیبی از متخصصان (Mixture-of-Experts) یا MoE استفاده میکند که به آن اجازه میدهد تا به جای اجرای هر نوع کل مدل، مرتبطترین بخشها را به صورت پویا برای هر گزارش انتخاب کند.
«دمیس حسابیس» مدیر گوگل دیپ مایند(Google DeepMind)، بازوی تحقیقات توسعه Gemini توضیح می دهد که MoE همچنین (Gemini 1.5 Pro) را قادر می سازد تا انواع داده ها را به جای آنها در آینده، از ابتدا ادغام کند. وی افزود:
«به این ترتیب، Gemini 1.5 Pro میتواند از متن، تصاویر و صدا به طور همزمان یاد بگیرد و از همافزایی بین آنها استفاده کند»
مدل (Gemini 1.5 Pro) ابزارهای قابلتوجه «یادگیری درون متنی» را از خود نشان میدهد، به این معنی که میتوان با اطلاعات در یک زمان طولانی بدون نیاز به مکان بیشتر، مهارت دستیابی به کسب کند.
گوگل برای آزمایش این توانایی از معیار ترجمه ماشینی از یک کتاب(MTOB) استفاده کرد که ارزیابی میکند مدل چقدر میتواند از دادههای ناآشنا یاد بگیرد و هنگامی که یک کتابچه راهنمای دستور زبان برای زبان کالامانگ(Kalamang) که زبانی است که کمتر از ۲۰۰ نفر در سراسر جهان به آن صحبت میکنند، ارائه شد، این مدل یاد گرفت که زبان انگلیسی را به زبان کالامانگی در سطحی قابل درک و قابل قبول ترجمه کند.
گوگل با معرفی (Gemini 1.5) بار دیگر سطح تحقیق و توسعه هوش مصنوعی را ارتقا داد. این شرکت میگوید که (Gemini 1.5) قدرت بیشتری به محصولات و خدماتی مانند دستیار گوگل(Google Assistant)، مترجم گوگل(Google Translate) و عکسهای گوگل(Google Photos) میدهد. همچنین سکوی هوش مصنوعی مکالمهای آن موسوم به (Gemini Advanced) را تواناتر و رقابتیتر خواهد کرد.
(Gemini Advanced) در حال حاضر رقیب قدرتمندی برای ChatGPT Plus است که چتباتی پیشرو در بازار است، اما ChatGPT Plus که فقط مبتنی بر متن است، میتواند ورودیها و خروجیهای چندوجهی را مدیریت کند و ویژگیها و عملکردهای بیشتری را ارایه دهد.
گوگل تنها بازیکن در مسابقه توسعه هوش مصنوعی نیست و شرکتهای دیگری مانند آنتروپیک (Anthropic)، متا و مایکروسافت نیز در حال کار بر روی مدلهای هوش مصنوعی خود هستند که ممکن است به زودی سلطه گوگل را به چالش بکشد. در هر حال تنور جنگ هوش مصنوعی در حال داغ شدن است و (Gemini 1.5) نیز جدیدترین سلاح گوگل در این جنگ است.