سباق الذكاء الاصطناعي يشتعل: «غوغل جيميناي» يتفوق و«تشات جي بي تي» يُبدع
أعلنت «غوغل» عن إطلاق نموذجها اللغوي المتطور «جيميناي 2.5 برو» Gemini 2.5 Pro الذي يُعتبر قفزة نوعية في قدرات النماذج اللغوية الكبيرة ويضع معايير جديدة للأداء والفعالية.
ويتميز هذا النموذج الأكثر تقدماً بنافذة سياق موسعة تصل إلى مليون معامل في آنٍ واحد (أكثر من 750 ألف كلمة دفعة واحدة)، مما يتيح له فهم النصوص الطويلة والمعقدة بشكل غير مسبوق. وهذا التحسين يجعله مثالياً لتحليل الوثائق الكبيرة، مثل الأبحاث العلمية والكتب واستخلاص المعلومات الهامة بدقة عالية.
ويدعم النموذج المُحدث مجموعة من المزايا تشمل التكامل مع التطبيقات والإضافات في المتصفح ورفع الملفات والتكامل مع أداة «غوغل كانفاس» Google Canvas التعاونية. وكان هذا النموذج التجريبي متاحاً سابقاً فقط لمشتركي خدمة «غوغل أدفانسد» Google Advanced المدفوعة، إلا أن الشركة بدأت بطرحه لعموم المستخدمين.
قدرات ممتدة ومتعددة الوسائط
ولا يقتصر عمل النموذج على التعامل مع النصوص فقط، بل يمتد ليشمل الصور والصوتيات وعروض الفيديو. وتفتح هذه القدرة على فهم وتحليل الوسائط المتعددة آفاقاً جديدة لتطبيقات الذكاء الاصطناعي في مجالات تشمل تحليل الصور وعروض الفيديو والتعرف على الأصوات وإنشاء محتوى مرئي وسمعي متطور.
ويمتلك النموذج كذلك قدرات توليدية متطورة تمكنه من إنشاء محتوى إبداعي متنوع، مثل القصص والشعر والموسيقى وإنتاج محتوى مرئي جذاب، مما يفتح آفاقاً جديدة للمبدعين في مجالات الفن والأدب. كما يشهد «جيميناي 2.5 برو» تحسينات كبيرة في الأداء، خاصة في مهام الفهم والاستدلال بهدف تقديم إجابات أكثر دقة وموضوعية وتحليل البيانات المعقدة بكفاءة عالية.
وتتوقع «غوغل» أن يكون لهذا النموذج تأثير كبير في مجموعة واسعة من المجالات، بما في ذلك التعليم والرعاية الصحية والأعمال، كما يمكن استخدامه لتطوير أدوات تعليمية متقدمة وتحسين التشخيص الطبي وتحليل بيانات السوق وإنشاء محتوى إخباري وتحليلي.
مستقبل التعاون بين الإنسان والذكاء الاصطناعي
وبدلاً من النظر إلى هذا النموذج كتهديد للوظائف، يمكن اعتباره كأداة متقدمة أو شريك قوي يمكن أن يساعد في أداء المهام بشكل أكثر كفاءة وفعالية. ويستطيع النموذج تولي المهام الروتينية والمتكررة مما يتيح للإنسان التركيز على المهام التي تتطلب الإبداع والتفكير النقدي.
ويمتلك النموذج القدرة على إحداث ثورة في مجال التعليم من خلال تطوير أدوات تعليمية متقدمة وتجارب تعلم مخصصة. ويمكن للذكاء الاصطناعي أن يساعد في تحليل أداء الطلاب وتحديد نقاط القوة والضعف وتوفير مواد تعليمية مخصصة لكل طالب. كما يمكن أن يكون له دور حاسم في مواجهة التحديات البيئية، مثل تغير المناخ والتلوث وفقدان التنوع البيولوجي، ويمكن استخدامه لتحليل البيانات البيئية وتطوير نماذج تنبؤية وتصميم حلول مستدامة.
العمق التقني: كيف يعمل «جيميناي 2.5 برو»؟
ويكمن جوهر قوة «جيميناي 2.5 برو» في بنيته المعمارية المتقدمة التي تعتمد على شبكات عصبية ضخمة تم تدريبها على كميات هائلة من البيانات النصية والمرئية والصوتية. ويمنح هذا التدريب المكثف النموذج القدرة على فهم العلاقات المعقدة بين الكلمات والمفاهيم واستخلاص الأنماط وتوليد استجابات دقيقة ومتماسكة.
وتستخدم «غوغل» تقنيات متطورة مثل «المحولات» Transformers و«آليات الانتباه» Attention Mechanisms لتمكين النموذج من التركيز على الأجزاء الأكثر أهمية في المدخلات، مما يحسن من قدرته على فهم السياق وتقديم استجابات ذات صلة. وبالإضافة إلى ذلك، تم تحسين عملية التدريب لتشمل تقنيات «التعلم المعزز» Reinforcement Learning مما يسمح للنموذج بتحسين أدائه بشكل مستمر.
ويتوفر النموذج الجديد عبر موقع «جيميناي»، ومن المقرر أن يصل إلى تطبيقات الهواتف الذكية التي تعمل بنظامي التشغيل «أندرويد» و«آي أو إس» قريباً جداً.
تحديثات «تشات جي بي تي»: صور إبداعية بلمسة واحدة!
من جهتها، أعلنت شركة «أوبن إيه آي» OpenAI المنافسة عن تحديثات جذرية في قدرات إنشاء الصور داخل منصة «تشات جي بي تي» ChatGPT، مما يمثل نقلة نوعية في تفاعل المستخدمين مع الذكاء الاصطناعي التوليدي. وتركز هذه التحسينات بشكل أساسي على دقة وجودة الصور المولدة، بالإضافة إلى زيادة التحكم الذي يمتلكه المستخدم في عملية الإنشاء، مما يتيح له تحقيق نتائج تتوافق بشكل أكبر مع رؤيته.
وتتضمن هذه التحديثات تطويرات في نموذج «دال-إي 3» DALL-E 3 المدمج الآن بشكل أكثر سلاسة مع واجهة «تشات جي بي تي». هذا التكامل يسمح للمستخدمين بوصف الصور التي يرغبون في إنشائها بشكل أكثر تفصيلاً، حيث يستطيع النموذج فهم التعبيرات المعقدة والمفاهيم المجردة بشكل أفضل. كما تم تحسين قدرة النموذج على التعامل مع الطلبات الدقيقة المتعلقة بالتكوين والألوان والعناصر المحددة في الصورة.
وبالإضافة إلى ذلك، قدمت «أوبن إيه آي» أدوات جديدة داخل «تشات جي بي تي» تتيح للمستخدمين تعديل الصور المولدة بشكل مباشر. ويمكن للمستخدمين الآن طلب تغييرات محددة على الصور، مثل تعديل الألوان أو إضافة عناصر أو تغيير التكوين، وذلك من خلال محادثة نصية بسيطة. هذا التفاعل الديناميكي يخفض من الحاجة إلى استخدام أدوات تحرير صور خارجية، مما يجعل عملية الإبداع أكثر سلاسة وفعالية.
وتأتي هذه التحسينات في إطار سعي الشركة المستمر لتحسين تجربة المستخدمين وتوسيع نطاق تطبيقات الذكاء الاصطناعي التوليدي. ومن المتوقع أن تساهم هذه التحديثات في جعل إنشاء الصور عبر «تشات جي بي تي» أداة قوية للمصممين والفنانين والمستخدمين العاديين على حد سواء، مما يعزز الإبداع الرقمي ويفتح آفاقاً جديدة للتعبير البصري.
وأصبحت المنصة كذلك تدعم تحويل الصور الحقيقية إلى أخرى مختلفة تشمل الرسومات اليابانية الخاص باستوديوهات «غيبلي» Studio Ghibli ومسلسل الرسومات المتحركة «عائلة سيمبسون» The Simpsons وأسلوب رسم لعبتي «ماينكرافت» Minecraft و«زيلدا» Zelda ومسلسل الدمى المتحركة The Muppets وأسلوب رسم أفلام شركة «بيكسار» Pixar وأسلوبي الفنان بيكاسو والعصر الفيكتوري، وغيرها.
ويعتمد الإصدار الجديد من واجهة «تشات جي بي تي» على نموذج «جي بي تي-4 أو» GPT-4o الذي يتيح للنظام تحليل النصوص والصور معاً ضمن نظام واحد متكامل، مما يمنحه قدرة غير مسبوقة على توليد صور أكثر تعقيداً ودقة. وعانت النماذج السابقة للذكاء الاصطناعي من مشكلات تمثلت بإدراج النصوص داخل الصور، إذ كانت النتائج غالباً غير واضحة أو غير مفهومة، لكن هذا النموذج الجديد يتفوق في هذا المجال، حيث يستطع إنشاء نصوص مقروءة بوضوح، وهو تحسن مبهر مقارنة بالإصدارات السابقة.
وعلى صعيد ذي صلة، أطلقت «أوبن إيه آي» نموذج «جي بي تي – أو1 برو» GPT-O1 Pro، وهو نموذج ذكاء اصطناعي متميز مصمم للمهام المعقدة التي تتطلب تفكيراً عميقاً واستدلالاً متقدماً. ويتميز هذا النموذج بقدرته على تخصيص المزيد من الموارد الحاسوبية لعملية الاستدلال، مما يتيح له معالجة المشكلات الصعبة بدقة وموثوقية أكبر. ويستهدف هذا النموذج المستخدمين الذين يحتاجون إلى أداء متقدم في مجالات مثل البحث العلمي والنمذجة المالية والتحليل القانوني والتشخيص الطبي وتطوير البرمجيات، ويوفر أداء محسّناً في هذه المجالات.
ويعتمد النموذج الجديد على تقنيات التعلم المعزز وسلسلة الفكر، مما يسمح له التعلم من أخطائه وتحسين أدائه مع مرور الوقت. كما أنه يخصص المزيد من الموارد الحاسوبية لمرحلة الاستدلال، مما يمكنه من «التفكير» لفترة أطول واستكشاف المزيد من الاحتمالات قبل تقديم الإجابة. ويتوفر هذا النموذج في الاشتراك المدفوع لمنصة «تشات جي بي تي» المسماة «تشات جي بي تي برو» ChatGPT Pro لقاء 150 دولاراً شهرياً لكل مليون رمز إدخال Input Token أو 600 دولار شهرياً لكل مليون رمز إخراج Output Token، وهو اشتراك مرتفع القيمة، وخصوصاً أن قاعدة بياناته المعرفية مُحدثة لغاية 30 سبتمبر (أيلول) 2023 فقط.