أطلقت جوجل نظام الذكاء الاصطناعي Gemini، الذي تنافس به الشركة نموذج GPT-4 من OpenAI ، ووفقًا لما ذكرته جوجل عبر مدونتها الرسمية، فإن نظامها الجديد صُمم ليكون متعدد الوسائط حيث جرى تدريبه على أنواع مختلفة من البيانات، ثم ضُبط باستخدام بيانات إضافية لتحسين فعاليته على نحو أكبر، مما يساعد Gemini على فهم كافة أنواع المدخلات والتفكير فيها بسلاسة، والجمع بين أنواع مختلفة من المعلومات، مثل النصوص والأكواد البرمجية والصوت والصورة والفيديو.
بدأت جوجل طرح نظام الذكاء الاصطناعي في العديد من المنتجات، ومنها روبوت الدردشة الخاص بها “بارد Bard”، الذي سيعتمد على نسخة معدلة من إصدار برو، كما سيحصل هاتف بكسل 8 برو أيضًا على نموذج نانو لتنفيذ بعض المهام مثل التلخيص في تطبيق التسجيل الصوتي والرد الذكي في لوحة Gboard، كما ستضيف جوجل Gemini إلى تجربة البحث التوليدية التي أُطلقت حديثًا.
وقالت جوجل إنها ستؤجل إطلاق إصدار ألترا، لحاجته إلى المزيد من “فحوصات السلامة الواسعة النطاق”، لكنه سيكون متاحًا للتجربة المبكرة مطلع العام المقبل لبعض العملاء.
Gemini 1.0
قال الرئيس التنفيذي لشركة Google وAlphabet “ساندر بيتشاي” Sundar Pichai: يمثل كل تحول تكنولوجي فرصة لتعزيز الاكتشافات العلمية، وتسريع التقدم البشري، وتحسين الحياة. أعتقد أن التحول الذي نشهده الآن مع الذكاء الاصطناعي سيكون الأكثر عمقًا في حياتنا، وأكبر بكثير من التحول إلى الهاتف المحمول أو إلى الويب قبله. يتمتع الذكاء الاصطناعي بالقدرة على خلق الفرص – من الحياة اليومية إلى غير العادية – للناس في كل مكان. وسوف يجلب موجات جديدة من الابتكار والتقدم الاقتصادي ويدفع المعرفة والتعلم والإبداع والإنتاجية على نطاق لم نشهده من قبل.
هذا ما يثير اهتمامي: فرصة جعل الذكاء الاصطناعي مفيدًا للجميع، في كل مكان في العالم.
بعد ما يقرب من ثماني سنوات من رحلتنا كشركة تعتمد على الذكاء الاصطناعي أولاً، تتسارع وتيرة التقدم: يستخدم الملايين من الأشخاص الآن الذكاء الاصطناعي التوليدي عبر منتجاتنا للقيام بأشياء لم يتمكنوا من القيام بها حتى قبل عام، بدءًا من العثور على إجابات إلى أشياء أكثر تعقيدًا أسئلة لاستخدام أدوات جديدة للتعاون والإبداع. وفي الوقت نفسه، يستخدم المطورون نماذجنا وبنيتنا التحتية لبناء تطبيقات جديدة للذكاء الاصطناعي، وتنمو الشركات الناشئة والمؤسسات حول العالم باستخدام أدوات الذكاء الاصطناعي لدينا.
وهذا زخم لا يصدق، ومع ذلك، فإننا بدأنا فقط في خدش سطح ما هو ممكن.
نحن نتعامل مع هذا العمل بجرأة ومسؤولية. وهذا يعني أن نكون طموحين في أبحاثنا وأن نسعى إلى تحقيق القدرات التي من شأنها أن تعود بفوائد هائلة على الناس والمجتمع، مع بناء الضمانات والعمل بشكل تعاوني مع الحكومات والخبراء لمعالجة المخاطر عندما يصبح الذكاء الاصطناعي أكثر قدرة. ونحن نواصل الاستثمار في أفضل الأدوات ونماذج الأساس والبنية التحتية وتقديمها إلى منتجاتنا وإلى الآخرين، مسترشدين بمبادئ الذكاء الاصطناعي لدينا.
الآن، نحن نتخذ الخطوة التالية في رحلتنا مع Gemini، النموذج الأكثر قدرة والأكثر عمومية لدينا حتى الآن، مع الأداء المتطور عبر العديد من المعايير الرائدة. تم تحسين إصدارنا الأول، Gemini 1.0، ليناسب أحجامًا مختلفة: Ultra وPro وNano. هذه هي النماذج الأولى لعصر الجوزاء وأول إدراك للرؤية التي كانت لدينا عندما قمنا بتأسيس Google DeepMind في وقت سابق من هذا العام. يمثل هذا العصر الجديد من النماذج أحد أكبر الجهود العلمية والهندسية التي قمنا بها كشركة. أنا متحمس حقًا لما هو قادم، وللفرص التي سيفتحها الجوزاء للناس في كل مكان.
يقول ديميس هاسابيس “Demis Hassabis”، الرئيس التنفيذي والمؤسس المشارك لشركة Google DeepMind، نيابةً عن فريق Gemini
لقد كان الذكاء الاصطناعي هو محور عملي في حياتي، كما هو الحال بالنسبة للعديد من زملائي الباحثين. منذ برمجة الذكاء الاصطناعي لألعاب الكمبيوتر عندما كنت مراهقًا، وطوال سنوات عملي كباحث في علم الأعصاب أحاول فهم طريقة عمل الدماغ، كنت أؤمن دائمًا أنه إذا تمكنا من بناء آلات أكثر ذكاءً، فيمكننا تسخيرها لصالح البشرية بشكل لا يصدق. طرق.
يستمر هذا الوعد بعالم يتم تمكينه بشكل مسؤول بواسطة الذكاء الاصطناعي في دفع عملنا في Google DeepMind. لقد أردنا لفترة طويلة بناء جيل جديد من نماذج الذكاء الاصطناعي، مستوحاة من الطريقة التي يفهم بها الناس العالم ويتفاعلون معه. الذكاء الاصطناعي الذي لا يبدو وكأنه برنامج ذكي بل هو شيء مفيد وبديهي – مساعد أو مساعد خبير.
اليوم، نحن نقترب خطوة أخرى من هذه الرؤية حيث نقدم جيميني، النموذج الأكثر قدرة والأكثر عمومية الذي قمنا ببنائه على الإطلاق.
يعد Gemini نتيجة لجهود تعاونية واسعة النطاق بذلتها فرق Google، بما في ذلك زملائنا في Google Research. لقد تم بناؤه من الألف إلى الياء ليكون متعدد الوسائط، مما يعني أنه يمكنه التعميم والفهم بسلاسة والعمل عبر ودمج أنواع مختلفة من المعلومات بما في ذلك النص والتعليمات البرمجية والصوت والصورة والفيديو.
يستطيع Gemini “فهم النصوص والأكواد والصوت والصور والفيديو والتعامل معها ودمجها”. إن كونك “متعدد الوسائط بشكل أصلي” يسمح بقدرات أفضل على الفهم والتفكير والترميز.
يتضمن النهج الحالي لإنشاء نماذج متعددة الوسائط “تدريب مكونات منفصلة لطرائق مختلفة ثم ربطها معًا”. وعلى الرغم من كونها جيدة في بعض المهام، إلا أن جوجل تقول إن هذه النماذج “تواجه صعوبة في التفكير المنطقي والمفاهيمي الأكثر تعقيدًا”.
بالنسبة إلى Gemini، تم تدريب Google مسبقًا منذ البداية على أساليب مختلفة باستخدام TPU 4 وTPU v5e. أعلنت Google أيضًا عن TPU v5p (الموضح أدناه) اليوم باعتباره مسرع الذكاء الاصطناعي “الأقوى والأكثر كفاءة وقابلية للتطوير”، خاصة بالنسبة للنماذج المتقدمة.
ولإظهار قدراتها على “الاستدلال المتطور”، قامت جوجل بتجربة جيميني وهو يقوم بهضم 200 ألف ورقة بحث علمي، وتصفية الأوراق ذات الصلة، ثم تلخيص البيانات في ساعة أو نحو ذلك. البرمجة هي عمود دعم آخر، حيث يستطيع Gemini “فهم وشرح وإنشاء تعليمات برمجية عالية الجودة” في Python وJava وC++ وGo.
وقالت جوجل إن نظام Gemini سيأتي بثلاثة إصدارات مختلفة لتلبية الاحتياجات المتنوعة للمستخدمين، ويُعد إصدار “ألترا” أكبر تلك الإصدارات وأكثرها كفاءةً، وهو مصمم للمهام المعقدة، يليه إصدار “برو” الذي يمكن استخدامه على مجموعة من الأجهزة، ثم إصدار “نانو” للمهام الذي يمكن تنفيذها على جهاز واحد.
يتوفر Gemini 1.0 بثلاثة أحجام مختلفة تمتد من مراكز البيانات إلى الهواتف:
Gemini Ultra: النموذج الأكبر والأكثر قدرة على المهام المعقدة للغاية
Gemini Pro: أفضل نموذج للتوسع عبر مجموعة واسعة من المهام
Gemini Nano: النموذج الأكثر كفاءة للمهام التي تتم على الجهاز
من حيث الأداء، أظهرت جوجل أن Gemini Ultra يتفوق على GPT-4 في المعايير المستندة إلى النصوص والتي تقيس المنطق والرياضيات والرمز. تروج الشركة بشكل خاص كيف أن Gemini Ultra هو “النموذج الأول الذي يتفوق في الأداء على الخبراء البشريين في MMLU (فهم اللغة متعدد المهام الضخم)” بنسبة 90.0٪. ويستخدم هذا المعيار “مزيجًا من 57 موضوعًا مثل الرياضيات والفيزياء والتاريخ والقانون والطب والأخلاق لاختبار المعرفة العالمية وقدرات حل المشكلات”، حيث سجل عرض OpenAI 86.4%.
على جبهة الوسائط المتعددة، نرى Gemini Ultra يتفوق على GPT-4V في اختبارات الصور والفيديو والصوت، بينما نشر Google DeepMind تقريرًا فنيًا يتضمن المزيد من التفاصيل.
بفضل معايير الصور التي اختبرناها، تفوقت Gemini Ultra على النماذج الحديثة السابقة، دون مساعدة من أنظمة التعرف على أحرف الكائنات (OCR) التي تستخرج النص من الصور لمزيد من المعالجة. تسلط هذه المعايير الضوء على تعدد الأساليب الأصلية لدى الجوزاء وتشير إلى العلامات المبكرة لقدرات الجوزاء المنطقية الأكثر تعقيدًا.
بعد أن تم الإعلان عنه في I/O 2023 في مايو، قامت Google اليوم بتفصيل Gemini 1.0، وهو نموذج الأساس للجيل التالي، وستجعله متاحًا من خلال Bard.
اجراءات السلامة
يقال إن Gemini لديه “تقييمات السلامة الأكثر شمولاً لأي نموذج من نماذج Google AI حتى الآن”، مع وجود وسائل حماية جديدة لمراعاة إمكانيات الوسائط المتعددة. تعمل Google على مكافحة التحيز والسمية على وجه التحديد.
الطريقة الأولى لتجربة هذا النموذج الجديد هي من خلال “Bard with Gemini Pro”. يتم طرح هذه “النسخة المضبوطة خصيصًا” من Gemini Pro الآن، وهي توفر تفكيرًا وتخطيطًا وكتابة أكثر تقدمًا، بالإضافة إلى فهم المحتوى وتلخيصه. وصفت جوجل على وجه التحديد الأداء بأنه يتجاوز GPT 3.5 (في ستة من أصل ثمانية معايير، بما في ذلك MMLU وGSM8K)، وقالت إنها تقدم أكبر تحسين منفرد في الجودة لـ Bard منذ الإطلاق.
المنطق المتطور
يمكن أن تساعد إمكانات الاستدلال متعدد الوسائط المعقدة التي يتمتع بها Gemini 1.0 في فهم المعلومات المكتوبة والمرئية المعقدة. وهذا ما يجعله ماهرًا بشكل فريد في الكشف عن المعرفة التي قد يكون من الصعب تمييزها وسط كميات هائلة من البيانات.
إن قدرتها الرائعة على استخلاص الأفكار من مئات الآلاف من المستندات من خلال قراءة المعلومات وتصفيتها وفهمها ستساعد في تحقيق اختراقات جديدة بسرعات رقمية في العديد من المجالات من العلوم إلى التمويل.
في التقييمات العمياء التي أجراها مقيّمون خارجيون لدينا، أصبح Bard الآن برنامج الدردشة المجاني الأكثر تفضيلاً مقارنة بالبدائل الرائدة.يتم طرح Bard with Gemini Pro اليوم باللغة الإنجليزية في 170 دولة/إقليم، مع توفره في المملكة المتحدة وأوروبا “في المستقبل القريب”. في البداية، سيعمل برنامج Gemini Pro على تشغيل المطالبات النصية، مع دعم “الطرائق الأخرى قريبًا”.
الترميز المتقدم
يمكن للإصدارالأول من Gemini فهم وشرح وإنشاء تعليمات برمجية عالية الجودة بأكثر لغات البرمجة شيوعًا في العالم، مثل Python وJava وC++ وGo. إن قدرته على العمل عبر اللغات والتفكير في المعلومات المعقدة تجعله أحد النماذج الأساسية الرائدة للبرمجة في العالم.
تتفوق Gemini Ultra في العديد من معايير الترميز، بما في ذلك HumanEval، وهو معيار صناعي مهم لتقييم الأداء في مهام الترميز، وNatural2Code، مجموعة البيانات الداخلية الخاصة بنا، والتي تستخدم المصادر التي أنشأها المؤلف بدلاً من المعلومات المستندة إلى الويب.
يمكن أيضًا استخدام Gemini كمحرك لأنظمة الترميز الأكثر تقدمًا. منذ عامين قدمنا AlphaCode، أول نظام لتوليد الأكواد بالذكاء الاصطناعي يصل إلى مستوى تنافسي من الأداء في مسابقات البرمجة.
باستخدام إصدار متخصص من Gemini، أنشأنا نظامًا أكثر تقدمًا لتوليد التعليمات البرمجية، AlphaCode 2، الذي يتفوق في حل مشكلات البرمجة التنافسية التي تتجاوز البرمجة لتشمل الرياضيات المعقدة وعلوم الكمبيوتر النظرية.
وفي الوقت نفسه، سيأتي Gemini Ultra في أوائل العام المقبل. وتقوم جوجل حاليًا “بإكمال فحوصات الثقة والسلامة الشاملة”، بالإضافة إلى تحسينات النموذج، قبل التوفر على نطاق أوسع للمطورين وعملاء المؤسسات.
وسيكون متاحًا من خلال عرض “Bard Advanced” الجديد، والذي تضعه جوجل على أنه يوفر الوصول المبكر إلى نماذجها وقدراتها الأكثر تقدمًا، مثل Gemini Ultra.
خلال الأشهر المقبلة، ستتوفر Gemini على بحث Google وChrome وDuet AI والإعلانات. أظهرت الاختبارات المبكرة أن Gemini يقلل زمن وصول SGE (تجربة البحث المولدة) بنسبة 40%.
via: blog.google