أعلنت شركة آبل عن نموذج لغوي كبير متعدد الوسائط يُدعى “MM1” يجمع بين فهم اللغة والصور.
يتمتع MM1 بقدرات متقدمة في معالجة النصوص والصور، مدعومًا بتدريبه على بيانات ضخمة تضم مليارات العبارات النصية والصور المصاحبة.
استفاد النموذج من دراسات تجريبية مكثفة لاختيار أفضل تصميم معماري للربط بين معالجة اللغة والصور، إضافة إلى المزج الأمثل لأنواع البيانات المختلفة.
وبحسب بحث آبل، فإن MM1 يتفوق على نماذج أخرى سابقة في أداء العديد من المهام مثل:
التعليق على الصور.
تُوليد إجابات لأسئلة حول الصور.
الاستدلال عبر مجموعة من الصور.
تقديم “تفكير بالخطوات” للوصول إلى نتائج معينة.
وأشار الباحثون إلى أنهم يأملون أن تساعد النتائج التي توصلوا إليها في تطوير نماذج لغوية متعددة الوسائط أكثر تقدمًا في المستقبل.