يقود باحثو معهد ماساتشوستس للتكنولوجيا MIT نهجا جديدا لتدريب نماذج التعلم الآلي من خلال استخدام الصورالاصطناعية المولدة بالذكاء الاصطناعي، متجاوزين فعالية الأساليب التقليدية التي تعتمد على الصور الحقيقية.
ويكمن مفتاح هذا الإنجاز في تنفيذ StableRep، وهو نظام يستفيد من نماذج تحويل النص إلى صورة، وخاصة Stable Diffusion، لتوليد صور اصطناعية من خلال تقنية تعرف باسم “التعلم التقابلي الإيجابي المتعدد”.
أشارت ليجي فان، طالبة دكتوراه في الهندسة الكهربائية في معهد ماساتشوستس للتكنولوجيا والباحثة الرئيسية في المشروع، المنهجية قائلة إنه بدلاً من مجرد تغذية النموذج بالبيانات، تستخدم StableRep استراتيجية تعلم النموذج فهم المفاهيم عالية المستوى من خلال السياق والتحليل. التباين.
وقالت “فان” : “عندما يتم إنشاء صور متعددة، كلها من نفس النص، ويتم التعامل معها جميعًا على أنها تصوير لنفس الشيء الأساسي، فإن النموذج يتعمق بشكل أعمق في المفاهيم الكامنة وراء الصور، على سبيل المثال الكائن، وليس فقط وحدات البكسل الخاصة به”.
نظام الصور المتعددة التي تم إنشاؤها من نفس النص كأزواج إيجابية، مما يوجه النموذج للتعمق بشكل أعمق في الفهم المفاهيمي بدلاً من التركيز فقط على التفاصيل على مستوى البكسل.
أظهر هذا النهج المبتكر أداءً فائقًا للنماذج عالية المستوى التي تم تدريبها على صور حقيقية، مثل SimCLR وCLIP. يعالج StableRep التحديات المتعلقة بالحصول على البيانات في التعلم الآلي ويمثل خطوة نحو تقنيات تدريب أكثر كفاءة للذكاء الاصطناعي.
ومن خلال إنتاج صور تركيبية عالية الجودة حسب الطلب، يتمتع النظام بالقدرة على تقليل النفقات والموارد المرهقة المرتبطة بالطرق التقليدية لجمع البيانات.
وأشار فريق معهد ماساتشوستس للتكنولوجيا إلى أن تطور جمع البيانات في التعلم الآلي شهد تحديات كبيرة. بدءًا من الالتقاط اليدوي للصور في التسعينيات وحتى البحث عبر الإنترنت عن البيانات في العقد الأول من القرن الحادي والعشرين، كانت العملية كثيفة العمالة وعرضة للتناقضات.
غالبًا ما تحتوي البيانات الأولية غير المنسقة على تحيزات ولا تمثل بأمانة سيناريوهات العالم الحقيقي.
نجاح StableRepيرجع ، إلى الضبط الدقيق لـ “مقياس التوجيه” في النموذج التوليدي، مما يحقق التوازن بين التنوع والدقة في الصور الاصطناعية. تتحدى فعالية النظام المبلغ عنها فكرة أن مجموعات الصور الحقيقية الواسعة لا غنى عنها لتدريب نماذج التعلم الآلي.
يؤكد الباحثون على الحاجة إلى التحسينات المستمرة في جودة البيانات وتوليفها، مع الاعتراف بمساهمة النظام كخطوة إلى الأمام في بدائل التدريب الفعالة من حيث التكلفة للتعلم البصري.
يمثل StableRep يمثل تقدمًا كبيرًا من خلال تقليل الاعتماد على مجموعات واسعة من الصور الحقيقية، إلا أن المخاوف بشأن التحيزات الخفية في البيانات غير المنسقة وأهمية الاختيار الدقيق للنص لا تزال قائمة.
وأوضح فان إلى أن “عملنا يمثل خطوة إلى الأمام في التعلم البصري، نحو هدف تقديم بدائل تدريب فعالة من حيث التكلفة مع تسليط الضوء على الحاجة إلى التحسينات المستمرة في جودة البيانات وتوليفها”.