تستخدم طريقة جديدة تسمى MonoXiver الذكاء الاصطناعي لإنشاء خرائط ثلاثية الأبعاد موثوقة لمحيط الكاميرا بناءً على صور ثنائية الأبعاد فقط. يمكن أن تكون هذه التكنولوجيا مفيدة بشكل خاص للملاحة في السيارات ذاتية القيادة.
التحدي: باعتبارها تمثيلات ثنائية الأبعاد لعالم ثلاثي الأبعاد، تفتقد الصور قدرًا هائلاً من المعلومات حول الأحجام الفعلية للأشياء التي تصورها، بالإضافة إلى بعدها عن الكاميرا (وبعضها البعض). تؤدي هذه المشكلات المتعلقة بالعمق والمنظور في بعض الأحيان إلى ظهور أوهام بصرية غريبة وممتعة، ولكنها تصبح مشكلة خطيرة إذا كنت بحاجة إلى التنقل في العالم الحقيقي باستخدام كاميرات ثنائية الأبعاد.
وتتمثل المشكلة بشكل خاص في السيارات ذاتية القيادة، التي يجب أن تقوم بمسح الطريق باستمرار لتتبع الأشياء المحتملة، ومسارات ومواقع السيارات الأخرى.
وبدون وجود خريطة ثلاثية الأبعاد موثوقة للمناطق المحيطة بها، فإن البرامج التي تقود المركبات تكون عرضة لارتكاب الأخطاء. وحتى الآن، كان هذا أحد العوائق الرئيسية أمام التبني الواسع النطاق لتكنولوجيا القيادة الذاتية.
هناك بالفعل عدة طرق للتغلب على المشكلة. اليوم، تتضمن إحدى التقنيات الأكثر استخدامًا دمج الصور مع LIDAR، الذي يبني خرائط ثلاثية الأبعاد عن طريق إرسال أشعة الليزر في اتجاهات متعددة، وقياس المدة التي يستغرقها الضوء للارتداد عن الأشياء المحيطة. ومع ذلك، فإن هذه التكنولوجيا مكلفة، وقد يكون من الصعب دمج الأجهزة مع تصميمات السيارات الحديثة.
تقديم MonoXiver: قام فريق من الباحثين بقيادة Xianpeng Liu في جامعة ولاية كارولينا الشمالية بتطوير حل أكثر ذكاءً. تستخدم طريقتهم المسماة MonoXiver الذكاء الاصطناعي لاستخراج المعلومات ثلاثية الأبعاد مباشرة من الصور ثنائية الأبعاد.
يبدأ نهج MonoXiver متعدد الخطوات بكاميرا أحادية بسيطة وجاهزة للاستخدام. تستخدم هذه الأجهزة عدسة واحدة لتقدير الأشكال الهندسية ثلاثية الأبعاد تقريبًا في صور ثنائية الأبعاد، استنادًا إلى إشارات الصورة بما في ذلك التظليل والإضاءة والأنماط والملمس والأحجام الظاهرة للأشياء المتشابهة المظهر.
وبناءً على هذه التقديرات، يقوم MonoXiver بعد ذلك بتحديد الأشياء المهمة في الصورة وتغليفها – مثل السيارات في الشارع – باستخدام “مربع محيط” افتراضي ثلاثي الأبعاد. تساعد المربعات في تصور المقاييس المختلفة ونسب العرض إلى الارتفاع والاتجاهات للكائنات ثلاثية الأبعاد في المشهد.
على إشارات الصورة بما في ذلك التظليل والإضاءة والأنماط والملمس والأحجام الظاهرة للكائنات المتشابهة المظهر.
مثال على المربعات المحيطة والخريطة ثلاثية الأبعاد التي تنبأت بها الخوارزمية (مظللة باللون الأحمر) مقابل بيانات الحقيقة الأرضية لمواقع السيارات (باللونين الأخضر والأزرق)
مثال على المربعات المحيطة والخريطة ثلاثية الأبعاد التي تنبأت بها الخوارزمية (باللون الأحمر) مقابل بيانات الحقيقة الأرضية لمواقع السيارات (الأخضر والأزرق). الائتمان: ليو وآخرون. 2023. “اكتشاف الأجسام أحادية العين ثلاثية الأبعاد مع تقليل الضوضاء للصندوق المحيطي ثلاثي الأبعاد بواسطة المُدرك.”
وباستخدام نماذج متخصصة، يستطيع MonoXiver أيضًا تحديد متى تتداخل هذه التفاصيل الصغيرة، والتمييز بينها عندما تكون مزدحمة أو قريبة من بعضها البعض.
أخيرًا، تحقق فريق ليو مما إذا كانت التفاصيل المشار إليها بواسطة مربعات الحدود الثانوية لـ MonoXiver تتطابق مع ما رأوه بالفعل في الصور ثنائية الأبعاد. وتضمن ذلك اختبار ما إذا كانت الصناديق الصغيرة تحتوي على أشكال وألوان وأنسجة متوافقة مع تلك الموجودة في الصندوق الأولي الأكبر.
تحسين التنقل: بعد فحص أداء MonoXiver على مجموعتي بيانات كبيرتين من الصور ثنائية الأبعاد، أثبت الباحثون باستمرار قدرته على إنشاء خرائط دقيقة ثلاثية الأبعاد لمحيطه.
وبناءً على هذا الأداء، يأمل فريق ليو الآن أن يؤدي نهجهم إلى تحويل قدرة أنظمة الذكاء الاصطناعي مثل السيارات ذاتية القيادة على التنقل في الفضاء ثلاثي الأبعاد، وإيجاد طرق آمنة وفعالة حتى في البيئات الحضرية المزدحمة.