ابتكر باحثون في جامعة كورنيل “cornell” نوعًا جديدًا من النظارات تسمى EchoSpeech،التي يمكن ارتداؤها والتي يمكنها قراءة شفتيك، حتى لو كنت لا تتحدث بصوت عالٍ، وعلى الرغم من عدم احتوائها على كاميرا.حيث يتم التحكم بها عن طريق الهاتف الذكي والواجهة مع البرامج، وتشغيلها عن طريق إصدار الأوامر.
أصبح هذا الزوج من النظارات ذات المظهر الطبيعي، المجهز بالسونار والذكاء الاصطناعي، قادرًا على التعرف على حركات الشفاه والفم لتنفيذ ما يصل إلى 31 أمرًا، دون أن يحتاج المستخدم إلى إجراء زقزقة.
وقال تشينج تشانغ، الأستاذ المساعد لعلوم المعلومات في جامعة كورنيل: “نحن متحمسون للغاية بشأن هذا النظام لأنه يدفع المجال إلى الأمام فيما يتعلق بالأداء والخصوصية”.
“إنها صغيرة ومنخفضة الطاقة وحساسة للخصوصية، وكلها ميزات مهمة لنشر تقنيات جديدة يمكن ارتداؤها في العالم الحقيقي.”
مباشرة من الخيال العلمي: تم تطوير النظارات في مختبر “واجهات الكمبيوتر الذكية للتفاعلات المستقبلية” (أو SciFi) في جامعة كورنيل، ويمكن للنظارات، التي تسمى EchoSpeech، التحكم في الهاتف الذكي والواجهة مع البرامج، وتشغيلها عن طريق إصدار الأوامر.
بدلاً من الكاميرات – بكل حجمها وقوتها ومشاكل الخصوصية – تستخدم النظارات مكبرات صوت صغيرة الحجم لإغراق الوجه بالسونار. تلتقط الميكروفونات إشارة السونار هذه، ثم يتم إدخالها إلى خوارزمية التعلم العميق المصممة بواسطة الخيال العلمي، والتي تحدد حركات الفم ثم تتعرف عليها.
وقال رويدونغ تشانغ، طالب دكتوراه في علوم المعلومات والمؤلف الرئيسي لورقة EchoSpeech، في مقطع فيديو على موقع يوتيوب: “لاحظنا أن حركات الوجه، وخاصة حركات الشفاه، مفيدة للغاية للتعرف على الكلام الصامت”.
يتم توصيل مكبري صوت وميكروفونين بالجزء السفلي من جانبي إطار النظارات. ترتد موجات السونار الصامتة من الشفاه في اتجاهات مختلفة إلى الميكروفونات، والتي تلتقط التغييرات المختلفة في الشكل ليقوم الذكاء الاصطناعي بتقييمها.
وفقًا للباحثين، تمكنت الخوارزمية الخاصة بهم من التعرف على أنماط صدى السونار بدقة تصل إلى 95٪.
يحتاج المستخدمون إلى تدريب EchoSpeech قبل أن يتمكن من العمل، لكن النظارات يمكنها التقاط الأوامر في غضون دقائق. في فيديو يوتيوب، تعلمت EchoSpeech ثمانية أوامر لمشغل الموسيقى في أقل من دقيقتين من التدريب؛ وفي أقل من خمس دقائق من التدريب، أصبحت النظارات قادرة على التعرف على سلاسل عشوائية من الأرقام، يتم التحدث بها دون توقف.
التخلص من الكاميرا: بالنسبة لفريق كورنيل، فإن الاعتماد على الكاميرات للتعرف على الكلام الصامت يطرح عددًا من المشكلات. وبصرف النظر عن عدم جدوى ارتداء واحدة باستمرار، فإن الكاميرات تفتح مجموعة كاملة من المخاوف المتعلقة بالخصوصية لكل من مستخدميها والأشخاص من حولهم.
بالإضافة إلى عدم إمكانية تصوير كل من حولك، يقول الباحثون إن بيانات السونار التي يستخدمها EchoSpeech أصغر بكثير من بيانات الصور والفيديو، مما يسمح بمعالجتها وإرسالها مباشرة إلى الهاتف الذكي عبر البلوتوث، في الوقت الفعلي. وقال أستاذ علم المعلومات فرانسوا غيمبرتيير.
“ولأن البيانات تتم معالجتها محليًا على هاتفك الذكي بدلاً من تحميلها على السحابة، فإن المعلومات الحساسة للخصوصية لا تترك سيطرتك أبدًا.”
تعد تقنية السونار أيضًا أسهل على البطاريات من الكاميرا، حيث تعمل لمدة تصل إلى عشر ساعات.
التطلع إلى المستقبل: يبحث الفريق حاليًا في كيفية تسويق تقنية التعرف على السونار الخاصة بـ EchoSpeech، ويرى حالات الاستخدام المستقبلية بما في ذلك الأشخاص الذين يعانون من صعوبات في النطق.
قال رويدونغ تشانغ: “بالنسبة للأشخاص الذين لا يستطيعون نطق الصوت، يمكن أن تكون تقنية الكلام الصامت هذه مدخلاً ممتازًا لمركب الصوت”. “يمكن أن يعيد المرضى أصواتهم.”
via: freethink