أعلنت شركة ميتا اليوم الجمعة عما قالت إنه ثورة في الذكاء الاصطناعي التوليدي الخاص بالكلام، وذلك مع تصاعد المنافسة مع عمالقة التقنية الأخرى، مثل: جوجل، ومايكروسوفت، وأمازون.
وقالت ميتا في منشور على مدونتها إنها طورت (فويس بوكس) Voicebox، وهو نموذج ذكاء اصطناعي حديث يمكنه أداء مهام إنشاء الكلام، مثل: التحرير، وأخذ العينات، والأسلوب، وهو يمتاز بأنه يحصل على تدريب خاص على القيام بذلك من خلال التعلم في السياق.
وأوضحت عملاقة التقنية، التي تمتلك فيسبوك وإنستاجرام وواتساب وغيرها، أنه يمكن لـ (فويس بوكس) إنتاج مقاطع صوتية عالية الجودة وتحرير الصوت المسجل سابقًا، مثل: إزالة أبواق السيارات، أو نباح الكلاب، ويجري كل ذلك مع الحفاظ على المحتوى ونبرة الصوت.
ويمتاز (فويس بوكس) بأنه متعدد اللغات أيضًا ويمكنه إنتاج الكلام بست لغات.
وتعتقد ميتا أنه يمكن في المستقبل لنماذج الذكاء الاصطناعي المتعددة الأغراض، مثل: (فويس بوكس) أن تعطي أصواتًا طبيعية لمساعدين افتراضيين وشخصيات من غير اللاعبين في الميتافيرس.
وقالت الشركة إنه يمكن لهذه النماذج السماح للأشخاص الضعاف البصر بسماع رسائل مكتوبة من الأصدقاء يقرؤها الذكاء الاصطناعي بأصواتهم، ومنح منشئي المحتوى أدوات جديدة لإنشاء المقاطع الصوتية لمقاطع الفيديو وتحريرها بسهولة، وغير ذلك الكثير.
وباستخدام عينة صوتية لا تتجاوز مدتها ثانيتين، يمكن لنموذج (فويس بوكس) مطابقة نمط الصوت واستخدامه لإنشاء تقنية تحويل النص إلى كلام.
وقالت ميتا إنه يمكن لنموذج الذكاء الاصطناعي المتعدد الأغراض الجديد إعادة إنشاء جزء من الكلام قاطعته الضوضاء، أو استبدال الكلمات المنطوقة خطأً دون الحاجة إلى إعادة تسجيل الكلام بالكامل.
وعند إعطاء عينة من كلام شخص ما ومقطع من النص بالإنجليزية، أو الفرنسية، أو الألمانية، أو الإسبانية، أو البولندية، أو البرتغالية، يمكن لنموذج (فويس بوكس) قراءة النص بأي من تلك اللغات، حتى عندما يكون نموذج الكلام والنص مختلفي اللغات.
وترجو ميتا أن تُستخدم هذه الإمكانية في المستقبل لمساعدة الأشخاص على التواصل بطريقة طبيعية وحقيقية حتى لو كانوا لا يتحدثون اللغات نفسها.
وبفضل التعلم من البيانات المتنوعة، قالت الشركة إنه يمكن لنموذجها أن يولد كلامًا أكثر تمثيلًا لكيفية تحدث الناس في العالم الحقيقي وباللغات الست التي يدعمها حاليًا.
وترى ميتا أن (فويس بوكس) يُعدّ خطوة مهمة إلى الأمام في بحثها في مجال الذكاء الاصطناعي التوليدي، وهي تتطلع إلى مواصلة استكشافها في الفضاء الصوتي ورؤية كيف يعتمد الباحثون الآخرون على عملها.