بفضل نظام تحويل النص إلى كلام الجديد الذي طورته مايكروسوفت ومعهد ماساتشوستس للتكنولوجيا MIT ، أضافت مجموعة ضخمة من الكتب الإلكترونية المجانية ما يقرب من 5000 كتاب صوتي إلى رفوفها الرقمية بفضل الذكاء الاصطناعي
أول كتاب إلكتروني على الإطلاق: في عام 1971، مُنح مايكل إس. هارت وصولاً غير محدود تقريبًا إلى نظام الكمبيوتر بجامعة إلينوي، والذي كان واحدًا من أول 15 عقدة في ARPAnet، الشبكة التي أدت إلى ظهور الإنترنت.
وتوقعًا أنه سيكون من الممكن يومًا ما نشر المعلومات على نطاق واسع عبر أجهزة الكمبيوتر، قرر هارت استخدام بعض وقته في كتابة إعلان الاستقلال حتى يتمكن أي شخص يريد نسخة منه في المستقبل من الحصول عليه.
كان هذا أول كتاب إلكتروني في العالم، وكان بمثابة بداية مشروع جوتنبرج، وهو جهد تطوعي غير ربحي لتحويل الكتب إلى صيغة رقمية وتوزيعها مجانًا. واليوم، يتوفر أكثر من 70 ألف كتاب إلكتروني، معظمها ينتمي إلى الملكية العامة، على الموقع الإلكتروني للمشروع.
التحدي: كجزء من مهمته المتمثلة في جعل الأدب متاحًا لأكبر عدد ممكن من الأشخاص، بدأ مشروع جوتنبرج في النهاية بإضافة كتب صوتية إلى مجموعته، ولكن إنشاء هذه الملفات كان أكثر صعوبة من كتابة إعلان الاستقلال أو مسح صفحات الكتب الورقية.
وقال جريج نيوباي، المدير والرئيس التنفيذي لمؤسسة Project Gutenberg Literary Archive Foundation: “هناك طلب كبير على الكتب الصوتية، لكننا اكتشفنا أننا لم نكن جيدين في إنتاجها”. “إن إنشاء تسجيلات عالية الجودة كان يتجاوز قدرة فريقنا التطوعي.”
ما هو الجديد؟ لقد تزايدت الآن مجموعة الكتب الصوتية لمشروع جوتنبرج، حيث زادت بما يقرب من 5000 عمل، وذلك بفضل الأدوات المدعومة بالذكاء الاصطناعي التي طورتها مايكروسوفت ومعهد ماساتشوستس للتكنولوجيا.
وقال نيوباي: “عندما علمنا بهذه التقنية العصبية لتحويل النص إلى كلام، كانت الاحتمالات واضحة”. “إنها تنتج كتبًا صوتية بشكل جماعي، مما يقلل أيام العمل التطوعي إلى 30 ثانية فقط لكل كتاب.”
كيف يعمل: تحويل النص إلى كلام ليس جديدًا تمامًا، لكن الكتب الإلكترونية لمشروع جوتنبرج ليست مكتوبة بتنسيق قياسي، وستواجه الأنظمة الحالية مشكلة في تحديد الأجزاء التي لا تحتاج إلى سردها، مثل أرقام الصفحات أو جداول المحتويات.
غالبًا ما تبدو روايات تحويل النص إلى كلام نموذجية وكأنها آلية أيضًا، وهي ليست أفضل تجربة استماع “لقد أدت الأصوات المختلفة جنبًا إلى جنب مع الوتيرة العاطفية إلى إنشاء كتاب صوتي أكثر إقناعًا.”
بدأ باحثو الذكاء الاصطناعي بالتركيز على الكتب الإلكترونية المحفوظة بتنسيق HTML فقط. ثم قاموا ببناء أداة يمكنها تجميع الكتب الإلكترونية ذات الهياكل المتشابهة معًا وطوروا نظامًا يمكنه بعد ذلك تحويل الكتب في كل مجموعة إلى بنية موحدة.
سهّل هذا العمل المسبق استخراج النص من الكتاب الإلكتروني الذي ينبغي سرده، مع تجاهل الباقي.
قلها بإحساس! للتأكد من أن الصوت لن يبدو آليًا، استخدم الباحثون “مكبر صوت آلي ونظام استدلال عاطفي”. يمكن لهذا البرنامج أن ينظر إلى سياق النص للتنبؤ بكيفية تقديم السرد، وتعديل عناصر مثل النغمة والإيقاع.
ويمكنه أيضًا تحديد الوقت الذي تتحدث فيه الشخصيات المختلفة تلقائيًا واستخدام أصوات فريدة في حوارها.
قال نيوباي: “لقد أدت الأصوات المختلفة جنبًا إلى جنب مع الوتيرة العاطفية إلى إنشاء كتاب صوتي أكثر إقناعًا مما كنت ستحصل عليه من أي حل سابق”.
التطلع إلى المستقبل: في مؤتمر Interspeech 2023 في أغسطس، أظهر الباحثون كيف يمكن استخدام تقنية تحويل النص إلى كلام لإنشاء نسخة جديدة من أحد الكتب الصوتية لمشروع Gutenberg بصوت الشخص من عينة صوتية مدتها 5 ثوانٍ فقط. .
وفقًا لبيان صحفي صادر عن معهد ماساتشوستس للتكنولوجيا، فإنهم يخططون الآن “لاستكشاف ما إذا كانت هذه التكنولوجيا يمكن أن تساعد في إنشاء كتب صوتية أكثر شمولاً تعزز التواصل الشخصي بين المستمعين وأعمالهم المفضلة”.
في غضون ذلك، تقول مايكروسوفت إنها تخطط لمواصلة العمل مع Project Gutenberg للتأكد من قدرتها على تطبيق التكنولوجيا على ملفات أخرى في المستقبل، مما يساعد مجموعة الكتب الصوتية الخاصة بالمشروع على اللحاق بمكتبة الكتب الإلكترونية الخاصة بها.
الصورة الكبيرة: ربما كانت تقنية تحويل النص إلى كلام المتقدمة من Microsoft بمثابة نعمة لمشروع Gutenberg والأشخاص الذين يبحثون عن كتب صوتية مجانية، ولكن بالنسبة لمهنة التمثيل الصوتي، التي تكسب عيشها من التحدث عبر الميكروفونات، فمن المحتمل أن تشكل تهديدًا وجوديًا.
“إذا كنت ستكررني أو تقلد أي فنان آخر، فيجب أن نوافق على ذلك”.
وبصرف النظر عن احتمال فقدان وظيفتهم بسبب صوت اصطناعي بالكامل، يتعين على الممثلين أيضًا القلق بشأن استخدام العملاء السابقين لعينات من أعمالهم السابقة لاستنساخ أصواتهم لمشاريع جديدة.
تعد هذه المشكلة سببًا رئيسيًا للإضراب المستمر لاتحاد الممثلين الأمريكيين، SAG-AFTRA، حيث يبحث الممثلون عن طرق لضمان عدم طردهم من العمل بواسطة الذكاء الاصطناعي، مثل ذلك الذي يساعد مشروع جوتنبرج، وخاصة تلك التي تستخدم استنساخ أصواتهم.
قال الممثل زيكي ألتون للحاضرين في ComicCon في يوليو: “لنكن واضحين – صندوق باندورا مفتوح”. “إذا كنت ستقوم بتقليدي أو أي فنان آخر، فيجب أن نوافق على ذلك، وبعد ذلك يجب أن يتم تعويضنا عن استخدام ما يدر لنا المال”.
Freethink: via