جوجل تكشف عن نموذج الذكاء الاصطناعي AudioPaLM لتحويل النصوص الصوتية إلى كلام والترجمة

أعلنت شركة جوجل عن نموذجها الجديد للذكاء الاصطناعي اللغوي المسمى AudioPaLM الذي يتمتع بدقة وسرعة عالية في الاستماع والتحدث والترجمة.

ويستند هذا النموذج الجديد بشكل رئيسي على نقاط القوة في نموذجين آخرين موجودين بالفعل وهما PaLM-2 و AudioLM. ينتمي نموذج PaLM-2 إلى نماذج اللغة الكبيرة LLMs التي تستطيع فهم ومحاكاة وتوليد النصوص بشكل يشبه اللغات البشرية، بينما يُركز نموذج AudioLM على أمور مثل الحفاظ على هوية المتحدث ونبرة الصوت (الصوتيات).

وتم تطوير نموذج AudioPaLM من قِبَل الباحثين في جوجل باستخدام تقنية الجمع بين كلا النموذجين السابق الإشارة إليهما، وذلك لتحقيق كفاءة عالية في توليد النصوص والكلام.

يمتلك النموذج الجديد AudioPaLM القدرة على القيام بعدة مهام متنوعة، من بينها الترجمة الصوتية بين لغات مختلفة مع الحفاظ على نغمة الصوت الأصلية، وتسجيل الأصوات أو الأوامر الصوتية واستعادة الصوت بلغات مختلفة.

كما يعمل النموذج على تعرّف الأصوات وتحويلها إلى نصوص، ويمكنه حتى تحويل التراكيب اللغوية الغير مألوفة بدقة عالية، وفقًا للباحثين الذين يعملون على تطوير النموذج.

ولا يزال النموذج الجديد من جوجل يخضع لعملية البحث والتطوير، ولم يتم تحديد موعد لإطلاقه للجمهور بعد.

وفي سياق متصل، أعلنت شركة ميتا سابقًا عن نموذج ذكاء اصطناعي يحمل اسم Voicebox، ويمتلك القدرة على أداء مهام إنشاء الكلام بكفاءة، مثل تحرير المقاطع الصوتية وتوليد الكلام بلغات مختلفة وغير ذلك.

جوجل تكشف عن نموذج الذكاء الاصطناعي AudioPaLM لتحويل النصوص الصوتية إلى كلام والترجمة

التعليقات

إرسال تعليق

اشترك في النشرة البريدية

عملة Pi Network: كل ما تحتاج معرفته عن مشروع العملة الرقمية

نموذج الاتصال