ميتا تطلق نظام Omnilingual ASR لتعرّف الكلام متعدد اللغات
يتيح النظام إضافة لغات جديدة باستخدام بضع أمثلة صوتية ونصية فقط، دون الحاجة لإعادة تدريب النموذج، مما يجعله أكثر أنظمة تعرّف الكلام قابلية للتوسّع حتى الآن.
إطلاق مفتوح المصدر بلا قيود
تؤكد ميتا أن كافة الموارد الخاصة بنظام Omnilingual ASR متاحة مجانًا تحت ترخيص Apache 2.0 المفتوح، ما يسمح باستخدام النموذج في الأبحاث والمشروعات التجارية على حد سواء. تشمل الحزمة:
- مجموعة من النماذج اللغوية.
- نموذج تمثيل صوتي متعدد اللغات مكوّن من 7 مليارات مَعلمة.
- قاعدة بيانات ضخمة تغطي أكثر من 350 لغة نادرة.
دعم شامل وتكنولوجيا متقدمة
تضم الحزمة عدة نماذج متقدمة، أبرزها:
- نماذج wav2vec 2.0 للتعلّم الذاتي من الصوتيات (من 300 مليون حتى 7 مليارات مَعلمة).
- نماذج CTC-ASR للتفريغ السريع.
- نماذج LLM-ASR التي تجمع بين مشفّر صوتي ومولّد نصي باستخدام Transformers.
- نموذج ZeroShot-ASR القادر على تعرّف لغات جديدة أثناء التشغيل دون تدريب إضافي.
أظهرت اختبارات الأداء أن النظام يحقق معدل خطأ في الحروف (CER) أقل من 10% في 78% من اللغات المدعومة، بما فيها أكثر من 500 لغة لم يسبق لأي نموذج آخر تغطيتها.
إستراتيجية ميتا الجديدة بعد Llama 4
يأتي إطلاق Omnilingual ASR بعد عام شهد تغييرات تنظيمية كبيرة داخل ميتا، خاصة بعد الإطلاق الباهت لنموذج Llama 4. وقد عُيّن ألكسندر وانغ، المؤسس السابق لشركة Scale AI، في منصب رئيس قسم الذكاء الاصطناعي لقيادة مرحلة جديدة تركز على مشاريع عملية ومفتوحة المصدر.
شراكات مجتمعية لتوسيع قاعدة البيانات
جمعت ميتا بيانات النظام بالتعاون مع جامعات ومبادرات بحثية في أفريقيا وآسيا، منها:
- مبادرة African Next Voices المدعومة من مؤسسة بيل ومليندا غيتس.
- مشروع Common Voice التابع لمؤسسة موزيلا.
- منظمة Lanfrica / NaijaVoices التي ساهمت في جمع بيانات 11 لغة أفريقية نادرة.
وشملت عملية التسجيل أصوات متحدثين محليين بمقابل مادي، مع التركيز على الحوارات الطبيعية لضمان تمثيل الثقافات المحلية.
أداء النظام والتطبيقات العملية
أكبر نموذج في المجموعة (omniASR_LLM_7B) يحتاج نحو 17 جيجابايت من ذاكرة رسومات GPU للتشغيل، في حين يمكن للنماذج الصغرى العمل في أجهزة متوسطة بقدرات فورية تقريبًا. يُظهر النظام أداءً مميزًا حتى في بيئات صاخبة أو لغات منخفضة الموارد، مما يجعله مناسبًا لتطبيقات مثل:
- المساعدات الصوتية الذكية.
- التفريغ النصي للمحتوى الصوتي والفيديو.
- إنشاء ترجمات فورية ودقيقة.
- دعم اللغات النادرة والمهددة بالانقراض.
انفتاح كامل للمطورين والشركات
تتيح ميتا للمطورين تنزيل النماذج والبيانات مباشرة من منصات مثل GitHub
Black Forest Labs تطلق Flux 2: الجيل المتقدم من نماذج توليد الصور بدقة 4 ميجابكسل
أعلنت شركة Black Forest Labs عن إطلاق الجيل الجديد من نماذجها المتقدمة لتوليد الصور تحت اس…











