توقيت القاهرة المحلي 16:02:17 آخر تحديث
  مصر اليوم -

ميتا تطلق أول نظام ترجمة الخطاب الشفهي للغة غير مكتوبة

  مصر اليوم -

  مصر اليوم - ميتا تطلق أول نظام ترجمة الخطاب الشفهي للغة غير مكتوبة

ميتا
واشنطن ـ مصر اليوم

ركزت ترجمة الذكاء الاصطناعي على اللغات المكتوبة فقط، لكن من بين أكثر من 7 آلاف لغة حية، فإن أكثر من 40% من اللغات تعد لغات شفهية ومنطوقة في المقام الأول، وليس لديها نظام قياسي أو معروف على نطاق واسع للكتابة. 
 
يركز مشروع مترجم الخطاب الشفهي العالمي (UST) من ميتا على تطوير أنظمة ذكاء اصطناعي توفر ترجمة من-الخطاب-إلى-الخطاب (speech-to-speech) الفورية عبر جميع اللغات، حتى اللغات المنطوقة بشكل أساسي. 
 
القدرة على التحدث إلى البشر بلغات مختلفة دون الحاجة لقضاء سنوات من الدراسة هو حلم طال انتظاره. 
 
يمكن أن تساعد الاتصالات المنطوقة في كسر الحواجز وجمع البشر معاً أينما كانوا - حتى في الميتافيرس، لقد اتخذنا خطوة أخرى نحو هذا الهدف مع UST، وهو أول نظام ترجمة من الخطاب-إلى-الخطاب مدعوم بالذكاء الاصطناعي تم تطويره للغة غير مكتوبة.
 
وأشارت ميتا لنا ذكرته في فعالية Meta Connect هذا الشهر، حيث قام باحثونا بالذكاء الاصطناعي ببناء أنظمة ترجمة مفتوحة المصدر للغة الهوكين، وهي واحدة من اللغات الرسمية في تايوان، ولكنها تفتقر إلى شكل قياسي مكتوب.
 
 تسمح هذه التقنية للمتحدثين بلغة الهوكين بإجراء محادثات مع الأشخاص الذين يتحدثون الإنجليزية. لتطوير نظام الترجمة الجديد هذا والمخصص للخطاب الشفهي فقط، كان على باحثي الذكاء الاصطناعي في ميتا التغلب على العديد من التحديات في أنظمة الترجمة الآلية التقليدية، بما في ذلك جمع البيانات، تصميم النماذج، والتقييم. 

التغلب على تحديات البيانات
كان جمع البيانات الكافية عقبة كبيرة واجهناها عند الشروع في بناء نظام ترجمة الهوكين. الهوكين هي ما يعرف باسم لغة ناقصة الموارد، مما يعني أنه لا توجد إمدادات كافية من بيانات التدريب المتاحة بسهولة، مقارنة بالإسبانية أو الإنجليزية على سبيل المثال. بالإضافة إلى ذلك، هناك عدد قليل نسبياً من المترجمين البشريين من اللغة الإنجليزية إلى الهوكين، مما يجعل من الصعب جمع البيانات وتفسيرها لتدريب النموذج. 
 
قمنا بالاستفادة من لغة الماندرين كلغة وسيطة لبناء تسميات مستعارة، حيث قمنا أولاً بترجمة الخطاب بالإنجليزية (أو الهوكين) إلى نص بلغة الماندرين، ثم ترجمنا إلى الهوكين (أو الإنجليزية) وأضفناه إلى بيانات التدريب. حسنت هذه الطريقة بشكل كبير من أداء النموذج عبر الاستفادة من البيانات من لغة مماثلة عالية الموارد.
 
استخراج الخطاب هو نهج آخر للتدريب على زيادة البيانات. باستخدام برنامج تشفير الخطاب المدرب مسبقاً، يمكننا تشفير تضمينات خطاب الهوكين في نفس المساحة الدلالية مثل تضمين النص الإنجليزي. يمكن موائمة خطاب الهوكين مع النصوص الإنجليزية التي تتشابه تضميناتها الدلالية. نقوم أيضاً بتوليف الخطاب الإنجليزي من النصوص، مما يؤدي إلى خطاب متوازي ما بين الهوكين والإنجليزية.

نهج جديد للنمذجة
تعتمد العديد من أنظمة ترجمة الخطاب على النص المكتوب، أو هي بالأساس أنظمة تحويل الخطاب إلى نص، ولكن اللغات غير المكتوبة ليس لها أشكال قياسية مكتوبة. وهذا يعني أن إنتاج نص منسوخ كناتج ترجمة ليس منطقياً. وبالتالي، نركز على الترجمة من الخطاب إلى الخطاب. 
 
تطلب مشروعنا نهجاً متنوعاً. استخدمنا ترجمة الخطاب إلى وحدة (S2UT) لتحويل الخطاب المدخل إلى سلسلة من الوحدات الصوتية مباشرة في المسار الذي كانت ميتا قد حققت الريادة به سابقا. ثم أنشأنا أشكالاً موجية من الوحدات. بالإضافة إلى ذلك، تم اعتماد UnitY لمنظومة فك تشفير ثنائية المرور، حيث يقوم جهاز فك تشفير الممر الأول بإنشاء نص بلغة ذات صلة (الماندرين)، ويقوم جهاز فك تشفير الممر الثاني بإنشاء وحدات. 

تقييم ترجمات الهوكين
عادةً ما يتم تقييم أنظمة ترجمة الخطاب باستخدام مقياس يسمى ASR-BLEU، والذي يتضمن أولاً نسخ الخطاب المترجم إلى نص باستخدام التعرف التلقائي على الخطاب (ASR)، ثم حساب درجات BLEU (مقياس ترجمة آلية قياسي) من خلال مقارنة النص المنسوخ بنص مترجم من قبل الإنسان. ومع ذلك، فإن أحد تحديات تقييم ترجمات الخطاب للغة غير مكتوبة مثل الهوكين هو أنه لا يوجد نظام كتابة قياسي. من أجل تمكين التقييم التلقائي، قمنا بتطوير نظام ينسخ خطاب الهوكين إلى صوت موحد يسمى Tâi-lô، والذي يُمكِّنا بعد ذلك من حساب درجة BLEU على مستوى المقطع ومقارنة جودة عدة طرق مختلفة من الترجمة بسهولة.
 
بالإضافة إلى تطوير طريقة لتقييم ترجمات الخطاب بين الهوكين والإنجليزية، أنشأنا أيضاً أول مجموعة بيانات معيارية للترجمة من الخطاب إلى الخطاب ثنائي الاتجاه من الهوكين إلى الإنجليزية استناداً إلى مجموعة خطابات الهوكين تسمى التايوانية عبر تايوان. ستكون مجموعة البيانات القياسية هذه مفتوحة المصدر لتشجيع الباحثين الآخرين على العمل على ترجمة خطاب بلغة الهوكين وإحراز المزيد من التقدم في هذا المجال.
 
التطلع إلى مستقبل الترجمة
نخطط لاستخدام نظام ترجمة الهوكين الخاص بنا كجزء من مترجم خطاب عالمي، وسنتيح مصادر نموذجنا وشفرتنا وبيانات التدريب الخاصة بنا لمجتمع الذكاء الاصطناعي لتمكين الباحثين الآخرين من تطوير هذا الإنجاز. في مرحلته الحالية، يسمح نهجنا لشخص يتحدث بلغة الهوكين بالتحدث مع شخص يتحدث الإنجليزية. 
 
في حين أن النموذج لا يزال قيد التطوير ولا يمكنه ترجمة سوى جملة كاملة واحدة في كل مرة، إلا أنه خطوة نحو مستقبل تكون فيه الترجمة الفورية بين اللغات ممكنة. 
 
يمكن توسيع التقنيات التي ابتكرناها مع لغة الهوكين إلى العديد من اللغات الأخرى غير المكتوبة، والتي ستعمل في النهاية بشكل فوري. وتحقيقاً لهذه الغاية، فإننا بصدد إطلاق مصفوفة الخطاب، وهي عبارة عن مجموعة كبيرة من الترجمات من الخطاب إلى الخطاب تم استخراجها باستخدام تقنية ميتا المبتكرة لاستخراج البيانات المسماة LASER، والتي ستمكِّن الباحثين من إنشاء أنظمة الترجمة من الخطاب إلى الخطاب (S2ST) الخاصة بهم والبناء على عملنا. 
 
يحول LASER الجمل من لغات مختلفة إلى تمثيل واحد متعدد الوسائط واللغات. استخدمنا بحث التشابه واسع النطاق ومتعدد اللغات لتحديد الجمل المتشابهة في الفضاء الدلالي، أي من المحتمل أن يكون لها نفس المعنى في لغات مختلفة. لقد طبقنا LASER لبناء CCMatrix و CCAlign، القادرين على العثور على نصوص متوازية على الإنترنت. 
 
قام فريقنا مؤخراً بتوسيع LASER للعمل أيضاً مع الخطاب. من خلال إنشاء تمثيلات للخطاب والنص في نفس المساحة متعددة اللغات، يمكننا استخراج الترجمات بين الخطاب بلغة والنص بلغة أخرى - أو حتى الترجمات المباشرة من الخطاب إلى الخطاب. توفر البيانات المستخرجة من Speech Matrix ما مجموعه 418 ألف ساعة من الخطاب المتوازي الذي يغطي 272 اتجاهاُ لغويا. تم استخراج أكثر من 8,000 ساعة من خطاب الهوكين جنباً إلى جنب مع الترجمات الإنجليزية المقابلة.
 
بالإضافة إلى ذلك، فإن التطورات الأخيرة التي حققتها ميتا في مجال تعريف الخطاب غير الخاضع للإشراف (wav2vec-U) والترجمة الآلية غير الخاضعة للإشراف (mBART) ستفيد العمل المستقبلي في ترجمة المزيد من اللغات المنطوقة. مع هذا التقدم في التعلم غير الخاضع للإشراف، نثبت جدوى بناء نماذج ترجمة عالية الجودة من الخطاب إلى الخطاب دون أي تفسيرات توضيحية بشرية. وهذا يقلل بشكل كبير من متطلبات توسيع نطاق تغطية اللغات منخفضة الموارد، حيث أن العديد منها لا يحتوي على بيانات التسمية على الإطلاق.
 
يساعد الذكاء الاصطناعي الأبحاث على كسر الحواجز اللغوية في كل من العالم الحقيقي والميتافيرس. وفي المستقبل، قد لا تشكل جميع اللغات، سواء كانت مكتوبة أو غير مكتوبة، عقبة أمام التفاهم المتبادل، ونحن نتطلع إلى المساهمة في مستقبل سهولة التواصل.

قـــد يهمــــــــك أيضــــــاُ : 

ميتا تحقق إيرادات تتجاوز 2 مليار دولار في الهند

ميتا تعانى لإبقاء المستخدمين فى عالمها الافتراضى

egypttoday
egypttoday

الإسم *

البريد الألكتروني *

عنوان التعليق *

تعليق *

: Characters Left

إلزامي *

شروط الاستخدام

شروط النشر: عدم الإساءة للكاتب أو للأشخاص أو للمقدسات أو مهاجمة الأديان أو الذات الالهية. والابتعاد عن التحريض الطائفي والعنصري والشتائم.

اُوافق على شروط الأستخدام

Security Code*

 

ميتا تطلق أول نظام ترجمة الخطاب الشفهي للغة غير مكتوبة ميتا تطلق أول نظام ترجمة الخطاب الشفهي للغة غير مكتوبة



نجمات الدراما السورية يخطفن الأنظار بإطلالات راقية في حفل Joy Awards

الرياض ـ مصر اليوم

GMT 15:16 2025 الأربعاء ,14 أيار / مايو

"أرامكو" تعتزم استثمار 3.4 مليار دولار في أمريكا

GMT 12:19 2018 الإثنين ,01 تشرين الأول / أكتوبر

مصر تحصد 31 ميدالية متنوعة مع ختام بطولتي الرماية

GMT 13:55 2018 السبت ,06 تشرين الأول / أكتوبر

الهلال يستضيف الزمالك في ليلة السوبر السعودي المصري

GMT 05:15 2017 الثلاثاء ,04 تموز / يوليو

العلماء يبتكرون ستائر تخزن الطاقة الشمسية

GMT 02:21 2016 الثلاثاء ,27 أيلول / سبتمبر

تعرّف على أشهر 9 رؤساء للبرلمان المصري

GMT 18:30 2014 الخميس ,13 شباط / فبراير

ممثل سعودي بطلاً لمسلسل عُماني

GMT 08:45 2024 الجمعة ,19 كانون الثاني / يناير

برج الجوزاء تبدو ساحرا ومنفتحا

GMT 15:33 2021 الأربعاء ,10 تشرين الثاني / نوفمبر

تقنية جديدة لمساعدة الروبوتات على التكيف مع البيئة المحيطة

GMT 08:42 2019 الإثنين ,28 تشرين الأول / أكتوبر

الإعلامية ريهام سعيد تهاجم الفنانة إنجي وجدان

GMT 08:18 2019 السبت ,05 تشرين الأول / أكتوبر

تعرفي على طرق استخدام زيت الخروع لزيادة كثافة الشعر

GMT 08:02 2019 الأحد ,02 حزيران / يونيو

خطأ إملائي يضع نادين نسيب نجيم في مأزق

GMT 12:13 2019 الأربعاء ,06 آذار/ مارس

بيريز يدافع عن صلاح بعد تعرّضه للانتقادات

GMT 03:03 2019 الأربعاء ,30 كانون الثاني / يناير

أحمد عز يتعافي من إصابته في فيلم "الممر" بالعمود الفقري
 
Egypt-today

Maintained and developed by Arabs Today Group SAL
جميع الحقوق محفوظة لمجموعة العرب اليوم الاعلامية 2025 ©

Maintained and developed by Arabs Today Group SAL
جميع الحقوق محفوظة لمجموعة العرب اليوم الاعلامية 2025 ©

egypttoday egypttoday egypttoday egypttoday
egypttoday egypttoday egypttoday
egypttoday
Pearl Bldg.4th floor 4931 Pierre Gemayel Chorniche,Achrafieh Beirut- Lebanon
egypt, egypt, egypt