ستساعدك المقالة التالية: هذا الهندي لديه تصدع متعدد الوسائط
في مجال معالجة اللغة الطبيعية (NLP) ، كان الباحثون يستكشفون استخدام البيانات متعددة اللغات لتحسين أداء مجموعات البيانات الإنجليزية أحادية اللغة. أفيناش ماداسو ، مساعد باحث في جامعة نورث كارولينا ، تشابل هيل هو واحد منهم.
يهدف Madasu ، الذي يعمل عادةً مع النماذج متعددة الوسائط ، إلى تحسين أداء استرجاع الفيديو من خلال الاستفادة من نقل المعرفة متعدد اللغات. قال: “يمكن أن تكون البيانات متعددة اللغات بمثابة زيادة قوية للنماذج أحادية اللغة ، ولكن إنشاء مثل هذه البيانات يتطلب عمالة مكثفة”. للتغلب على هذا ، استخدم الباحثون نماذج ترجمة آلية حديثة لترجمة التسميات التوضيحية للنص الإنجليزي إلى لغات أخرى ، وإنشاء بيانات عالية الجودة متعددة اللغات لا تتطلب تصنيفًا بشريًا.
“لقد تم تجاهل هذه المشكلة في المجالات السابقة خاصة في الإعداد متعدد الوسائط” ، كما يقول Madasu وشرع في معالجة هذه الفجوة.
الإنجليزية إلى أي لغة أخرى
يقترح Madasu نموذجًا يعتمد على نموذج OpenAI متعدد الوسائط CLIP للتكيف الفعال لنقل المعرفة متعدد اللغات. أخذ النموذج الذي صممه Madasu وفريقه مقطع فيديو وتعليقات توضيحية باللغة الإنجليزية وتعليقات نصية متعددة اللغات كمدخلات واستخراج تمثيلات نصية فيديو مشتركة منها. بعد ذلك ، قدموا كتلة تشفير مزدوجة عبر الوسائط (DCM) التي درست أوجه التشابه بين تمثيلات النص الإنجليزي وتمثيلات الفيديو ، بالإضافة إلى الارتباط بين تمثيلات الفيديو وتمثيل النص متعدد اللغات.
في مساحة التضمين المشتركة ، تعلم نموذجهم معلومات سياقية مهمة من تمثيلات متعددة اللغات غير موجودة في تمثيلات النص باللغة الإنجليزية. هذا الفهم بأن النموذج المكتسب يعمل بشكل فعال كنقل للمعرفة. تمكن فريق Madasu بعد ذلك من التحقق من صحة أداء نموذجهم المقترح على مجموعة بيانات استرداد الفيديو مما يدل على تفوقها على النماذج الأساسية.
يوضح Madasu أن هناك أكثر من 900 لغة في العالم يمكن استخدامها في النموذج. ومع ذلك ، لا يزال الفريق يواجه تحدي نقص البيانات ، خاصة بالنسبة للغات الهندية حيث أن مجموعات البيانات الخاصة بهم نادرة. ويشير إلى أن اللغة الهندية هي الوحيدة التي لديها مجموعات بيانات كافية قابلة للاستخدام لأن تصنيف البيانات غالبًا ما يتم الاستعانة بمصادر خارجية لشركات مثل Amazon التركية الميكانيكية التي قد لا تحتوي على شروح لجميع اللغات.
معالجة ندرة البيانات
بينما تحاول شركات التكنولوجيا الكبرى مثل Google جمع المزيد من البيانات للغات الهندية في الهند ، يؤكد Madasu أن إمكانية الوصول ستظل مشكلة. ويقول إن Google شركة مقيدة لا تشارك البيانات بسهولة مع باحثين مستقلين لأنهم استثمروا في إنشاء مجموعات البيانات الخاصة بهم. يقول Madasu: “بدون الوصول إلى هذه البيانات ، لن يكون هناك أي تعليقات أو تحسينات على البيانات ، ولن يتمكن الناس من استخدامها”.
ويمضي في القول بأن أبحاث الذكاء الاصطناعي هي مشروع عام غير هادف للربح يمكن لأي شخص المشاركة فيه وتحسينه. “هذه هي الطريقة التي يعمل بها ChatGPT ، فقد تم توفيره مجانًا للجميع ثم تم جمع البيانات من المستخدمين لتحسين نفسها باستمرار ،” كما يقول. من الضروري أن تكون مجموعات البيانات هذه متاحة للجميع لأن التقدم يزدهر في المشاركة المفتوحة.
علاوة على ذلك ، فإن تصميم النماذج الكامنة وراء هذه اللغات يمثل تحديًا آخر لأنها تتطلب فهم الفروق الدقيقة والمكونات اللغوية للغات التي تختلف عن اللغة الإنجليزية. يؤكد Madasu أنه من الأهمية بمكان لمصممي النماذج فهم هذه الجوانب اللغوية والارتباطات الرمزية حتى تتمكن النماذج من التعامل مع هذه اللغات بفعالية.
ولكن بعد ذلك ، هل ماجستير في القانون هو خيارنا الوحيد؟ ألا يمكن أن يكون هناك أي طريقة أخرى يمكننا من خلالها إدخال التعددية اللغوية في الوسائط المتعددة؟ يقول Madasu أن السبب وراء شهرة LLMs هو أنك لست بحاجة إلى طريقة تدريب خاضعة للإشراف. يقول Madasu: “لذا يمكنك أخذ كميات كبيرة من البيانات للتدريب وهي تعمل إلى حد كبير مع معظم الأشياء”.
وفقًا له ، لا تتطلب LLMs غير الخاضعة للإشراف تصنيف البيانات وهذا هو سبب وجود المزيد من التركيز على استخدام هذه النماذج. ويقول: “على الرغم من وجود نماذج أخرى متاحة ، مثل النماذج الإحصائية مثل نماذج ماركوف المخفية ونماذج ماركوف تشين ، إلا أنها لا تعمل بنفس الطريقة التي تعمل بها نماذج اللغة”.
ويواصل ليشرح أن هذه النماذج الإحصائية تعتمد على الصيغ الرياضية لاشتقاق المجموعة التالية من الرموز بناءً على مجموعة الرموز السابقة. “كان التركيز على النماذج اللغوية بسبب قدرتها على التكيف والقدرة على التعلم دون أي تدريب تحت الإشراف. يمكن لهذه النماذج التعامل مع كميات كبيرة من البيانات دون الحاجة إلى تعليمات واضحة.