الأخبار التكنولوجية والاستعراضات والنصائح!

لا تتعرف نماذج اللغة على مقايضات المعرفات في Python: تستكشف ورقة AI هذه قدرة LLM على توقع الاستمرارية الصحيحة للأجزاء …

ستساعدك المقالة التالية: لا تتعرف نماذج اللغة على مقايضات المعرفات في Python: تستكشف ورقة AI هذه قدرة LLM على توقع الاستمرارية الصحيحة للأجزاء …

تتولى نماذج اللغات الكبيرة (LLMs) بسرعة دور النموذج الرئيسي لمجموعة واسعة من الأنشطة اللغوية ، بما في ذلك إنشاء واستكمال التعليمات البرمجية للكمبيوتر. أظهرت LLM أداءً محسنًا مع زيادة حجم النموذج في العديد من مهام العالم الحقيقي ، بما في ذلك مهام البرمجة. ومع ذلك ، اكتشف الباحثون مؤخرًا العديد من المهام التي تُظهر مقياسًا عكسيًا ، حيث تنخفض جودة المخرجات بدلاً من التحسن مع زيادة حجم النموذج. تتضمن مهام القياس العكسي عادةً التحيزات الاجتماعية ، حيث تلتقط النماذج الأكبر (ربما بشكل صحيح) التحيزات غير المرغوب فيها من مجموعات التدريب المنحازة أو أمثلة غير شائعة للغاية ولكنها لا تزال معروفة للغة المنطوقة.

لا تشير هذه المهام المتطرفة بالضرورة إلى أنماط فشل رئيسية للتطبيقات العملية لأنها تميل إلى أن تكون مصطنعة للغاية وقد تنطوي على براغماتية كلام غريبة أو تحتاج إلى تفكير حول المعلومات المضادة للواقع. في هذا البحث ، يقدم باحثون من جامعة إدنبرة وجامعة هيريوت وات نوعًا جديدًا من وظيفة القياس العكسي التي تتضمن إنشاء كود Python مع تغيير المعرفات الافتراضية. هذا له تداعيات عملية فورية (إعادة تعريف المعرفات الافتراضية هي تقنية Metaprogramming مستخدمة في المكتبات المعروفة) وتداعيات علمية أكثر عمومية لأنها توضح أن LLM معيبة في قدرتها على التفكير في البنية الدلالية المعقدة والمجردة للغات البرمجة و أن زيادة حجم النموذج لا يحسن هذه المشاكل بل قد يزيدها سوءًا.

تتكيف لغات البرمجة بشكل خاص مع التحليل الآلي والإبداع الإجرائي بسبب تركيبها ودلالاتها الواضحة والمحددة جيدًا. إنها مثيرة للاهتمام علميًا لأنه ، على عكس مهام البرمجة اللغوية العصبية الأخرى ، التي تحتوي على الكثير من الغموض لإنتاج أمثلة عالية الجودة تلقائيًا ، يمكن استخدامها لتوليد حالات من صعوبات الترميز تلقائيًا وتقييمها مقابل حقيقة أساسية موضوعية. بالإضافة إلى ذلك ، تعد هذه الدراسة مفيدة لمنصات هندسة البرمجيات التي تستخدم LLMs ، مثل GitHub Copilot2 ، والتي بدأ المطورون استخدامها على نطاق واسع.

في الحالات التي تكون فيها عمليات الاستمرارية المناسبة غير عادية من الناحية الإحصائية بسبب إعادة تعريف المعرفات الناتجة عن بيان وضعوه في الموجه ، قاموا بالتحقيق في قدرة النماذج اللغوية الكبيرة على توقع الاستمرارية الصحيحة لأجزاء برنامج بايثون. لا تؤدي جميع النماذج التي تم فحصها فقط أداءً ضعيفًا في هذه المهمة ، ولكن العديد من عائلات النماذج تظهر مقياسًا معكوسًا ، مما يعني أنه كلما زاد حجم النموذج ، فإنها تزداد سوءًا وليس أفضل. تشير هذه النتائج إلى أن LLM تعتمد على “التعلم المختصر” أو الارتباطات الضعيفة وغير المستقرة والمعجمية إلى حد كبير في البيانات ، بدلاً من الفهم الشامل لدلالات البيانات (في هذه الحالة ، كود Python). هذه النتائج ضرورية لتحسين المعرفة العلمية لقدرات LLM وإمكانية تطبيقها كتقنية أساسية لأدوات إنشاء الكود الآلي. قد يدرس البحث المستقبلي تأثيرات القياس على لغات البرمجة الأخرى وأحجام النماذج الأكبر.