ستساعدك المقالة التالية: تقدم شركة Salesforce AI CodeT5 +: عائلة جديدة من نماذج اللغات الكبيرة ذات التعليمات البرمجية المفتوحة مع بنية وحدة فك التشفير والتشفير
تتميز نماذج اللغات الكبيرة الحديثة (LLMs) بأداء ممتاز في قراءة الكود ومهام الإنشاء ، مما يسمح لمزيد من الأشخاص بدخول مجال برمجة الكمبيوتر الذي كان غامضًا في السابق. من الناحية المعمارية ، تستخدم LLMs البرمجية الحالية نماذج التشفير أو وحدات فك التشفير فقط ، والتي تتفوق في بعض مهام الفهم والتوليد فقط. عادةً ما تحتوي LLM التي تركز على الكود على مجموعة محدودة من أهداف التدريب المسبق ، والتي ستؤدي إلى تدهور الأداء في المهام النهائية التي تكون أقل صلة بهذه الأهداف ، وغالبًا ما تتبنى بنية تشفير فقط أو وحدة فك ترميز فقط ، والتي يمكن أن تحد من أدائها الأمثل إلى فقط مهام محددة.
يقدم فريق أبحاث الذكاء الاصطناعي في Salesforce CodeT5 +. إنها عائلة ثورية من LLMs لمؤسسة كود فك التشفير والتشفير والتي يمكن تخصيصها بسهولة لأداء جيد بشكل استثنائي في مختلف مهام تفسير الكود والتوليد. للقيام بذلك ، يزود الفريق CodeT5 + بمجموعة واسعة من أهداف التدريب المسبق على بيانات أحادية وثنائية الوسائط لتوفير رمز LLM يمكن تكييفه بسهولة مع المهام المختلفة في المراحل النهائية.
ما هو CodeT5 +
CodeT5 + عبارة عن مجموعة من النماذج اللغوية واسعة النطاق لتحليل وإنشاء الكود. يشتمل إطار العمل على مجموعة واسعة من أهداف التدريب المسبق أحادية النسق وثنائية النسق. يمكن فصل وحدات CodeT5 + وإعادة تجميعها بمرونة لتلبية احتياجات مجموعة متنوعة من تطبيقات الضبط الدقيق والتعليمات الدقيقة وضبط التعليمات.
بينما يتم تدريب وحدة فك التشفير على تقديم مخرجات متنوعة بناءً على مهام التعلم قبل التدريب ، يتعلم المشفر ترميز التمثيلات السياقية من تسلسلات الكود / النص (التسلسلات الكاملة أو الجزئية أو المقنعة الممتدة).
- تم اختبار CodeT5 + في البداية على بيانات أحادية الوسائط واسعة النطاق من منصات عامة مثل GitHub. لتعليم النموذج كيفية استرداد سياقات الكود في امتدادات الكود ، والبرامج الجزئية ، والبرامج بأكملها ، يستخدم هذا التدريب المسبق مجموعة متنوعة من الأهداف ، بما في ذلك تقليل الضوضاء ، ومهام LM السببية لوحدة فك التشفير فقط ، و seq2seq السببية LM.
- تستخدم المرحلة الثانية من التدريب المسبق البيانات ثنائية النسق ذات الشفرة النصية ، أو مجموعات من النص والرمز التي توفر دلالات دالة الكود. لتعزيز الفهم متعدد الوسائط وقدرات الإنشاء ، تم اختبار CodeT5 + هنا مسبقًا على التعلم التباين متعدد الوسائط والمطابقة ومهام LM السببية.
يمكن لـ CodeT5 + تكييف أدائها مع المهام المختلفة بفضل إجراء التدريب المسبق المكون من مرحلتين ، والذي يتضمن مهام إنشاء seq2seq وأنشطة وحدة فك التشفير فقط والمهام القائمة على الفهم.
في تحقيقاتهم التجريبية ، قارن الفريق CodeT5 + مع 20 مجموعة بيانات معيارية وأحدث كود LLMs ، بما في ذلك LaMDA و GPT و StarCoder وما إلى ذلك ، في المهام بما في ذلك إطلاق النار على الصفر ، والضبط الدقيق ، وضبط التعليمات. أثناء التنافس مع نموذج Code-cushman-001 القوي الخاص بـ OpenAI ، حقق CodeT5 + نتائج حديثة (SOTA) في مهام إنشاء رمز HumanEval بدون طلقة.
ليتم تلخيصه
CodeT5 + هي عائلة جديدة من نماذج اللغات الكبيرة مفتوحة المصدر مع بنية وحدة فك التشفير التي قد تعمل في عدة أوضاع (التشفير فقط ، وفك التشفير فقط ، وفك التشفير) لخدمة مجموعة متنوعة من تفسير الكود وأنشطة التوليد . يتم تدريب CodeT5 + باستخدام مجموعة متنوعة من مهام التدريب المسبق ، بما في ذلك تقليل الضوضاء ، ونمذجة اللغة السببية ، والتعلم التباين ، ومطابقة الكود النصي للحصول على فهم شامل لكل من بيانات نص الشفرة أحادية الوسائط وثنائية الوسائط.
يشير هذا العمل إلى أن CodeT5 + Open Code LLMs المقترحة يمكنها دعم أداء SOTA والوصول إليه عبر مجموعة واسعة من وظائف التعليمات البرمجية النهائية من خلال العمل بمرونة في أوضاع التشفير فقط ، وفك التشفير فقط ، وفك التشفير. يقوم الفريق بتزويد جميع نماذج CodeT5 + بمصادر مفتوحة لتشجيع المزيد من الدراسة لأنهم يعتقدون أن CodeTs + يمكن نشرها كنظام توليد موحد معزز بالاسترداد.