ستساعدك المقالة التالية: تقترح أبحاث Microsoft LLMA: مسرع LLM لتسريع استدلال نموذج اللغة الكبير (LLM) مع المراجع بلا خسارة
تشكل تكاليف النشر المرتفعة مصدر قلق متزايد حيث يتم نشر نماذج الأساس الضخمة (على سبيل المثال ، GPT-3.5 / GPT-4) (OpenAI ، 2023) في العديد من السياقات العملية. على الرغم من أن التكميم والتقليم والضغط والتقطير هي طرق عامة مفيدة لخفض تكاليف خدمة LLM ، إلا أن عنق الزجاجة في كفاءة الاستدلال للنماذج التوليدية القائمة على المحولات (على سبيل المثال ، GPT) يرتبط بشكل أساسي بفك الترميز الذاتي. هذا لأنه ، في وقت الاختبار ، يجب فك الرموز المميزة للمخرجات (بالتتابع) واحدًا تلو الآخر. هذا يمثل صعوبات خطيرة لنشر LLM على نطاق واسع.
وفقًا للدراسات ، غالبًا ما يكون سياق LLM هو مصدر الرموز المميزة لإخراجها في تطبيقات العالم الحقيقي. يتكون سياق LLM عادةً من المستندات ذات الصلة بالاستعلام والمسترجعة من مجموعة خارجية كمرجع. يتكون ناتج LLM عادةً من نطاقات نصية متعددة تم اكتشافها في المرجع.
في ضوء هذا الإدراك ، تقترح مجموعة من باحثي Microsoft LLMA. يمكن لتقنية فك التشفير بالاستدلال مع المرجع أن تسرع استدلال LLM من خلال الاستفادة من التداخل بين ناتج LLM ومرجع في العديد من إعدادات العالم الحقيقي. يهدف هذا العمل إلى تسريع الاستدلال في LLM من خلال تحسين أداء فك الانحدار التلقائي.
إن تحديد امتداد النص من المرجع ، ونسخ الرموز المميزة الخاصة به إلى وحدة فك ترميز LLM ، ثم إجراء فحص متوازي فعال استنادًا إلى احتمالات رمز الإخراج هو كيفية عمل LLMA. يضمن القيام بذلك أن نتائج التوليد لا يمكن تمييزها عن نتائج طريقة فك ترميز الفانيليا الجشعة أثناء تسريع فك التشفير من خلال توفير توازي محسّن على مسرعات المتجهات مثل وحدات معالجة الرسومات.
على النقيض من خوارزميات فك التشفير السابقة الفعالة مثل فك التشفير التخميني وأخذ العينات المضاربة ، لا يتطلب LLMA نموذجًا إضافيًا لإنشاء مسودة للفحص.
تكشف التجارب على أحجام النماذج المختلفة وسيناريوهات التطبيق العملية ، بما في ذلك زيادة الاسترداد والإنشاء بمساعدة ذاكرة التخزين المؤقت ، أن نهج LLMA المقترح يحقق أكثر من تسريع ثنائي مقارنة بفك التشفير الجشع.