الأخبار التكنولوجية والاستعراضات والنصائح!

Google CALM: تقنية جديدة لنموذج اللغة

ستساعدك المقالة التالية: Google CALM: تقنية جديدة لنموذج اللغة

أعلنت Google عن تقنية متقدمة تسمى CALM تعمل على تسريع نماذج اللغات الكبيرة (مثل GPT-3 وLaMDA) دون المساس بمستويات الأداء.

تعد بيانات التدريب الأكبر حجمًا أفضل ولكنها تأتي بتكلفة

تتدرب نماذج اللغات الكبيرة (LLMs) على كميات كبيرة من البيانات.

يؤدي تدريب النماذج اللغوية على كميات أكبر من البيانات إلى تعلم النموذج لقدرات جديدة لم يتم التخطيط لها دائمًا.

على سبيل المثال، يمكن أن تؤدي إضافة المزيد من بيانات التدريب إلى نموذج اللغة بشكل غير متوقع إلى اكتسابه القدرة على الترجمة بين اللغات المختلفة، على الرغم من أنه لم يتم تدريبه للقيام بذلك.

تُسمى هذه القدرات الجديدة بالقدرات الناشئة، وهي قدرات لم يتم التخطيط لها بالضرورة.

ورقة بحثية مختلفة (بي دي إف) حول القدرات الناشئة تنص على:

“على الرغم من وجود العشرات من الأمثلة على القدرات الناشئة، إلا أنه لا يوجد حاليًا سوى عدد قليل من التفسيرات المقنعة لسبب ظهور هذه القدرات بالطريقة التي تظهر بها.”

لا يمكنهم تفسير سبب تعلم القدرات المختلفة.

ولكن من المعروف أن زيادة كمية البيانات اللازمة لتدريب الآلة يتيح لها اكتساب المزيد من القدرات.

الجانب السلبي لتوسيع نطاق بيانات التدريب هو أن الأمر يتطلب المزيد من القوة الحسابية لإنتاج مخرجات، مما يجعل الذكاء الاصطناعي أبطأ في الوقت الذي يقوم فيه بإنشاء مخرجات نصية (لحظة تسمى “وقت الاستدلال”).

لذا فإن المقايضة بجعل الذكاء الاصطناعي أكثر ذكاءً باستخدام المزيد من البيانات هي أن الذكاء الاصطناعي يصبح أيضًا أبطأ في وقت الاستدلال.

تصف ورقة بحث Google الجديدة (PDF) المشكلة على النحو التالي:

“لقد أدت التطورات الأخيرة في نماذج اللغات الكبيرة القائمة على المحولات (LLMs) إلى تحسينات كبيرة في الأداء عبر العديد من المهام.

وتأتي هذه المكاسب مع زيادة كبيرة في حجم النماذج، مما قد يؤدي إلى استخدام بطيء ومكلف في وقت الاستدلال.

النمذجة اللغوية التكيفية الواثقة (CALM)

توصل الباحثون في Google إلى حل مثير للاهتمام لتسريع نماذج اللغة مع الحفاظ أيضًا على الأداء العالي.

الحل، لإجراء تشبيه، يشبه إلى حد ما الفرق بين الإجابة على سؤال سهل وحل سؤال أكثر صعوبة.

سؤال سهل، مثل ما هو لون السماء، يمكن الإجابة عليه بقليل من التفكير.

لكن الإجابة الصعبة تتطلب من المرء أن يتوقف ويفكر أكثر قليلاً للعثور على الإجابة.

من الناحية الحسابية، لا تميز نماذج اللغات الكبيرة بين الجزء الصعب من مهمة إنشاء النص والجزء السهل.

يقومون بإنشاء نص لكل من الأجزاء السهلة والصعبة باستخدام قوتهم الحاسوبية الكاملة في وقت الاستدلال.

يُطلق على حل Google اسم “نمذجة اللغة التكيفية الواثقة” (CALM).

ما يفعله هذا الإطار الجديد هو تخصيص موارد أقل للأجزاء التافهة من مهمة إنشاء النص وتخصيص الطاقة الكاملة للأجزاء الأكثر صعوبة.

توضح الورقة البحثية الخاصة بـ CALM المشكلة والحل كما يلي:

“لقد أدت التطورات الأخيرة في نماذج اللغات الكبيرة القائمة على المحولات (LLMs) إلى تحسينات كبيرة في الأداء عبر العديد من المهام.

تأتي هذه المكاسب مع زيادة كبيرة في حجم النماذج، مما قد يؤدي إلى استخدام بطيء ومكلف في وقت الاستدلال.

من الناحية العملية، فإن سلسلة الأجيال التي صنعتها LLMs تتكون من مستويات متفاوتة من الصعوبة.

في حين أن بعض التنبؤات تستفيد حقًا من السعة الكاملة للنماذج، إلا أن الاستمرارات الأخرى تكون أكثر تافهة ويمكن حلها بحسابات أقل.

…بينما تعمل النماذج الكبيرة بشكل أفضل بشكل عام، فقد لا تكون هناك حاجة إلى نفس القدر من الحسابات لكل مدخلات لتحقيق أداء مماثل (على سبيل المثال، اعتمادًا على ما إذا كان الإدخال سهلاً أم صعبًا).

ما هو Google CALM وهل يعمل؟

يعمل CALM من خلال تخصيص الموارد ديناميكيًا اعتمادًا على مدى تعقيد الجزء الفردي من المهمة، وذلك باستخدام خوارزمية للتنبؤ بما إذا كان شيء ما يحتاج إلى موارد كاملة أو جزئية.

تشير الورقة البحثية إلى أنهم اختبروا النظام الجديد لمختلف مهام معالجة اللغة الطبيعية (“تلخيص النص، والترجمة الآلية، والإجابة على الأسئلة”) واكتشفوا أنهم كانوا قادرين على تسريع الاستدلال بحوالي ثلاثة أضعاف (300%) .

يوضح الرسم التوضيحي التالي مدى جودة عمل نظام CALM.

تشير المناطق القليلة باللون الأحمر إلى المكان الذي كان يتعين على الجهاز فيه استخدام طاقته الكاملة في هذا القسم من المهمة.

المناطق باللون الأخضر هي المناطق التي استخدم فيها الجهاز أقل من نصف السعة فقط.

الأحمر = السعة الكاملة/الأخضر = أقل من نصف السعة

وهذا ما تقوله الورقة البحثية حول الرسم التوضيحي أعلاه:

“يعمل CALM على تسريع عملية الإنشاء من خلال الخروج المبكر عندما يكون ذلك ممكنًا، واستخدام قدرة وحدة فك التشفير الكاملة بشكل انتقائي لعدد قليل من الرموز المميزة فقط، كما هو موضح هنا في مثال CNN/DM مع مقياس الثقة المستند إلى softmax. يستخدم Y (1) مبكرًا و Y (2) مبكرًا عتبات ثقة مختلفة للخروج المبكر.

أدناه (هكذا) النص، نورد قياس اتساق النص والمخاطر لكل من الناتجين، إلى جانب مكاسب الكفاءة.

تمثل الألوان عدد طبقات فك التشفير المستخدمة لكل رمز مميز، وتشير الظلال الخضراء الفاتحة إلى أقل من نصف إجمالي الطبقات.

يستخدم عدد قليل فقط من الرموز المميزة السعة الكاملة للنموذج (الملونة باللون الأحمر)، بينما بالنسبة لمعظم الرموز المميزة، يخرج النموذج بعد طبقة واحدة أو بضع طبقات فك تشفير (ملونة باللون الأخضر).”

واختتم الباحثون الورقة بالإشارة إلى أن تنفيذ CALM لا يتطلب سوى الحد الأدنى من التعديلات من أجل تكييف نموذج لغة كبير ليصبح أسرع.

يعد هذا البحث مهمًا لأنه يفتح الباب أمام إنشاء نماذج ذكاء اصطناعي أكثر تعقيدًا يتم تدريبها على مجموعات بيانات أكبر بكثير دون التعرض لسرعة أبطأ مع الحفاظ على مستوى أداء عالٍ.

ومع ذلك، قد يكون من الممكن أن تفيد هذه الطريقة أيضًا النماذج اللغوية الكبيرة التي يتم تدريبها على بيانات أقل أيضًا.

على سبيل المثال، يتم تدريب نماذج InstructGPT، والتي يعد ChatGPT نموذجًا شقيقًا لها، على ما يقرب من 1.3 مليار معلمة ولكنها لا تزال قادرة على التفوق في الأداء على النماذج التي تم تدريبها على معلمات أكثر بكثير.

ولاحظ الباحثون في الختام:

“بشكل عام، يتطلب إطار الحوسبة التكيفي الكامل الخاص بنا لـ LMs الحد الأدنى من التعديلات على النموذج الأساسي ويتيح تحقيق مكاسب في الكفاءة مع تلبية ضمانات الجودة الصارمة للمخرجات.”

تم نشر هذه المعلومات حول هذه الورقة البحثية للتو على مدونة Google للذكاء الاصطناعي في 16 ديسمبر 2022. الورقة البحثية نفسها مؤرخة في 25 أكتوبر 2022.

سيكون من المثير للاهتمام معرفة ما إذا كانت هذه التكنولوجيا ستشق طريقها إلى نماذج اللغات الكبيرة في المستقبل القريب.

اقرأ مشاركة مدونة Google:

تسريع إنشاء النص باستخدام النمذجة اللغوية التكيفية الواثقة (CALM)

قراءة الورقة البحثية:

النمذجة اللغوية التكيفية الواثقة (PDF)