الأخبار التكنولوجية والاستعراضات والنصائح!

تقدم Huawei Research DiffFit لضبط نماذج الانتشار الكبيرة بكفاءة

ستساعدك المقالة التالية: تقدم Huawei Research DiffFit لضبط نماذج الانتشار الكبيرة بكفاءة

أحد أهم التحديات في التعلم الآلي هو نمذجة التوزيعات الاحتمالية المعقدة. تهدف النماذج الاحتمالية للانتشار DPMs إلى تعلم معكوس عملية عشوائية محددة جيدًا تدمر المعلومات تدريجيًا.

توليف الصور وإنتاج الفيديو والتحرير ثلاثي الأبعاد هي بعض المجالات التي أظهرت فيها نماذج تقليل التشويش الاحتمالية للنشر (DDPMs) قيمتها. نتيجة لأحجام المعلمات الكبيرة وخطوات الاستدلال المتكررة لكل صورة ، تتحمل DDPMs الحديثة تكاليف حسابية عالية. في الواقع ، لا يتمتع جميع المستخدمين بإمكانية الوصول إلى الوسائل المالية الكافية لتغطية تكلفة الحساب والتخزين. لذلك ، من الأهمية بمكان التحقيق في استراتيجيات التخصيص الفعال لنماذج الانتشار الكبيرة المتاحة للجمهور والمدربة مسبقًا للتطبيقات الفردية.

تستخدم دراسة جديدة أجراها باحثو Huawei Noah’s Ark Lab محول Diffusion كأساس وتقدم DiffFit ، وهي تقنية ضبط دقيقة ومباشرة وفعالة لنماذج الانتشار الكبيرة. أظهرت الأبحاث الحديثة في مجال البرمجة اللغوية العصبية (BitFit) أن تعديل مصطلح التحيز يمكن أن يؤدي إلى ضبط نموذج مدرب مسبقًا للمهام النهائية. أراد الباحثون تكييف استراتيجيات الضبط الفعالة هذه لتوليد الصور. يقومون أولاً بتطبيق BitFi على الفور ، ولتحسين تحجيم الميزات وقابليتها للتعميم ، يقومون بدمج عوامل القياس القابلة للتعلم لطبقات معينة من النموذج ، بقيمة افتراضية 1.0 وتعديلات خاصة بمجموعة البيانات. تشير النتائج التجريبية إلى أن تضمين الأماكن الاستراتيجية في جميع أنحاء النموذج أمر بالغ الأهمية لتحسين درجة Frechet Inception Distance (FID).

إن BitFit و AdaptFormer و LoRA و VPT ليست سوى بعض استراتيجيات الضبط الدقيق ذات الكفاءة العالية التي استخدمها الفريق وقارن بين أكثر من 8 مجموعات بيانات متلقية. فيما يتعلق بعدد المعلمات القابلة للتدريب ومقايضة FID ، تُظهر النتائج أن DiffFit يؤدي أداءً أفضل من هذه التقنيات الأخرى. بالإضافة إلى ذلك ، وجد الباحثون أيضًا أنه يمكن استخدام إستراتيجية DiffFit الخاصة بهم بسهولة لضبط نموذج الانتشار منخفض الدقة ، مما يسمح له بالتكيف مع إنتاج الصور عالية الدقة بتكلفة رخيصة ببساطة عن طريق التعامل مع الصور عالية الدقة باعتبارها صورة مميزة. المجال من تلك منخفضة الدقة.

تفوقت DiffFit على نماذج الانتشار الحديثة السابقة على ImageNet 512 × 512 من خلال البدء بنقطة فحص ImageNet 256 × 256 التي تم اختبارها مسبقًا وصقل DIT لـ 25 حقبة فقط. يتفوق DiffFit على نموذج DiT-XL / 2-512 الأصلي (الذي يحتوي على 640 مليونًا من المعلمات القابلة للتدريب و 3 ملايين من التكرارات) من حيث FID مع وجود ما يقرب من 0.9 مليون معلمة قابلة للتدريب. كما يتطلب وقتًا أقل للتدريب بنسبة 30٪.

بشكل عام ، يسعى DiffFit إلى توفير نظرة ثاقبة حول الضبط الدقيق الفعال لنماذج الانتشار الأكبر من خلال إنشاء خط أساس بسيط وقوي لضبط كفاءة المعلمات في إنتاج الصور.