الأخبار التكنولوجية والاستعراضات والنصائح!

تقدم ورقة الذكاء الاصطناعي هذه إطارًا جديدًا للانتشار قائمًا على الموجات والذي يوضح أداءً فائقًا في كل من دقة الصورة وسرعة أخذ العينات

ستساعدك المقالة التالية: تقدم ورقة الذكاء الاصطناعي هذه إطارًا جديدًا للانتشار قائمًا على الموجات والذي يوضح أداءً فائقًا في كل من دقة الصورة وسرعة أخذ العينات

تقدمت نماذج الانتشار بشكل ملحوظ وجذبت الكثير من اهتمام الدراسة على الرغم من تقديمها مؤخرًا. تعكس هذه النماذج عملية الانتشار لإنتاج مخرجات واضحة وعالية الجودة من مدخلات الضوضاء العشوائية. عبر مجموعات البيانات المختلفة ، يمكن لنماذج الانتشار أن تتفوق في الأداء على شبكات الخصومة التوليدية المتطورة (GANs) فيما يتعلق بجودة التوليد. الأهم من ذلك ، تقدم نماذج الانتشار تقنية متعددة الاستخدامات للتعامل مع العديد من أنواع الإدخال الشرطي ، بما في ذلك الخرائط الدلالية والنصوص والتمثيلات والصور ، بالإضافة إلى تغطية الوضع المحسّنة. على الرغم من استخدام هذه الأساليب في العديد من مجالات البيانات والتطبيقات الأخرى ، إلا أن وظائف إنشاء الصور تعرض أكثر النتائج إثارة.

تفتح النماذج التوليدية الجديدة القائمة على الانتشار من نص إلى صورة حقبة جديدة من الفن الرقمي القائم على الذكاء الاصطناعي وتوفر تطبيقات مثيرة للاهتمام للعديد من المجالات الأخرى من خلال تمكين المستخدمين من إنشاء صور واقعية بشكل لا يصدق إلا عن طريق إدخال الكلمات. بسبب هذه المهارة ، يمكنهم القيام بمهام مختلفة ، بما في ذلك إنتاج النص إلى صورة ، وترجمة الصورة إلى صورة ، ورسومات الصور ، واستعادة الصورة ، والمزيد. نماذج الانتشار لها وعود هائلة ولكنها تعمل ببطء شديد عيب خطير يمنعها من أن تصبح شعبية مثل شبكات GAN. يستغرق الأمر دقائق لإنشاء صورة واحدة باستخدام العمل التأسيسي لنماذج تقليل التشتيت الاحتمالية (DDPMs) ، الأمر الذي يتطلب ألف خطوة لأخذ العينات للحصول على جودة الإخراج المناسبة.

تم اقتراح عدة طرق لتقصير وقت الاستدلال ، في الغالب عن طريق تقليل عدد خطوات العينة. من خلال دمج الانتشار وشبكات GAN في نظام واحد ، حقق DiffusionGAN تقدمًا كبيرًا في تسريع سرعة الاستدلال. نتيجة لذلك ، يتم تقليل عدد خطوات أخذ العينات إلى 4 ، ولا يستغرق الأمر سوى جزء من الثانية لاستنتاج صورة 32 × 32. ومع ذلك ، فإن الطريقة السابقة الأسرع ، أبطأ بحوالي 100 مرة من GAN ، لا تزال بحاجة إلى ثوانٍ لإنشاء صورة 32 × 32.

DiffusionGAN هو الآن أسرع نموذج انتشار في السوق. ومع ذلك ، فهو أبطأ أربع مرات على الأقل من مكافئ StyleGAN ، ويستمر اختلاف السرعة في الاتساع عند رفع دقة الإخراج. لا تزال نماذج الانتشار بحاجة إلى التحضير للتطبيقات واسعة النطاق أو في الوقت الفعلي ، كما يتضح من حقيقة أن DiffusionGAN لا يزال لديه تقارب بطيء ويتطلب فترة تدريب طويلة.

يقترح باحثون من شركة VinAI استراتيجية انتشار فريدة تعتمد على المويجات لسد فجوة السرعة. يعد التحويل المويجي المنفصل ، الذي يقسم كل مدخل إلى أربعة نطاقات فرعية للمكونات منخفضة (LL) وعالية التردد (LH ، HL ، HH) ، أساس حلها. يستخدمون هذا التحويل على مستوى الميزة ومستوى الصورة. يحصلون على تسريع كبير على مستوى الصورة عن طريق تقليل الدقة المكانية بمقدار أربع مرات. على مستوى الميزة ، فإنها تؤكد على قيمة البيانات المويجة في كتل المولدات المختلفة. مع مثل هذا التصميم ، يمكنهم تحقيق زيادة كبيرة في الأداء مع تقديم عبء معالجة بسيط فقط. وهذا يمكننا من خفض فترات التدريب والاستدلال بشكل كبير مع الحفاظ على مستوى ثابت من جودة المخرجات.

مساهماتهم هي كما يلي:

• أنها توفر إطارًا فريدًا لنشر Wavelet Diffusion يستخدم مكونات عالية التردد للاحتفاظ بالجودة المرئية للنتائج المتولدة مع الاستفادة من تقليل أبعاد نطاقات Wavelet الفرعية لتسريع نماذج الانتشار.

• لزيادة متانة النماذج التوليدية وسرعة التنفيذ ، فإنها تستخدم الصورة وتحلل المويجات الفضائية.

• التدريب على أحدث طراز وسرعة الاستدلال التي توفرها Wavelet Diffusion المقترحة هي خطوة أولى نحو تمكين نماذج الانتشار في الوقت الفعلي وعالية الدقة.