الأخبار التكنولوجية والاستعراضات والنصائح!

تحويل مستقبل الذكاء الاصطناعي (AI) وتوليف الصور باستخدام التشفير التلقائي المتغير العميق والموجه بدون مصنفات

ستساعدك المقالة التالية: تحويل مستقبل الذكاء الاصطناعي (AI) وتوليف الصور باستخدام التشفير التلقائي المتغير العميق والموجه بدون مصنفات

ظهرت النمذجة التوليدية العميقة كنهج قوي لتوليد صور عالية الجودة في السنوات الأخيرة. على وجه التحديد ، أتاحت التحسينات التقنية في استخدام تقنيات مثل نماذج الانتشار والانحدار التلقائي إنشاء صور مذهلة وواقعية للصور بشرط مطالبة إدخال النص. على الرغم من أن هذه النماذج تقدم أداءً رائعًا ، إلا أنها تعاني من قيود كبيرة: سرعة أخذ العينات البطيئة. تحتاج الشبكة العصبية الكبيرة إلى تقييم 50-1000 مرة لإنشاء صورة واحدة ، حيث تعتمد كل خطوة في العملية التوليدية على إعادة استخدام نفس الوظيفة. يعد عدم الكفاءة هذا عاملاً حاسمًا يجب مراعاته في سيناريوهات العالم الحقيقي ويمكن أن يمثل عقبة أمام التطبيق الواسع لهذه النماذج.

إحدى التقنيات الشائعة في هذا المجال هي أجهزة التشفير التلقائي المتغيرة العميقة (VAEs) ، والتي تجمع بين الشبكات العصبية العميقة والنمذجة الاحتمالية لتعلم تمثيلات البيانات الكامنة. يمكن بعد ذلك استخدام هذه التمثيلات لإنشاء صور جديدة مشابهة للبيانات الأصلية ولكن لها اختلافات فريدة. أتاح استخدام VAEs العميقة لتوليد الصور تقدمًا ملحوظًا في مجال إنشاء الصور.

ومع ذلك ، فإن VAEs الهرمية لم تنتج بعد صورًا عالية الجودة على مجموعات بيانات كبيرة ومتنوعة ، وهو أمر غير متوقع بشكل خاص نظرًا لعملية التوليد الهرمي ، والتي تبدو مناسبة تمامًا لإنشاء الصور. في المقابل ، أظهرت نماذج الانحدار الذاتي نجاحًا أكبر ، على الرغم من أن تحيزها الاستقرائي يتضمن توليد صور بترتيب مسح ضوئي بسيط. لذلك ، قام مؤلفو الورقة التي تمت مناقشتها في هذه المقالة بفحص العوامل المساهمة في نجاح نماذج الانحدار الذاتي ونقلوها إلى VAEs.

على سبيل المثال ، يكمن مفتاح نجاح نماذج الانحدار التلقائي في التدريب على سلسلة من الرموز المميزة للصور المضغوطة بدلاً من قيم البكسل المباشرة. من خلال القيام بذلك ، يمكنهم التركيز على تعلم العلاقات بين دلالات الصور مع تجاهل تفاصيل الصورة غير المحسوسة. ومن ثم ، على غرار نماذج الانحدار التلقائي لمساحة البكسل ، قد تركز VAEs الهرمية الحالية لمساحة البكسل في المقام الأول على تعلم الميزات الدقيقة ، مما يحد من قدرتها على التقاط التكوين الأساسي لمفاهيم الصورة.

بناءً على الاعتبارات المذكورة أعلاه ، يستغل العمل VAEs العميق من خلال الاستفادة من المساحة الكامنة لجهاز التشفير التلقائي (DAE).

يتألف هذا النهج من مرحلتين: تدريب DAE لإعادة بناء الصور من الكمون المنخفض الأبعاد ثم تدريب VAE لبناء نموذج توليدي من هذه الكامنة.

يكتسب النموذج فائدتين مهمتين من خلال تدريب VAE على الكمون المنخفض الأبعاد بدلاً من مساحة البكسل: عملية تدريب أكثر قوة وأخف وزناً. في الواقع ، الشفرة الكامنة المضغوطة أصغر بكثير من تمثيلها RGB ، لكنها تحافظ تقريبًا على جميع المعلومات الإدراكية للصورة. يعد طول الكود الأصغر مفيدًا لأنه يركز على الميزات العالمية ، والتي تتكون فقط من عدد قليل من البتات. علاوة على ذلك ، يمكن لـ VAE التركيز بالكامل على بنية الصورة لأنه يتم تجاهل التفاصيل غير المحسوسة. ثانيًا ، تقلل الأبعاد المخفّضة للمتغير الكامن من التكاليف الحسابية وتمكّن من تدريب نماذج أكبر باستخدام نفس الموارد.

علاوة على ذلك ، تستخدم نماذج الانتشار والتراجع الذاتي على نطاق واسع إرشادات خالية من المصنفات لتحسين دقة الصورة. الغرض من هذه التقنية هو تحقيق التوازن بين التنوع وجودة العينة نظرًا لأن النماذج المستندة إلى الاحتمالية الضعيفة تميل إلى إنشاء عينات لا تتوافق مع توزيع البيانات. تساعد آلية التوجيه في توجيه العينات نحو المناطق التي تتطابق بشكل وثيق مع التسمية المرغوبة من خلال مقارنة وظائف الاحتمالية المشروطة وغير المشروطة. لهذا السبب ، قام المؤلفون بتوسيع مفهوم التوجيه الخالي من المصنف إلى VAEs العميق.

تم توضيح مقارنة النتائج بين الطريقة المقترحة وأحدث الأساليب أدناه.

كان هذا ملخصًا لبنية VAEs جديدة وخفيفة الوزن وعميقة لتوليد الصور.

إذا كنت مهتمًا أو ترغب في معرفة المزيد عن إطار العمل هذا ، فيمكنك العثور على رابط للورقة وصفحة المشروع.