الأخبار التكنولوجية والاستعراضات والنصائح!

يدمج بحث جديد للذكاء الاصطناعي الإخفاء في نماذج الانتشار لتطوير أجهزة التشفير التلقائي المقنعة للانتشار (DiffMAE): إطار خاضع للإشراف الذاتي مصمم للتعرف على الصور وتوليدها …

ستساعدك المقالة التالية: يدمج بحث جديد للذكاء الاصطناعي الإخفاء في نماذج الانتشار لتطوير أجهزة التشفير التلقائي المقنعة للانتشار (DiffMAE): إطار خاضع للإشراف الذاتي مصمم للتعرف على الصور وتوليدها …

كانت هناك رغبة طويلة الأمد في توفير البيانات المرئية بطريقة تسمح بفهم أعمق. استخدمت الأساليب المبكرة التدريب المسبق التوليدي لإنشاء شبكات عميقة لمهام التعرف اللاحقة ، بما في ذلك شبكات المعتقدات العميقة وتقليل الضوضاء التلقائية. بالنظر إلى أن النماذج التوليدية قد تولد عينات جديدة عن طريق محاكاة توزيع البيانات تقريبًا ، فمن المنطقي ، في تقليد Feynman ، أن تصل هذه النمذجة في النهاية إلى فهم دلالي للبيانات المرئية الأساسية ، وهو أمر ضروري لمهام التعرف.

وفقًا لهذه النظرية ، فإن نماذج اللغة التوليدية ، مثل المحولات العامة المدربة مسبقًا أو GPTs ، تزدهر كمتعلمين قليلو الطلقات ونماذج أساسية مدربة مسبقًا من خلال اكتساب فهم عميق للغة وقاعدة معرفية واسعة. ومع ذلك ، لم تعد الدراسات الحديثة في التدريب المسبق لتوليد الرؤية شائعة. على سبيل المثال ، أثناء استخدام عشر معلمات أكثر من خوارزميات التباين المعاصرة ، فإن BiGAN المستندة إلى GAN و iGPT الانحدار التلقائي كانا أقل من أدائهما بشكل ملحوظ. يتسبب التركيز المتنوع جزئيًا في الصعوبة: يجب أن تخصص نماذج التوليد السعة لميزات منخفضة التردد عالية المستوى ، بينما تركز نماذج التعرف بشكل أساسي على بنية الصور منخفضة التردد عالية المستوى.

بالنظر إلى هذا التباين ، لا يزال يتم تحديد ما إذا كان التدريب المسبق التوليدي ، على الرغم من جاذبيته البديهية ، يمكنه التنافس بنجاح مع خوارزميات أخرى تخضع للإشراف الذاتي في مهام التعرف النهائية. سيطرت نماذج نشر تقليل الضوضاء مؤخرًا على مجال إنتاج الصورة. تستخدم هذه النماذج طريقة بسيطة لتحسين البيانات الصاخبة بشكل متكرر. (الشكل 1) الصور الناتجة عالية الجودة بشكل مذهل ؛ والأفضل من ذلك ، أنها قد تنتج مجموعة متنوعة من العينات الفريدة. يستعرضون إمكانية التدريب المسبق التوليدي في إعداد نماذج الانتشار في ضوء هذا التقدم. أولاً ، يستخدمون تصنيف ImageNet لصقل نموذج نشر مُدرَّب مسبقًا بشكل مباشر.

يتفوق نموذج الانتشار المدرَّب مسبقًا على خوارزميات التدريب المسبق المتزامنة ذات الإشراف الذاتي مثل أجهزة التشفير التلقائي المقنعة (MAE) ، على الرغم من امتلاكه أداءً فائقًا لتوليد الصور غير المشروط. ومع ذلك ، مقارنةً بتدريب نفس البنية من الصفر ، فإن نموذج الانتشار المدرب مسبقًا يحسن التصنيف بشكل طفيف. يشمل الباحثون من Meta وجامعة John Hopkins و UCSC إخفاء نماذج الانتشار ، واستلهام الإلهام من MAE ، وإعادة صياغة نماذج الانتشار كأجهزة تشفير تلقائية (DiffMAE). يقومون ببناء مهمة التنبؤ المقنع كهدف إنشائي شرطي لتقدير توزيع البكسل للمنطقة المقنعة المشروطة على المنطقة المرئية. من خلال تعلم التراجع عن وحدات البكسل الخاصة بالبقع المقنعة بالنظر إلى البقع المرئية الأخرى ، يُظهر MAE أداءً رائعًا لتحديد الهوية.

باستخدام إطار عمل MAE ، يتعلمون النماذج باستخدام تقنية الانتشار الخاصة بهم دون إضافة أي تكاليف تدريب إضافية. يتم تعليم نموذجهم لإزالة التشويش من المدخلات عند مستويات الضوضاء المختلفة أثناء التدريب المسبق ، ويتعلم تمثيلًا قويًا للاعتراف والتوليد. فيما يتعلق بالصورة في اللوحة ، حيث يقوم النموذج بإنشاء عينات عن طريق الكشف بشكل متكرر عن ضوضاء غاوسي العشوائية ، يقومون بتقييم النموذج المدرب مسبقًا عن طريق الضبط النهائي في مهام تحديد المصب. تعود قدرة DiffMAE على إنشاء ميزات بصرية معقدة ، مثل الكائنات ، إلى طبيعة انتشارها. من المعروف أن MAE ينتج عمليات إعادة بناء ضبابية ويفتقر إلى مكونات عالية التردد. علاوة على ذلك ، يعمل DiffMAE جيدًا في الوظائف التي تتطلب التعرف على الصور والفيديو.

في هذا العمل يرون ما يلي:

(ط) يحقق DiffMAE أداءً مكافئًا لأعلى خوارزميات التعلم ذاتية الإشراف التي تركز على التعرف ، مما يجعلها طريقة تدريب مسبقة قوية لضبط مهام التعرف على المصب. يمكن أن يتفوق DiffMAE على العمل الحالي الذي يمزج MAE و CLIP عند إقرانه بخصائص من CLIP.

(2) يمكن لـ DiffMAE إنتاج صور عالية الجودة بناءً على المدخلات التي تم حجبها. على وجه الخصوص ، تبدو أجيال DiffMAE ذات مغزى أكثر وتغلبت على أفضل تقنيات الطلاء من حيث الأداء الكمي.

(3) DiffMAE قابل للتكيف بسهولة مع مجال الفيديو ، مما يوفر دقة عالية في الطلاء والتعرف على أحدث التقنيات التي تفوق الجهود التي بذلت مؤخرًا.

(4) يبرهنون على وجود علاقة بين MAE ونماذج الانتشار لأن MAE يكمل بكفاءة المرحلة الأولية من عملية الاستدلال بالانتشار. بمعنى آخر ، يعتقدون أن أداء MAE يتوافق مع الإنتاج مقابل المكافأة. كما يقومون بإجراء تحليل تجريبي شامل لتوضيح مزايا وعيوب قرارات التصميم المتعلقة بالتعرف على المصب ومهام التوليد في الرسم.