الأخبار التكنولوجية والاستعراضات والنصائح!

Perp-Neg: الكشف عن إمكانات الصورة مع موجهات سلبية وانتشار مستقر

ستساعدك المقالة التالية: Perp-Neg: الكشف عن إمكانات الصورة مع موجهات سلبية وانتشار مستقر

على الرغم من الإمكانات الرائعة التي أظهرتها التطورات في إنشاء الصور من النص باستخدام نماذج الانتشار ، إلا أن دقة الصور التي تم إنشاؤها في نقل المعنى المقصود لموجه النص الأصلي ليست مضمونة دائمًا ، كما وجد في الأبحاث الحديثة. يعد إنشاء الصور التي تتوافق بشكل فعال مع المحتوى الدلالي للاستعلام النصي مهمة صعبة تتطلب فهمًا عميقًا للمفاهيم النصية ومعناها في التمثيل المرئي.

نظرًا لتحديات الحصول على التعليقات التوضيحية التفصيلية ، تكافح نماذج تحويل النص إلى صورة لفهم العلاقة المعقدة بين النص والصور بشكل كامل. وبالتالي ، تميل هذه النماذج إلى إنشاء صور تشبه أزواج الصور النصية التي تحدث بشكل متكرر في مجموعات البيانات التدريبية. نتيجة لذلك ، غالبًا ما تفتقر الصور التي تم إنشاؤها إلى السمات المطلوبة أو تحتوي على سمات غير مرغوب فيها. بينما ركزت جهود البحث الأخيرة على معالجة هذه المشكلة من خلال إعادة إدخال الكائنات أو السمات المفقودة لتعديل الصور بناءً على مطالبات نصية جيدة الصياغة ، هناك استكشاف محدود لتقنيات إزالة السمات الزائدة أو توجيه النموذج صراحةً لاستبعاد الكائنات غير المرغوب فيها باستخدام مطالبات سلبية .

بناءً على هذه الفجوة البحثية ، تم اقتراح نهج جديد لمعالجة القيود الحالية للخوارزمية الحالية للمطالبات السلبية. وفقًا لمؤلفي هذا العمل ، يمكن أن يؤدي التنفيذ الحالي للمطالبات السلبية إلى نتائج غير مرضية ، لا سيما عندما يكون هناك تداخل بين الموجه الرئيسي والمحفزات السلبية.

لمعالجة هذه المشكلة ، يقترحون خوارزمية جديدة تسمى Perp-Neg ، والتي لا تتطلب أي تدريب ويمكن تطبيقها على نموذج انتشار مدرب مسبقًا. تم الإبلاغ عن العمارة أدناه.

يُشتق الاسم “Perp-Neg” من مفهوم استخدام الدرجة العمودية المقدرة بواسطة المنفض للموجه السلبي. يعكس اختيار الاسم هذا المبدأ الأساسي وراء خوارزمية Perp-Neg. على وجه التحديد ، يستخدم Perp-Neg عملية تقليل الضوضاء التي تقتصر على أن تكون متعامدة مع اتجاه الموجه الرئيسي. يلعب هذا القيد الهندسي دورًا مهمًا في تحقيق النتيجة المرجوة.

يعالج Perp-Neg بشكل فعال مسألة وجهات النظر غير المرغوب فيها في المطالبات السلبية عن طريق الحد من عملية تقليل الضوضاء لتكون عمودية على الموجه الرئيسي. إنه يضمن أن النموذج يركز على القضاء على الجوانب المتعامدة أو غير المرتبطة بالدلالات الرئيسية للموجه. بعبارة أخرى ، يتيح Perp-Neg للنموذج إزالة السمات غير المرغوب فيها أو الكائنات غير المتوافقة مع المعنى المقصود للنص مع الحفاظ على جوهر الموجه الرئيسي.

يساعد هذا النهج في تحسين الجودة الشاملة وتماسك الصور التي تم إنشاؤها ، مما يضمن محاذاة أقوى مع إدخال النص الأصلي.

يتم عرض بعض النتائج التي تم الحصول عليها عبر Perp-Neg في الشكل أدناه.

بالإضافة إلى تركيب الصور ، تم توسيع Perp-Neg أيضًا ليشمل DreamFusion ، وهو نموذج تحويل نصي إلى ثلاثي الأبعاد متقدم. علاوة على ذلك ، في هذا السياق ، أظهر المؤلفون فعاليته في التخفيف من مشكلة جانوس. تشير مشكلة Janus (أو متعددة الوجوه) إلى المواقف التي يتم فيها تقديم كائن تم إنشاؤه ثلاثي الأبعاد بشكل أساسي وفقًا لوجهة نظره الأساسية بدلاً من المنظورات الأخرى. تحدث هذه المشكلة بشكل أساسي لأن مجموعة بيانات التدريب غير متوازنة. على سبيل المثال ، عادةً ما يتم تصوير الحيوانات أو الأشخاص من وجهة نظرهم الأمامية وفقط بشكل متقطع من الجانب أو المنظر الخلفي.

كان هذا هو ملخص Perp-Neg ، وهي خوارزمية ذكاء اصطناعي جديدة تعزز الخصائص الهندسية لمساحة النتيجة لمعالجة أوجه القصور في خوارزمية المطالبات السلبية الحالية. إذا كنت مهتمًا ، يمكنك معرفة المزيد حول هذه التقنية في الروابط أدناه.