الأخبار التكنولوجية والاستعراضات والنصائح!

نظام كشف لأطر تركيب الصور النقية مثل DALL-E 2

ستساعدك المقالة التالية: نظام كشف لأطر تركيب الصور النقية مثل DALL-E 2

جديد بحث من جامعة كاليفورنيا في بيركلي طريقة لتحديد ما إذا كان الناتج من الجيل الجديد من أطر تركيب الصور – مثل Open AI DALL-E 2و Google إيماج و بارتي – يمكن اكتشافها على أنها “غير حقيقية” من خلال دراسة الهندسة والظلال والانعكاسات التي تظهر في الصور المركبة.

من خلال دراسة الصور التي تم إنشاؤها بواسطة مطالبات النص في DALL-E 2 ، وجد الباحثون أنه على الرغم من الواقعية المثيرة للإعجاب التي تتمتع بها الهندسة المعمارية ، إلا أن بعض التناقضات المستمرة تحدث فيما يتعلق بتقديم المنظور العالمي ، وإنشاء الظلال والتخلص منها ، و خاصة فيما يتعلق بتقديم الكائنات المنعكسة.

تقول الورقة:

المصدر: https://arxiv.org/pdf/2206.14617.pdf

تمثل الورقة غزوة مبكرة لما قد يصبح في النهاية خيطًا جديرًا بالملاحظة في مجتمع أبحاث رؤية الكمبيوتر – اكتشاف تركيب الصور.

منذ ظهور تقنية deepfakes في عام 2017 ، تم اكتشاف التزييف العميق (بشكل أساسي لإخراج التشفير التلقائي من الحزم مثل DeepFaceLab و تبديل الوجه) أصبح نشطة وتنافسية الشريط الأكاديمي ، مع العديد من الأوراق والمنهجيات التي تستهدف “الحكايات” المتطورة للوجوه المركبة في لقطات فيديو حقيقية.

ومع ذلك ، حتى ظهور أنظمة توليد الصور المدربة بشكل فائق النطاق مؤخرًا ، لم يشكل الناتج من أنظمة موجه النص مثل CLIP أي تهديد للوضع الراهن لـ “الواقعية”. يعتقد مؤلفو الورقة البحثية الجديدة أن هذا على وشك التغيير ، وأنه حتى التناقضات التي اكتشفوها في إخراج DALL-E 2 قد لا تحدث فرقًا كبيرًا في إمكانية إخراج الصور لخداع المشاهدين.

يذكر المؤلفون *:

تلاشي المصداقية

يتعلق أول فحص جنائي أجراه المؤلفون لمخرجات DALL-E 2 بإسقاط المنظور – الطريقة التي يجب أن يتم بها وضع الحواف المستقيمة في الكائنات والقوام القريبة بشكل موحد إلى “نقطة التلاشي”.

لاختبار اتساق DALL-E 2 في هذا الصدد ، استخدم المؤلفون DALL-E 2 لإنشاء 25 صورة مركبة للمطابخ – مساحة مألوفة ، حتى في المساكن المجهزة جيدًا ، تكون عادةً محصورة بدرجة كافية لتوفير نقاط تلاشي متعددة محتملة مجموعة من الكائنات والقوام.

من خلال فحص ناتج الموجه ، وجد الباحثون أنه على الرغم من التمثيل المقنع بشكل عام في كل حالة (باستثناء بعض القطع الأثرية الغريبة والصغيرة التي لا علاقة لها بالمنظور) ، فإن الأشياء المصورة لا تبدو أبدًا متقاربة بشكل صحيح.

لاحظ المؤلفون أنه في حين أن كل مجموعة من الخطوط المتوازية من نمط التجانب متسقة وتتقاطع عند نقطة تلاشي واحدة (أزرق في الصورة أدناه) ، فإن نقطة التلاشي للسطح المضاد (السماوي) لا تتفق مع كل من خطوط التلاشي (أحمر) ) ونقطة التلاشي المشتقة من البلاط.

لاحظ المؤلفون أنه حتى لو لم يكن السطح المضاد موازيًا للبلاط ، يجب أن تتلاشى نقطة التلاشي السماوي إلى خط التلاشي (الأحمر) المحدد بواسطة نقاط التلاشي لبلاط الأرضيات.

تقول الورقة:

الطب الشرعي الظل

كما يعلم أي شخص سبق له التعامل مع تتبع الأشعة ، فإن للظلال أيضًا نقاط تلاشي محتملة ، مما يشير إلى إضاءة أحادية أو متعددة المصادر. بالنسبة للظلال الخارجية في ضوء الشمس القاسي ، يتوقع المرء أن تتحلل الظلال عبر جميع جوانب الصورة باستمرار إلى المصدر الوحيد للضوء (الشمس).

كما هو الحال مع التجربة السابقة ، أنشأ الباحثون 25 صورة DALL-E 2 بالموجه “، بالإضافة إلى 25 صورة أخرى بالموجه”.

لاحظ الباحثون أنه عند تمثيل الظروف الغائمة ، فإن DALL-E 2 قادر على عرض الظلال المرتبطة الأكثر انتشارًا بطريقة مقنعة ومعقولة ، ربما ليس أقلها لأن هذا النوع من الظل من المرجح أن يكون أكثر انتشارًا في صور مجموعة البيانات التي عليها تم تدريب الإطار.

ومع ذلك ، وجد المؤلفون أن بعض الصور “المشمسة” كانت غير متوافقة مع مشهد مضاء من مصدر ضوء واحد.

بالنسبة للصورة أعلاه ، تم تحويل الأجيال إلى تدرج رمادي من أجل الوضوح ، وإظهار كل كائن بـ “الشمس” المخصصة له.

على الرغم من أن العارض العادي قد لا يكتشف مثل هذه الحالات الشاذة ، إلا أن بعض الصور التي تم إنشاؤها بها المزيد من الأمثلة الواضحة على “فشل الظل”:

في حين أن بعض الظلال ببساطة في المكان الخطأ ، فإن الكثير منها ، بشكل مثير للاهتمام ، يتوافق مع نوع التناقض المرئي الناتج في نمذجة CGI عندما يكون معدل العينة للضوء الافتراضي منخفضًا جدًا.

تأملات في DALL-E 2

جاءت النتائج الأكثر إهانة من حيث التحليل الجنائي عندما اختبر المؤلفون قدرة DALL-E 2 على إنشاء أسطح عاكسة للغاية ، وهو حساب مرهق أيضًا في تتبع الأشعة CGI وخوارزميات العرض التقليدية الأخرى.

من أجل هذه التجربة ، أنتج المؤلفون 25 صورة DALL-E 2 مع موجه “صورة ديناصور لعبة وانعكاسها في مرآة الغرور”.

أفاد المؤلفون أنه في جميع الحالات ، كانت الصورة المعكوسة للعبة المعروضة منفصلة بطريقة ما عن جانب لعبة الديناصورات “ الحقيقية ” وتصرفها. يذكر المؤلفون أن المشكلة كانت مقاومة للتغيرات في موجه النص ، ويبدو أنها نقطة ضعف أساسية في النظام.

يبدو أن هناك منطقًا في بعض الأخطاء – يبدو أن المثالين الأول والثالث الموجودين في الصف العلوي يظهران ديناصورًا جيدًا للغاية ، ولكن ليس معكوسًا.

تعليق المؤلفين:

قد يتم تسوية مواطن الخلل مثل هذه في نماذج تحويل النص إلى صورة في المستقبل والتي تكون قادرة على مراجعة المنطق الدلالي الكلي لمخرجاتها بشكل أكثر فعالية ، والتي ستكون قادرة على فرض قواعد مادية مجردة على المشاهد التي ، إلى حد ما ، تم تجميعها من السمات ذات الصلة بالكلمات في المساحة الكامنة للنظام.

في ضوء الاتجاه المتزايد نحو معماريات توليفية أكبر من أي وقت مضى ، يستنتج المؤلفون: