ستساعدك المقالة التالية: حل DALL-E 2 الفريد للمعاني المزدوجة
يتعلم أي شخص تعلم اللغة الإيطالية في وقت مبكر الانتباه إلى السياق عند وصفه ، لأن الكلمة الإيطالية لهذا العنصر المحلي الدنيوي لها طابع NSFW للغاية المعنى الثاني كفعل*. على الرغم من أننا نتعلم في وقت مبكر فصل رسم الخرائط الدلالية وقابلية التطبيق (المناسبة) للكلمات ذات المعاني المتعددة ، فهذه ليست مهارة يسهل نقلها إلى أنظمة تركيب الصور الفائقة النطاق مثل DALL-E 2 و Stable Diffusion ، لأنها تعتمد على اللغة التقابلية لـ OpenAI – التدريب المسبق على الصورة (CLIP) الوحدة النمطية ، التي تتعامل مع الكائنات وخصائصها بشكل أكثر مرونة (ومع ذلك فهي تكتسب المزيد من الأرض في صورة الانتشار الكامن وفضاء تركيب الفيديو.
ودراسة هذا النقص أ تعاون بحثي جديد من جامعة بار إيلان ومعهد ألين للذكاء الاصطناعي ، يقدمان دراسة مكثفة حول مدى تعامل DALL-E 2 تجاه مثل هذه الأخطاء الدلالية:
المصدر: https://export.arxiv.org/pdf/2210.10606
لقد وجد المؤلفون أن هذا الميل لمضاعفة تفسير الكلمات والعبارات يبدو ليس فقط شائعًا في جميع نماذج الانتشار الموجهة بـ CLIP ، ولكنه يزداد سوءًا حيث يتم تدريب النماذج على كميات أكبر وأعلى من البيانات. تشير الورقة البحثية إلى أن الإصدارات “ المختصرة ” من نماذج تحويل النص إلى صورة ، بما في ذلك DALL-E Mini (الآن Craiyon) تنتج هذه الأنواع من الأخطاء بشكل أقل تكرارًا ، وأن “ الانتشار المستقر ” يخطئ أيضًا بشكل أقل – على الرغم من أنه فقط ، في كثير من الأحيان ، لا يتبع الموجه على الإطلاق ، وهو نوع آخر من الخطأ.
توضح الورقة كيفية قيامنا بعمليات الفصل المعجمية الفعالة:
تلاحظ الورقة أن DALL-E 2 ليس مقيدًا بهذه الطريقة:
هذا العقار كان اسم الشيئ .
تحدد الورقة ثلاثة سلوكيات شاذة أظهرتها DALL-E 2: يمكن تفسير كلمة أو عبارة وتنقسم بشكل فعال إلى كيانين مختلفين ، مما يؤدي إلى تقديم كائن أو مفهوم لكل منهما في نفس المشهد ؛ يمكن تفسير كلمة ما على أنها معدِّل لكيانين مختلفين (انظر “السمكة الذهبية” وأمثلة أخرى أعلاه) ؛ وأن الكلمة يمكن تفسيرها في وقت واحد على أنها معدِّل وكيان بديل – على سبيل المثال من خلال الموجه:
يحدد المؤلفون طريقتين للفشل لنماذج الانتشار في هذا الصدد: أن نتائج تحفيز المستخدم بكلمات غامضة في المعنى ستظهر في كثير من الأحيان الكلمة الملموسة مع بعض مظاهر المفهوم ؛ وحيث “تتسرب” خصائص أحد العناصر إلى كائن آخر.
باستخدام 17 كلمة من شأنها أن تجعل DALL-E 2 يقسم المدخلات إلى مخرجات متعددة ، لاحظ المؤلفون ذلك مجانسة حدث تكرار في أكثر من 80٪ من 216 صورة تم عرضها.
استخدم الباحثون أزواج التحكم في المنبهات لفحص مدى ضرورة وجود لغة محددة ومحددة بشكل مفرط لوقف حدوث هذه الازدواجية. بالنسبة لاختبارات الكيان إلى الممتلكات ، تم إنشاء 10 أزواج من هذا القبيل ، ولاحظ المؤلفون أن المحفزات تثير الملكية المشتركة في 92.5٪ من الحالات ، في حين أن التحفيز يؤدي إلى حدوثها فقط في 6.6٪ من الحالات.
لم يتمكن الباحثون من تجارب الباحثين مع DALL-E Mini من تكرار هذه النتائج ، والتي يعزوها الباحثون إلى القدرات المنخفضة لهذه النماذج ، واحتمال أن تضيء عملياتهم الاختزالية على التفسير الأكثر “ وضوحًا ” للكلمة الغامضة بالمعنى بسهولة أكبر:
عمل مسبق من عام 2021لاحظ المؤلفون بالفعل أن حفلات الزفاف في CLIP لا تربط صراحةً سمات المفهوم بالكائن نفسه. يكتبون “تبعا لذلك”. لقد لاحظوا أن عمليات إعادة البناء من وحدة فك التشفير غالبًا ما تخلط بين السمات والأشياء.
*