ستساعدك المقالة التالية: تزييف الأجسام “الأفضل” باستخدام الذكاء الاصطناعي
يقدم بحث جديد من أكاديمية Alibaba DAMO سير عمل يحركه الذكاء الاصطناعي لأتمتة إعادة تشكيل صور الجثث – وهو جهد نادر في قطاع رؤية الكمبيوتر المشغول حاليًا بالتلاعبات القائمة على الوجه مثل التزييف العميق وتحرير الوجه المستند إلى GAN.
المصدر: https://arxiv.org/pdf/2203.04670.pdf
تستخدم بنية الباحثين تقدير وضع الهيكل العظمي لمعالجة التعقيد الأكبر الذي تواجهه أنظمة تركيب الصور وتحريرها في وضع المفاهيم وتحديد معالم صور الجسم الموجودة ، على الأقل إلى مستوى من التفصيل الذي يسمح في الواقع بتحرير هادف وانتقائي.
يمكّن النظام المستخدم في نهاية المطاف من تعيين المعلمات التي يمكن أن تغير مظهر الوزن أو كتلة العضلات أو توزيع الوزن في صور كاملة الطول أو متوسطة الطول للأشخاص ، وهو قادر على إنشاء تحولات عشوائية على أقسام الجسم الملبس أو غير الملبس.
الدافع وراء العمل هو تطوير تدفقات العمل الآلية التي يمكن أن تحل محل التلاعب الرقمي الشاق الذي يقوم به المصورون وفناني رسومات الإنتاج في مختلف فروع الوسائط ، من الأزياء إلى الإخراج على غرار المجلات و المواد الدعائية.
بشكل عام ، يقر المؤلفون ، يتم تطبيق هذه التحولات عادةً باستخدام تقنيات “الالتواء” في Photoshop وغيره من برامج تحرير الصور النقطية التقليدية ، ويتم استخدامها بشكل حصري تقريبًا في صور النساء. وبالتالي ، فإن مجموعة البيانات المخصصة التي تم تطويرها لتسهيل العملية الجديدة تتكون في الغالب من صور لمواضيع إناث:
ال ورق يحمل العنوان ، ويأتي من خمسة مؤلفين مرتبطين بأكاديمية DAMO العالمية التابعة لشركة علي بابا.
تطوير مجموعة البيانات
كما هو الحال عادةً مع أنظمة تركيب الصور وتحريرها ، تطلبت بنية المشروع مجموعة بيانات تدريب مخصصة. كلف المؤلفون ثلاثة مصورين لإنتاج معالجات Photoshop قياسية للصور المناسبة من موقع Unsplash للتصوير الفوتوغرافي ، مما أدى إلى مجموعة بيانات – بعنوان – من 5000 صورة عالية الجودة بدقة 2K.
يؤكد الباحثون أن الهدف من التدريب على مجموعة البيانات هذه ليس إنتاج ميزات “مثالية” ومعممة تتعلق بمؤشر الجاذبية أو المظهر المرغوب ، بل لاستخراج تعيينات السمات المركزية المرتبطة بالتلاعب المهني لصور الجسم.
ومع ذلك ، فقد أقروا بأن عمليات التلاعب تعكس في النهاية عمليات تحويلية ترسم تطورًا من مفهوم “حقيقي” إلى مفهوم “مثالي” محدد مسبقًا:
نظرًا لأن إطار العمل لا يتعامل مع الوجوه على الإطلاق ، فقد تم تعتيمها قبل تضمينها في مجموعة البيانات.
العمارة والمفاهيم الأساسية
يتضمن سير عمل النظام التغذية في صورة عالية الدقة ، واختزالها إلى دقة أقل يمكن أن تتناسب مع موارد الحوسبة المتاحة ، واستخراج وضع خريطة الهيكل العظمي المقدرة (الشكل الثاني من اليسار في الصورة أدناه) ، بالإضافة إلى حقول التقارب الجزئية (PAFs) ، والتي كانت مبتكر في عام 2016 من قبل معهد الروبوتات بجامعة كارنيجي ميلون (انظر الفيديو المضمن أدناه مباشرة).
تساعد حقول التقارب الجزء على تحديد اتجاه الأطراف والارتباط العام بإطار الهيكل العظمي الأوسع ، مما يوفر للمشروع الجديد أداة اهتمام / توطين إضافية.
المصدر: https://arxiv.org/pdf/1611.08050.pdf
على الرغم من عدم ملاءمتها الواضح لمظهر الوزن ، فإن الخرائط الهيكلية مفيدة في توجيه العمليات التحويلية النهائية إلى أجزاء من الجسم يتم تعديلها ، مثل الذراعين والمؤخرة والفخذين.
بعد ذلك ، يتم تغذية النتائج إلى هيكل الاهتمام الذاتي لتقارب البنية (SASA) في عنق الزجاجة المركزي للعملية (انظر الصورة أدناه).
ينظم SASA اتساق مولد التدفق الذي يغذي العملية ، ثم يتم تمرير نتائجها إلى وحدة الالتواء (الثانية من اليمين في الصورة أعلاه) ، والتي تطبق التحويلات المستفادة من التدريب على المراجعات اليدوية المضمنة في مجموعة البيانات .
يتم لاحقًا إعادة أخذ عينات الصورة الناتجة إلى دقة 2K الأصلية ، باستخدام عمليات لا تختلف عن بنية التزييف العميق القياسية على غرار 2017 والتي تم اشتقاق الحزم الشائعة مثل DeepFaceLab منها ؛ عملية الاختزال شائعة أيضًا في أطر تحرير GAN.
تم تصميم شبكة الانتباه للمخطط على غرار (الكودا) ، تعاون أكاديمي أمريكي / سنغافورة 2019 مع Amazon منظمة العفو الدولية ومايكروسوفت.
الاختبارات
تم اختبار الإطار القائم على التدفق مقابل الأساليب السابقة القائمة على التدفق فال والتحريك من خلال الاعوجاج (ATW) ، وكذلك بنيات ترجمة الصور Pix2PixHD و GFLA، مع SSIM و PSNR و LPIPS كمقاييس للتقييم.
بناءً على هذه المقاييس المعتمدة ، يتفوق نظام المؤلفين على البنى السابقة.
بالإضافة إلى المقاييس الآلية ، أجرى الباحثون دراسة للمستخدم (العمود الأخير من جدول النتائج المصور سابقًا) ، حيث تم عرض 30 سؤالًا لكل مشارك تم اختياره عشوائيًا من مجموعة مكونة من 100 سؤال تتعلق بالصور التي تم إنتاجها عبر الطرق المختلفة. فضل 70٪ من المشاركين التقنية الجديدة باعتبارها أكثر “جاذبية بصريًا”.
التحديات
تمثل الورقة الجديدة رحلة نادرة في التلاعب بالجسم المستند إلى الذكاء الاصطناعي. يهتم قطاع تخليق الصور حاليًا إما بتوليد أجسام قابلة للتحرير عبر طرق مثل Neural Radiance Fields (NeRF) ، أو يركز على استكشاف المساحة الكامنة لشبكات GAN وإمكانيات أجهزة التشفير التلقائية للتلاعب بالوجه.
تقتصر مبادرة المؤلفين حاليًا على إحداث تغييرات في الوزن المدرك ، ولم يطبقوا أي نوع من تقنيات الرسم التي من شأنها استعادة الخلفية التي تم الكشف عنها حتمًا عندما تقوم بتقليص صورة شخص ما.
ومع ذلك ، فقد اقترحوا أن حصيرة الصورة وخلفية المزج من خلال الاستدلال النسيجي يمكن أن يحل مشكلة استعادة أجزاء العالم التي كانت مخبأة سابقًا في الصورة من قبل “ النقص ” البشري.