الأخبار التكنولوجية والاستعراضات والنصائح!

كاميرات فورية ، متطورة: يمكن تخصيص نموذج AI لتحويل النص إلى صورة بسرعة باستخدام صورك

ستساعدك المقالة التالية: كاميرات فورية ، متطورة: يمكن تخصيص نموذج AI لتحويل النص إلى صورة بسرعة باستخدام صورك

إن إنشاء تحويل النص إلى صورة هو مصطلح نعرفه جميعًا في هذه المرحلة. جلبت الحقبة التي أعقبت إصدار الانتشار المستقر معنى آخر لتوليد الصور ، والتطورات التي حدثت بعد ذلك جعلت الأمر صعبًا حقًا في التمييز بين الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي في الوقت الحاضر. مع تحسن MidJourney باستمرار وإصدار Stability AI لنماذج محدثة ، وصلت فعالية نماذج تحويل النص إلى صورة إلى مستوى عالٍ للغاية.

لقد رأينا أيضًا محاولات لجعل هذه النماذج أكثر تخصيصًا. لقد عمل الأشخاص على تطوير نماذج يمكن استخدامها لتحرير صورة بمساعدة الذكاء الاصطناعي ، مثل استبدال كائن ، وتغيير الخلفية ، وما إلى ذلك ، وكل ذلك باستخدام موجه نص معين. هذه القدرة المتقدمة لنماذج تحويل النص إلى صورة قد ولدت أيضًا بداية رائعة حيث يمكنك إنشاء صورك الشخصية للذكاء الاصطناعي ، وحققت نجاحًا مفاجئًا للغاية.

كان إنشاء نص إلى صورة مخصصًا مجالًا رائعًا للبحث ، بهدف إنشاء مشاهد أو أنماط جديدة لمفهوم معين مع الحفاظ على نفس الهوية. تتضمن هذه المهمة الصعبة التعلم من مجموعة من الصور ثم إنشاء صور جديدة بأوضاع وخلفيات ومواقع مختلفة وأزياء وإضاءة وأنماط مختلفة. بينما أحرزت الأساليب الحالية تقدمًا كبيرًا ، فإنها غالبًا ما تعتمد على الضبط الدقيق لوقت الاختبار ، الأمر الذي قد يستغرق وقتًا طويلاً ويحد من قابلية التوسع.

اعتمدت الأساليب المقترحة لتركيب الصور الشخصية عادةً على نماذج نص إلى صورة مُدرَّبة مسبقًا. هذه النماذج قادرة على توليد الصور ولكنها تتطلب ضبطًا دقيقًا لمعرفة كل مفهوم جديد ، مما يستلزم تخزين أوزان النموذج لكل مفهوم.

ماذا لو كان لدينا بديل لهذا؟ ماذا لو كان لدينا نموذج مخصص لإنشاء نص إلى صورة لا يعتمد على الضبط الدقيق لوقت الاختبار حتى نتمكن من توسيع نطاقه بشكل أفضل وتحقيق التخصيص في وقت قصير؟ الوقت المناسب لتلبية InstantBooth.

لمعالجة هذه القيود ، InstantBooth يقترح بنية جديدة تتعلم المفهوم العام من الصور المدخلة باستخدام مشفر الصور. ثم يقوم بتعيين هذه الصور إلى دمج نصي مضغوط ، مما يضمن إمكانية التعميم على المفاهيم غير المرئية.

بينما يلتقط التضمين المضغوط الفكرة العامة ، فإنه لا يتضمن تفاصيل الهوية الدقيقة اللازمة لإنشاء صور دقيقة. لمعالجة هذه المشكلة ، InstantBooth يقدم طبقات محول قابلة للتدريب مستوحاة من التطورات الحديثة في التدريب المسبق لنموذج اللغة والرؤية. تقوم طبقات المحول هذه باستخراج معلومات الهوية الغنية من صور الإدخال وحقنها في العمود الفقري الثابت للنموذج المدرب مسبقًا. يحافظ هذا النهج المبتكر بنجاح على تفاصيل هوية مفهوم الإدخال مع الاحتفاظ بقدرة التوليد وإمكانية التحكم في اللغة للنموذج المدرب مسبقًا.

علاوة على ذلك، InstantBooth يلغي الحاجة إلى بيانات التدريب المزدوجة ، مما يجعلها أكثر عملية وجدوى. بدلاً من ذلك ، يتم تدريب النموذج على أزواج صورة نصية دون الاعتماد على الصور المقترنة لنفس المفهوم. تمكن استراتيجية التدريب هذه النموذج من التعميم بشكل جيد على المفاهيم الجديدة. عند تقديمه بصور لمفهوم جديد ، يمكن للنموذج إنشاء كائنات ذات اختلافات كبيرة في الوضع والموقع مع ضمان الحفاظ على الهوية المرضية والمحاذاة بين اللغة والصورة.

إجمالي، InstantBooth لديه ثلاث مساهمات رئيسية في مشكلة إنشاء نص إلى صورة شخصية. أولاً ، لم يعد الضبط النهائي لوقت الاختبار مطلوبًا. ثانيًا ، يعزز DreamBooth قابلية التعميم على المفاهيم غير المرئية عن طريق تحويل الصور المدخلة إلى زخارف نصية. علاوة على ذلك ، من خلال إدخال تمثيل بصري غني في النموذج المدرَّب مسبقًا ، فإنه يضمن الحفاظ على الهوية دون التضحية بإمكانية التحكم في اللغة. أخيراً، InstantBooth يحقق تحسينًا ملحوظًا في السرعة بمعدل x100 مع الحفاظ على جودة بصرية مماثلة للأساليب الحالية.