ستساعدك المقالة التالية: نموذج Googles Imagen أفضل من DALLE-2؟ – نحو الذكاء الاصطناعي
نُشر في الأصل على نحو AI ، الشركة الرائدة في العالم في مجال الذكاء الاصطناعي والأخبار التقنية والإعلام. إذا كنت تقوم ببناء منتج أو خدمة متعلقة بالذكاء الاصطناعي ، فنحن ندعوك للتفكير في أن تصبح راعيًا للذكاء الاصطناعي. في نحو الذكاء الاصطناعي ، نساعد في توسيع نطاق الشركات الناشئة في مجال الذكاء الاصطناعي والتكنولوجيا. دعنا نساعدك على إطلاق التكنولوجيا الخاصة بك للجماهير.
يبدو أن نموذج Google يتفوق على نموذج OpenAI ، أم يفعل ذلك؟
إذا كنت تعتقد أن Dall-E 2 قد حقق نتائج رائعة ، فانتظر حتى ترى ما يمكن أن يحققه أحدث طراز من Google Brain. Dalle-e رائعة ، لكنها غالبًا ما تفتقر إلى الواقعية ، والتي سعى الفريق إلى معالجتها باستخدام نموذج جديد Imagen. على موقع الويب الخاص بمشروعهم ، ينشرون عددًا من النتائج بالإضافة إلى معيار تم إنشاؤه لتقييم نماذج تحويل النص إلى صورة ، حيث يتفوقون بوضوح على Dall-E 2 وخوارزميات إنشاء الصور السابقة.
بينما نفحص المزيد والمزيد من خوارزميات تحويل النص إلى صورة ، أصبح من المستحيل بشكل متزايد مقارنة النتائج – ما لم نفترض أن النتائج رهيبة ، وهو ما نفعله كثيرًا.
لكن هذا النموذج ، بالإضافة إلى Dell-e 2 ، يتحدى الصعاب.
tl ؛ dr: إنه نموذج جديد لتحويل النص إلى صورة يمكن مقارنته بـ Dalle-E 2 ، ولكن وفقًا للاختبار البشري ، فهو أكثر واقعية.
لذلك ، على غرار Dall-E ، الذي كتبته منذ حوالي شهر ، يأخذ هذا النموذج نصًا مثل “كلب ذهبي مسترد يرتدي قبعة زرقاء متقلب وعنق سلحفاة حمراء منقطة” ويحاول إخراج صورة واقعية منه.
النقطة الرئيسية هنا هي أن Imagen لا يمكنه استيعاب النص فحسب ، بل أيضًا العناصر المرئية التي يصنعها ، والتي تعتبر أكثر واقعية من أي جهود سابقة.
بالطبع ، عندما أقول “فهم” ، فأنا أشير إلى فهمها المتميز عن فهمنا. النموذج غير قادر على فهم النص أو الصورة التي ينشئها. إنه بلا شك يعرف شيئًا عن ذلك ، لكنه يفهم في الغالب كيف يجب تصوير هذا النوع المحدد من النص بما في ذلك هذه العناصر باستخدام وحدات البكسل على الصورة. ومع ذلك ، عندما نفحص النتائج ، يبدو بالتأكيد أنها تفهم ما نرسله!
من الواضح أنه يمكنك خداعها ببعض الجمل الغريبة التي لا تبدو حقيقية ، مثل هذه الجملة ، لكنها أحيانًا تتفوق على خيالك وتجعل شيئًا رائعًا حقًا.
الأمر الأكثر إثارة للاهتمام هو كيفية عملها باستخدام نموذج الانتشار ، وهو شيء لم أتطرق إليه مطلقًا على القناة. ومع ذلك ، قبل أن نتمكن من استخدام نموذج الانتشار هذا ، يجب أن نفهم أولاً إدخال النص. هذا أيضًا هو التمييز الأساسي بين Dall-e والآخرين. لفهم المادة كما يمكن لنظام الذكاء الاصطناعي ، استخدموا نموذج نص كبير يشبه GPT-3. بدلاً من تدريب نموذج نصي جنبًا إلى جنب مع نموذج إنشاء الصورة ، يستخدمون ببساطة نموذجًا كبيرًا مدربًا مسبقًا يتم تجميده بحيث لا يتغير خلال تدريب نموذج إنشاء الصورة. وفقًا لأبحاثهم ، أدى ذلك إلى نتائج أعلى بشكل ملحوظ ، ويبدو أن النموذج يتمتع بفهم أفضل للغة.
لذا فإن وحدة النص هذه هي كيفية فهم النموذج للنص ، ويتم تمثيل هذه المعرفة في الترميزات ، وهو ما تم تعليم النموذج القيام به على مجموعات البيانات الضخمة لتحويل مدخلات النص إلى مساحة من المعلومات يمكن الاستفادة منها وفهمها. الآن يجب أن نستخدم هذه البيانات النصية المعدلة لإنشاء الصورة ، والتي استخدموا فيها نموذج الانتشار ، كما قلت سابقًا.
لكن ، أولاً وقبل كل شيء ، ما هو نموذج الانتشار؟
نماذج الانتشار هي نماذج توليدية تتعلم كيفية عكس الضوضاء الغاوسية بشكل متكرر لتحويل ضوضاء غاوس العشوائية إلى صور. إنها نماذج فعالة للترجمات فائقة الدقة أو غيرها من الترجمة من صورة إلى صورة ، وهي تستخدم بنية U-Net معدلة في هذه الحالة.
بشكل أساسي ، تم تدريب النموذج على إزالة التشويش من الصورة من الضوضاء الخالصة ، والتي يوجهونها باستخدام ترميز نصي وتقنية تسمى التوجيه الخالي من المصنفات ، والتي يزعمون أنها ضرورية لجودة النتائج ويتم تفصيلها بالتفصيل في عملهم. من خلال الرابط الموجود في المراجع أدناه ، سأسمح لك بقراءته للحصول على مزيد من التفاصيل حول هذه الاستراتيجية.
الآن لدينا نموذج يمكنه أخذ ضوضاء غاوسية عشوائية وترميز النص الخاص بنا وتقليل التشويش عليه باستخدام ترميزات النص كدليل للحصول على صورتنا. ولكن ، كما ترى في الرسم البياني أعلاه ، ليس الأمر مباشرًا كما يبدو. الصورة التي أنشأناها للتو متواضعة إلى حد ما لأن الصورة الأكبر ستحتاج إلى مزيد من الحساب ونموذج أكبر بكثير ، وكلاهما غير عملي. بدلاً من ذلك ، نقوم بإنشاء صورة واقعية باستخدام نموذج الانتشار الذي حددناه للتو ، ثم نقوم بزيادة جودة الصورة تدريجياً باستخدام نماذج الانتشار المختلفة. مرة أخرى ، نريد تشويشًا بدلاً من صورة ، لذلك نقوم بتلويث هذه الصورة منخفضة الدقة ببعض الضوضاء الغاوسية وتدريب نموذج الانتشار الثاني لدينا لتحسينها.
بعد ذلك ، مع نموذج آخر ، نكرر هاتين المرحلتين ، لكن هذه المرة باستخدام أجزاء فقط من الصورة لتحقيق نفس نسبة الترقية مع البقاء مجديًا من الناحية الحسابية.
وهناك لديك! نحصل على صورتنا عالية الدقة الواقعية في النهاية!
بالطبع ، كان هذا مجرد ملخص سريع لهذا النموذج الجديد الرائع ونتائجه الرائعة. أشجعك بشدة على قراءة أعمالهم الممتازة من أجل فهم أفضل لمنهجيتهم وفحص شامل لنتائجهم.
هل تعتقد أن النتائج تعادل نتائج Dell-e 2؟ هل هو للأفضل أم للأسوأ؟ أعتقد أن هذه هي الآن منافسة dall-major e. يرجى إعلامي برأيك في هذا الإصدار الأخير من Google Brain بالإضافة إلى التفسير.
نموذج Googles Imagen أفضل من DALLE-2؟ نُشر في الأصل في Towards AI on Medium ، حيث يواصل الأشخاص المحادثة من خلال تسليط الضوء على هذه القصة والرد عليها.
تم النشر عبر نحو الذكاء الاصطناعي