الأخبار التكنولوجية والاستعراضات والنصائح!

كيفية تشغيل الانتشار المستقر 3X بشكل أسرع بتكلفة أقل – نحو الذكاء الاصطناعي

ستساعدك المقالة التالية: كيفية تشغيل الانتشار المستقر 3X بشكل أسرع بتكلفة أقل – نحو الذكاء الاصطناعي

نُشر في الأصل في Towards AI.

بالنسبة لفريق من المتعصبين للذكاء الاصطناعي مثلنا ، كان من المثير رؤية سوق الذكاء الاصطناعي وهو ينطلق خلال الأشهر الـ 12 الماضية. حاجز الدخول ينخفض ​​بالنسبة لمنشئي الذكاء الاصطناعي. التكلفة الباهظة لتدريب النماذج الجديدة هي تكلفة أولية يتم تقديمها بشكل متزايد من قبل موفري API مغلق المصدر مثل OpenAI ، بالإضافة إلى الباحثين والمشاريع التي تبني نماذج تأسيسية مفتوحة المصدر مثل Stable Diffusion و Whisper و LLaMA وغيرها.

حتى مع تخفيض نفقات التدريب مقدمًا بشكل كبير ، ما زلنا نسمع أن تكاليف الحوسبة طويلة المدى لنشر الإنتاج تهدد الجدوى الاقتصادية لأي عرض من عروض الذكاء الاصطناعي. ويمكن للمطور أو المؤسسة الوصول إلى حوسبة الذكاء الاصطناعي التي يريدون إنشاء التطبيق / الخدمة الخاصة بهم في المقام الأول.

في OctoML ، نحن في مهمة للتسليم خدمات حوسبة AI ميسورة التكلفة لأولئك الذين يريدون السيطرة على الأعمال التجارية التي يبنونها. لهذا السبب قمنا ببناء خدمة حوسبة جديدة ، متاحة الآن في الوصول المبكر. إنه يوفر البنية التحتية للذكاء الاصطناعي وتقنيات تحسين التعلم الآلي المتقدمة التي لا يمكنك العثور عليها إلا في خدمات الذكاء الاصطناعي واسعة النطاق مثل OpenAI ، يمنحك القدرة على التحكم في واجهة برمجة التطبيقات الخاصة بك واختيار النماذج الخاصة بك والعمل في حدود ميزانية الذكاء الاصطناعي الخاصة بك.

يمكن لمستخدمي الوصول المبكر تجربة أسرع نموذج Stable Diffusion 2.1 (بدون تغيير في دقة / أداء النموذج) في السوق ، دون الحاجة إلى تدريب النموذج أو إعادة تدريبه. فيما يلي بعض البيانات المبكرة التي توضح مكاسب الأداء:

يعمل الانتشار المستقر بسرعة فائقة على A10Gs لماذا تنتظر A100s؟

نسمع مرارًا وتكرارًا من مطوري الذكاء الاصطناعي أن توفر وحدة معالجة الرسومات يعيق قدرتهم على إنشاء تطبيقهم الجديد المدعوم بالذكاء الاصطناعي. عندما ننقر نقرًا مزدوجًا على هذه المحادثات ، نجد أن المؤسسات تؤمن بأن أجهزة NVIDIA الأحدث فقط ، أي A100s ، تقدم السعر / الأداء الذي تحتاجه لتشغيل نماذجها على نطاق واسع. هذا هو السبب في أننا متحمسون لمشاركة أن A10Gs يمكنها تقديم تجربة المستخدم الصحيحة ، أي 1.35 ثانية ، والتي يحتاجها أي تطبيق يعمل بنظام التوزيع المستقر. والأهم من ذلك ، تتوفر A10Gs في كل مكان ولا يتم تقنينها مثل A100s.

لا يقتصر الأمر على إصدار OctoML المُحسَّن من Stable Diffusion 2.1 سريعًا للغاية ، بل إنه يتفوق في الواقع بنسبة 30٪ على أفضل تكوين يعمل بنفسك في فئته متاح للمستخدمين المتطورين الذين لديهم خبرة في هندسة التعلم الآلي. يستخدم تكوين DIY الذي يعمل على A100 حزمة xFormers من Meta التي تستفيد من تطبيقات الانتباه الفعالة للذاكرة المتطورة ، والنواة المدمجة ، وغيرها من التقنيات المتطورة للحصول على أداء عالٍ على وحدات معالجة الرسومات التي تعمل على أفضل الأجهزة (بافتراض أنه يمكنك الحصول عليها). حتى مع هذا المستوى من التطور الذاتي والتشغيل على A100s ، فإن إصدار OctoML من Stable Diffusion 2.1 يتفوق في الواقع على الأجهزة الأقل قوة.

كيف تتراكم OctoML مقابل الخدمات المستضافة؟ 3x أسرع ، ⅕ التكلفة.

عند تشغيل الذكاء الاصطناعي في الإنتاج ، فإن الخدمات المستضافة مثل HuggingFace (نقاط نهاية الاستدلال) هي خيارات شائعة لأنها سهلة الاستخدام وتقلل من متاعب النشر اليدوي وإدارة البنية التحتية. الآن بعد أن أسسنا لك حقيقة أنك لست بحاجة إلى أحدث / أعظم أجهزة NVIDIA لتشغيل النماذج الخاصة بك ، دعنا نقارن HuggingFace ، وهو مصدر التوزيع الأكثر شيوعًا لـ Stable Diffusion.

في حين أن إصدار HuggingFace الذي يعمل على نقاط نهاية الاستدلال الخاصة بهم – تم تصميم هذه البنية التحتية وتحسينها لمجتمع الباحثين في ML – لم يتم تطويرها لتقديم أفضل خدمات الحوسبة في فئتها.

كدليل على ذلك ، نسلط الضوء على أن نموذج Stable Diffusion المستضاف في خدمة الحوسبة لدينا لديه نطاق تسريع يتراوح بين 2X بجودة صورة نهائية منخفضة (512 × 512 ، 30 خطوة) إلى 3X أفضل بجودة صورة عالية جدًا (768 ×) 768 ، 150 خطوة).

كيف تربح معركة تطبيقات الذكاء الاصطناعي

يمنحك OctoML الاختيار والمرونة لتخصيص السعر والأداء من أجل حالة الاستخدام والتجربة التي تريد تقديمها للمستخدم.

يمكن أن يمنح عملك أيضًا مزايا تنافسية كبيرة.

تخيل أن لديك تطبيقًا يقوم بتشغيل Stable Diffusion من OctoML ، وهناك تطبيق منافس يدعمه AI يستخدم Hugging Face. سيستغرق الأمر ما يقرب من 4 أضعاف وقتًا أطول لتقديم صورة للعميل بنفس الجودة – ما يقرب من دقيقة! وكان سيكلفهم 5 أضعاف ما ستدفعه باستخدام OctoML. إذا كانت متطلبات جودة صورتك مرنة ، فيمكنك تقديم صور باستخدام OctoML بأقل من 1/100 من المائة.

جانب آخر فريد من نهج OctoML هو أنه على عكس الحلول الأخرى في السوق ، فإنه يدعم الضبط الدقيق بدون احتكاك لتخصيص الانتشار المستقر مقابل مجموعات البيانات الخاصة بك. تتطلب الأساليب الأخرى إعادة تجميع النموذج في كل مرة يتم فيها ضبط دقيق والذي قد يستغرق حوالي 30 دقيقة في حالة القيام بذلك باستخدام TensorRT.

للوصول المبكر إلى الوصول المبكر لخدمة حساب OctoML ، يرجى التسجيل هنا.

إذا كنت مهتمًا أيضًا بالعمل معنا بشأن متطلبات / احتياجات الضبط الدقيق الخاصة بك ، أو إذا كان لديك حالة استخدام للاستفادة من نموذج الانتشار المستقر خارج خدمة الحوسبة الخاصة بنا لأنك قمت ببناء البنية التحتية للخدمة الخاصة بك ، فيرجى الاتصال بنا هنا حتى نقوم بذلك. يمكن تحديد موعد للتحدث.

تم النشر عبر نحو الذكاء الاصطناعي