الأخبار التكنولوجية والاستعراضات والنصائح!

Meta AI يقدم MTIA v1: إنه الجيل الأول من مسرع الاستدلال AI

ستساعدك المقالة التالية: Meta AI يقدم MTIA v1: إنه الجيل الأول من مسرع الاستدلال AI

في Meta ، توجد أعباء عمل AI في كل مكان ، حيث تعمل كأساس للعديد من التطبيقات مثل فهم المحتوى ، والخلاصات ، والذكاء الاصطناعي التوليدي ، وتصنيف الإعلانات. بفضل تكامل Python السلس وبرمجة الوضع الشغوف وواجهات برمجة التطبيقات المباشرة ، يمكن لـ PyTorch تشغيل أحمال العمل هذه. على وجه الخصوص ، تُعد DLRMs أمرًا حيويًا لتعزيز تجارب المستخدم عبر جميع منتجات وعروض Meta. يجب أن توفر أنظمة الأجهزة المزيد من الذاكرة والحوسبة بشكل متزايد مع نمو حجم وتعقيد هذه النماذج ، كل ذلك دون التضحية بالكفاءة.

عندما يتعلق الأمر بالمعالجة عالية الكفاءة لأحمال عمل التوصيات الفريدة لشركة Meta على نطاق واسع ، فإن وحدات معالجة الرسومات ليست دائمًا الخيار الأفضل. لمعالجة هذه المشكلة ، طور فريق Meta مجموعة من الدوائر المتكاملة الخاصة بالتطبيقات (ASICs) تسمى “Meta Training and Inference Accelerator” (MTIA). مع وضع احتياجات نموذج توصية الجيل التالي في الاعتبار ، تم تضمين الجيل الأول من ASIC في PyTorch لتطوير نظام تصنيف مُحسَّن تمامًا. الحفاظ على إنتاجية المطورين هو عملية مستمرة لأنهم يحافظون على دعم PyTorch 2.0 ، مما يحسن بشكل كبير من أداء PyTorch على مستوى المترجم.

في عام 2020 ، أنشأ الفريق MTIA ASIC الأصلي للتعامل مع احتياجات المعالجة الداخلية لشركة Meta. مصمم بالاشتراك مع السيليكون و PyTorch ونماذج التوصية ، يعد مسرع الاستدلال هذا جزءًا من حل متكامل. باستخدام تقنية TSMC 7nm ، يمكن لهذا المسرع بسرعة 800 ميجاهرتز تحقيق 102.4 TOPS بدقة INT8 و 51.2 TFLOPS بدقة FP16. تبلغ طاقة التصميم الحراري للجهاز 25 وات.

يمكن تقسيم المسرع إلى أجزاء مكونة ، بما في ذلك عناصر المعالجة (PEs) ، وموارد الذاكرة على الرقاقة وخارج الرقاقة ، والتوصيلات في بنية الشبكة. يدير البرنامج نظام فرعي مستقل للتحكم داخل المسرع. ينسق البرنامج الثابت تنفيذ المهام على المسرع ، ويتحكم في موارد الحوسبة والذاكرة المتاحة ، ويتواصل مع المضيف من خلال واجهة مضيف محددة. يستخدم LPDDR5 للذاكرة الحيوية خارج الشريحة في النظام الفرعي للذاكرة ، مما يسمح بالتوسع إلى 128 جيجا بايت. يتوفر المزيد من عرض النطاق الترددي وزمن وصول أقل بكثير للبيانات التي يتم الوصول إليها بشكل متكرر والتعليمات لأن 128 ميجا بايت من ذاكرة الوصول العشوائي على الرقاقة مشتركة بين جميع PEs.

تم وضع 64 PEs في الشبكة في مصفوفة 8 × 8. تسمح ذاكرة SRAM المحلية التي تبلغ سعتها 128 كيلوبايت لكل PE بالتخزين السريع للبيانات ومعالجتها. تربط الشبكة المتشابكة بين PEs معًا وبنوك الذاكرة. يمكن استخدام الشبكة بأكملها لأداء مهمة ما ، أو يمكن تقسيمها إلى العديد من الشبكات الفرعية ، يمكن لكل منها التعامل مع عملها. تعد عمليات ضرب المصفوفة ، والتراكم ، ونقل البيانات ، وحساب الوظائف غير الخطية فقط بعضًا من المهام المهمة التي تم تحسينها بواسطة وحدات متعددة الوظائف الثابتة ونواتج معالج في كل PE. تم تعديل نوى المعالجات المستندة إلى RISC-V ISA على نطاق واسع لأداء عمليات الحساب والتحكم المطلوبة. تم تصميم البنية لتحقيق أقصى استفادة من عنصرين أساسيين لإدارة عبء العمل بفعالية: التوازي وإعادة استخدام البيانات.

قارن الباحثون MTIA بمسرع NNPI ووحدة معالجة الرسومات. تظهر النتائج أن MTIA تعتمد على إدارة النماذج الصغيرة وأحجام الدُفعات بكفاءة للنماذج منخفضة التعقيد. تعمل MTIA بشكل فعال على تحسين مكدس SW الخاص بها لتحقيق مستويات أداء مماثلة. في غضون ذلك ، يستخدم نماذج أكبر تم تحسينها بشكل أكبر على مكدس SW الخاص بوحدة معالجة الرسومات لتشغيل نماذج متوسطة وعالية التعقيد.

لتحسين أداء أعباء عمل Meta ، يركز الفريق الآن على إيجاد وسيط سعيد بين قوة الحوسبة وسعة الذاكرة وعرض النطاق الترددي المترابط لتطوير حل أفضل وأكثر كفاءة.