الأخبار التكنولوجية والاستعراضات والنصائح!

تفاصيل Intel بطاقات الاستدلال والتدريب الخاصة بـ Nervana

قد يكسب هذا الموقع عمولات تابعة من الروابط الموجودة في هذه الصفحة. تعليمات الاستخدام. تفاصيل Intel بطاقات الاستدلال والتدريب الخاصة بـ Nervana 1Hot Chips 31 قيد التنفيذ هذا الأسبوع ، مع عروض تقديمية من عدد من الشركات. قررت Intel استخدام المؤتمر عالي التقنية لمناقشة مجموعة متنوعة من المنتجات ، بما في ذلك الجلسات الرئيسية التي تركز على قسم الذكاء الاصطناعى التابع للشركة. يُنظر إلى الذكاء الاصطناعي والتعلم الآلي على أنهما مجالان مهمان لمستقبل الحوسبة ، وبينما تعاملت Intel مع هذه الحقول بميزات مثل DL Boost على Xeon ، فإنها أيضًا تبني معجلات مخصصة للسوق.

تم تصميم NNP-I 1000 (Spring Hill) و NNP-T (Spring Crest) لاثنين من الأسواق المختلفة ، الاستدلال والتدريب. "التدريب" هو عمل لإنشاء وتعليم شبكة عصبية كيفية معالجة البيانات في المقام الأول. يشير الاستنتاج إلى مهمة تشغيل نموذج الشبكة العصبية الذي تم تدريبه الآن. يتطلب الأمر قدرة حصانية أكبر بكثير لتدريب شبكة عصبية أكثر مما يتطلبه تطبيق نتائج هذا التدريب على مهام التصنيف أو التصنيف في العالم الحقيقي.

تم تصميم Spring Crest NNP-T من Intel لتوسيع نطاقه إلى درجة غير مسبوقة ، مع وجود توازن بين إمكانات معالجة التينسور ، و HBM على الحزمة ، وإمكانية الربط الشبكي ، و SRAMs على الموت لتعزيز أداء المعالجة. تم تصنيع الشريحة الأساسية بواسطة TSMC – نعم ، TSMC – على 16nm ، مع حجم يموت 680mm2 ومتوسط ​​1200MM2. التجميع بأكمله هو 27 مليار الترانزستورات مع مكدسات 4x8GB من الذاكرة HBM2-2400 ، 24 مجموعات معالجة Tensor (TPCs) مع تردد الأساسية تصل إلى 1.1GHz. توفر أربعة وستين حارة من SerDes HSIO 3.58 تيرابت في الثانية من النطاق الترددي الكلي وتدعم البطاقة اتصال x16 PCIe 4.0. من المتوقع أن يتراوح استهلاك الطاقة بين 150 و 250 واط. تم تصنيع الرقاقة باستخدام عبوات CoWoS المتطورة من TSMC (Chip-on-Wafer-on-substrate) ، وتحمل 60 ميغابايت من ذاكرة التخزين المؤقت موزعة عبر النوى المختلفة. تتنافس CoWoS مع EMIB من Intel ، لكن Intel قررت إنشاء هذا الجهاز في TSMC بدلاً من استخدام المسابك الخاصة بها. ويقدر الأداء بما يصل إلى 119 قمم.

وقال Intel VP من الأجهزة Carey Kloss لـ Next Platform: "لا نريد إهدار منطقة الموت على الأشياء التي لا نحتاج إليها". "مجموعة التعليمات لدينا بسيطة ؛ مصفوفة تتضاعف ، الجبر الخطي ، تلون. ليس لدينا سجلات في حد ذاتها ، كل شيء عبارة عن موتر (2D ، 3D ، أو 4D). "هناك الكثير الذي تم تعريفه في البرنامج ، بما في ذلك القدرة على برمجة نفسه عند كسر نموذج لتشغيله أو إيقاف تشغيله . وقال كلوس في المقابلة "فكر في الأمر كهرم هرمي". "يمكنك استخدام نفس مجموعة التعليمات لنقل البيانات بين مجموعتين في مجموعة واحدة بجوار HBM أو بين مجموعات أو حتى الموت في شبكة. نريد أن نجعل البرنامج بسيطًا لإدارة الاتصالات. "

عرض الشرائح أدناه خطوات من خلال بنية NNP-T. جميع البيانات مجاملة من Intel ، ومن الواضح أن أرقام الأداء المشتركة في العلامات التجارية الدقيقة للشركة لم يتم التحقق منها بواسطة ExtremeTech.

تم تصميم NNP-T لتوسيع نطاقها بشكل فعال دون الحاجة إلى هيكل. يمكن توصيل العديد من مسرعات NNP-T ببعضها البعض في نفس الهيكل ، وتدعم البطاقات الهيكل من الهيكل إلى الهيكل وحتى منضدة التوصيل اللاصقة بدون رف دون الحاجة إلى التبديل. توجد أربعة منافذ شبكة QFSP (رباعي الشكل صغير الحجم قابل للتوصيل) على ظهر كل بطاقة نصفي.

ليس لدينا بيانات أداء حتى الآن ، ولكن هذه هي بطاقة التدريب المتقدمة التي ستطرحها Intel للتنافس مع أمثال Nvidia. لم يتضح بعد كيف ستتوافق الحلول النهائية مثل Xe ، والتي لن يتم شحنها لمراكز البيانات حتى عام 2021 ، مع مجموعة منتجات الشركة المستقبلية بمجرد امتلاكها كلاً من مراكز معالجة التنسورات ووحدات معالجة الرسومات في سوق مركز البيانات.

Spring Hill / NNP-I: إيتشيلك على متن الطائرة

إن Spring Hill ، مسرع الاستدلال الجديد من Intel ، هو وحش مختلف تمامًا. حيث تم تصميم NNP-T لمظاريف الطاقة 150-250W ، فإن NNP-I هو جزء 10-50W يهدف إلى سد العجز في فتحة M.2. ويضم اثنين من النوى ايليك وحدة المعالجة المركزية المقترنة 12 محركات حساب الاستدلال (ICE).

تفاصيل Intel بطاقات الاستدلال والتدريب الخاصة بـ Nervana 2

يتم دعم محركات 12 ICE ونواة وحدة المعالجة المركزية المزدوجة بنسبة 24 ميجابايت من L3 المتماسكة وتدعم كلاً من إرشادات AVX-512 و VNNI. هناك جهازي تحكم LPDDR4X متصلان بالذاكرة متصلان بمجموعة LPDDR4 قيد التشغيل من ذاكرة LPDDR4 (لا توجد كلمة على السعة بعد) يصل عرض النطاق الترددي DRAM إلى 68 جيجابايت / ثانية ، لكن إجمالي مبلغ DRAM على البطاقة غير معروف. يمكن إضافة Spring Hill إلى أي خادم حديث يدعم فتحات M.2 – وفقًا لإنتل ، فإن الجهاز يتصل عبر الناهض M.2 مثل منتج PCIe بدلاً من NVMe.

الهدف ، مع NNP-I ، هو تشغيل العمليات على معالج AI بأقل مقدار حمل مطلوب من وحدة المعالجة المركزية الأساسية في النظام. يتصل الجهاز عبر PCIe (يتم دعم كل من PCIe 3.0 و 4.0) ويتعامل مع عبء العمل AI ، وذلك باستخدام النوى الإليكليكية عند الموت لأي معالجة ضرورية. توفر SRAMs و DRAM on-die النطاق الترددي للذاكرة المحلية.

تفاصيل Intel بطاقات الاستدلال والتدريب الخاصة بـ Nervana 3

يدعم Inference Compute Engine تنسيقات التعليمات المختلفة ، بدءًا من FP16 إلى INT1 ، مع معالج متجه قابل للبرمجة و SRAM 4 ميجابايت لكل ICE فردي.

تفاصيل Intel بطاقات الاستدلال والتدريب الخاصة بـ Nervana 4

هناك أيضًا محرك موتر ، يُطلق عليه شبكة التعليم العميق ، و Tensilica Vision P6 DSP (يستخدم لمعالجة أحمال العمل التي لا يتم ضبطها للتشغيل في شبكة DL Compute الثابتة الوظائف).

تفاصيل Intel بطاقات الاستدلال والتدريب الخاصة بـ Nervana 5

كما تم تحسين النظام الفرعي للذاكرة الكلية في NNP-I ، حيث تم تقسيم ذاكرة التخزين المؤقت L3 إلى ثمانية شرائح بحجم 3 ميجابايت ، تم مشاركتها بين مراكز ICE و CPU. الهدف هو الاحتفاظ بالبيانات بالقرب من عناصر المعالجة التي تحتاجها قدر الإمكان. تدعي Intel أن NNP-I يمكنه تقديم أداء ResNet50 من 3600 استدلال في الثانية عند التشغيل بسرعة 10W TDP. وهذا يصل إلى 4.8 TOPS / واط ، والتي تلبي أهداف إنتل الكلية من حيث الكفاءة (تدعي الشركة أن NNP-I هو الأكثر كفاءة في أقل من القوة الكهربائية).

لا تتوقع Intel أن يأتي NNP-I إلى سوق البيع بالتجزئة ، لكن حلول الاستدلال تؤدي نشاطًا تجاريًا سريعًا مقارنة بحلول التدريب المركزية التي تركز على مركز البيانات. يمكن لشبكة NNP-I أن تشحن إلى مجموعة واسعة من العملاء في المستقبل غير البعيد ، اعتمادًا على الاستيعاب الكلي.

يهدف كلا الحلين إلى تحدي نفيديا في مركز البيانات. على الرغم من اختلافهما تمامًا عن Xeon Phi ، يمكنك القول أنهما يستهدفان بشكل جماعي بعض المساحات التي أرادت Intel بيعها إلى Xeon Phi ، وإن كان بطرق مختلفة للغاية. هذا ليس بالأمر السيئ بالضرورة – عندما تم إنشاء Larrabee الأصلي ، كانت فكرة استخدام وحدات معالجة الرسومات (GPU) للعمل في مركز الذكاء الاصطناعي ومركز البيانات مفهومًا بعيد المنال. تعد إعادة النظر في الموضوع باستخدام بنية متخصصة جديدة لكل من الاستدلال والتدريب خطوة ذكية لشركة Intel ، إذا استطاعت الشركة الحصول على مستوى الصوت بعيدًا عن Nvidia.

اقرأ الآن: