الأخبار التكنولوجية والاستعراضات والنصائح!

تقدم Google TPU v4: جهاز كمبيوتر فائق للتعلم الآلي مع دعم الأجهزة لحفلات الزفاف التي يمكن إعادة تشكيلها بصريًا

ستساعدك المقالة التالية: تقدم Google TPU v4: جهاز كمبيوتر فائق للتعلم الآلي مع دعم الأجهزة لحفلات الزفاف التي يمكن إعادة تشكيلها بصريًا

لا تزال نماذج التعلم الآلي (ML) تتطور بطرق صعبة ، سواء من حيث الحجم أو التقنية. تعمل نماذج اللغات الكبيرة (LLMs) كمثال للأول ، في حين أن نماذج التوصية بالتعلم العميق (DLRMs) والحسابات الضخمة للمحولات و BERT بمثابة أمثلة على الأخير. لقد توسع الكمبيوتر العملاق ML الخاص بنا من 256 عقدة TPU v2 إلى 4096 عقدة TPU v4 بسبب الحجم الهائل لـ LLMs الحديثة. يؤدي الوصول إلى مثل هذا الحجم إلى مشكلات الموثوقية ، والتي تتفاقم أكثر بسبب حقيقة أن تدريب الشبكة العصبية العميقة (DNN) يتم بأسلوب HPC ، ونقطة تفتيش / استعادة ، وكل شيء يجب أن يعمل بطريقة. هذا يختلف تمامًا عن خاصية الاعتماد على البرامج لأنظمة الخطوط الرئيسية الموزعة مثل Google.

حدد باحثون من Google ثلاثة تحسينات رئيسية على TPU v4 تعالج هذه المشكلات:

1. للتغلب على تحديات قابلية التوسع والموثوقية ، قاموا بإدخال مفاتيح دوائر ضوئية (OCSes) مع خطوط بيانات ضوئية ، مما يتيح للحاسوب الفائق ذو العقدة 4K قبول مضيفات وحدة المعالجة المركزية 1K والتي تكون أقل بنسبة 0.1٪ إلى 1.0٪ من الوقت من خلال إعادة التكوين.

2. يصفون دعم أجهزة SparseCore أو SC لحفلات الزفاف في DLRMs ، وهي سمة من سمات TPU من الإصدار 2 من TPU.

3. من خلال الجمع بين المهارتين المذكورتين أعلاه ، تزيد حفلات الزفاف من متطلبات الاتصال على نطاق الحواسيب الفائقة من خلال إدخال أنماط اتصال شاملة للجميع. تضع أنماط الكل إلى الكل عبئًا على عرض النطاق الترددي التنصيف على عكس كل تقليل ، والذي يتم استخدامه في النسخ العكسي ويترجم جيدًا إلى توري ثنائية وثلاثية الأبعاد. يسمح OCS ببناء طوبولوجيا متعدد الاستخدامات ، بما في ذلك التقسيم المحسن.

تعد LLM الآن مشكلة ساخنة في مجتمع ML. كانت OCSes في TPU v4 مدفوعة في البداية بالحجم والموثوقية ، ولكن مرونتها الطوبولوجية ومزايا النشر انتهى بها الأمر إلى تقليل وقت تدريب LLM بشكل كبير. على الرغم من أن مبادئ TPU السابقة للتدريب والاستدلال قد تمت تغطيتها بالفعل في المنشورات السابقة ، إلا أن هذه الدراسة تركز على الجوانب الثلاثة الفريدة لـ TPU v4 التي لم تتم تغطيتها من قبل.

فيما يلي المساهمات الرئيسية للورقة:

  • يناقش ويقيم أول نشر إنتاج لـ OCSes في كمبيوتر عملاق وأول من يوفر تغيير الهيكل لتحسين الأداء.
  • يناقش ويقيم أول مساعدة مسرع للتضمين في نظام ML للربح.
  • يوضح بالتفصيل التطور السريع لأنواع نماذج الإنتاج منذ عام 2016 لقطاع ML سريع التطور.
  • يوضح كيف تشارك Google في تحسين نماذج DNN وطوبولوجيا OCS و SparseCore باستخدام التعلم الآلي.