الأخبار التكنولوجية والاستعراضات والنصائح!

لا ، لن يتسبب ChatGPT في نقص آخر في وحدة معالجة الرسومات

ستساعدك المقالة التالية: لا ، لن يتسبب ChatGPT في نقص آخر في وحدة معالجة الرسومات

ينفجر ChatGPT ، ويعتمد العمود الفقري لنموذج الذكاء الاصطناعي الخاص به على بطاقات رسومات Nvidia. قال أحد المحللين إنه تم استخدام حوالي 10000 وحدة معالجة رسومات Nvidia لتدريب ChatGPT ، ومع استمرار الخدمة في التوسع ، تزداد الحاجة إلى وحدات معالجة الرسومات. يمكن لأي شخص عاش خلال صعود العملة المشفرة في عام 2021 أن يشم رائحة نقص وحدة معالجة الرسومات في الأفق.

لقد رأيت بعض المراسلين يبنون هذا الاتصال الدقيق ، لكنه مضلل. لقد ولت أيام النقص في وحدة معالجة الجرافيكس المدفوعة بالعملات المشفرة. على الرغم من أننا سنشهد على الأرجح زيادة في الطلب على بطاقات الرسومات مع استمرار ازدهار الذكاء الاصطناعي ، إلا أن هذا الطلب غير موجه نحو أفضل بطاقات الرسومات المثبتة في منصات الألعاب.

لماذا تم تصميم وحدات معالجة الرسومات من Nvidia خصيصًا للذكاء الاصطناعي

أولاً ، سنتناول سبب كون بطاقات رسومات Nvidia رائعة جدًا للذكاء الاصطناعي. راهنت Nvidia على الذكاء الاصطناعي على مدار السنوات العديدة الماضية ، وقد دفعت ثمنها مع ارتفاع سعر سهم الشركة بعد صعود ChatGPT. هناك سببان وراء رؤية Nvidia في قلب تدريب الذكاء الاصطناعي: نوى الموتر و CUDA.

CUDA هي واجهة برمجة التطبيقات (API) الخاصة بشركة Nvidia المستخدمة في كل شيء بدءًا من وحدات معالجة الرسومات (GPU) الخاصة بمركز البيانات الأغلى ثمناً وحتى أرخص وحدات معالجة الرسومات (GPU) الخاصة بها. يتم دعم تسريع CUDA في مكتبات التعلم الآلي مثل TensorFlow ، والتدريب والاستدلال بسرعة كبيرة. CUDA هي القوة الدافعة وراء تأخر AMD في الذكاء الاصطناعي مقارنةً بـ Nvidia.

ومع ذلك ، لا تخلط بين CUDA ونواة CUDA من Nvidia. CUDA هي النظام الأساسي الذي يعمل عليه عدد كبير من تطبيقات الذكاء الاصطناعي ، في حين أن نوى CUDA هي مجرد نوى داخل وحدات معالجة الرسومات Nvidia. يشتركون في الاسم ، ويتم تحسين نوى CUDA بشكل أفضل لتشغيل تطبيقات CUDA. تحتوي وحدات معالجة الرسومات الخاصة بألعاب Nvidia على نوى CUDA وهي تدعم تطبيقات CUDA.

نوى الموتر هي أساسًا أنوية مخصصة للذكاء الاصطناعي. إنهم يتعاملون مع مضاعفة المصفوفة ، وهي الصلصة السرية التي تسرع تدريب الذكاء الاصطناعي. الفكرة هنا بسيطة. ضاعف مجموعات متعددة من البيانات في وقت واحد ، وقم بتدريب نماذج الذكاء الاصطناعي بشكل أسرع من خلال توليد النتائج المحتملة. تتعامل معظم المعالجات مع المهام بطريقة خطية ، بينما يمكن أن تولد نوى Tensor سيناريوهات بسرعة في دورة ساعة واحدة.

مرة أخرى ، تحتوي وحدات معالجة الرسومات الخاصة بألعاب Nvidia مثل RTX 4080 على أنوية Tensor (وأحيانًا أكثر من وحدات معالجة رسومات مركز البيانات المكلفة). ومع ذلك ، بالنسبة لجميع المواصفات ، يتعين على بطاقات Nvidia تسريع نماذج الذكاء الاصطناعي ، فليس هناك أي منها بأهمية الذاكرة. ولا تحتوي وحدات معالجة الرسومات الخاصة بألعاب Nvidia على الكثير من الذاكرة.

كل ذلك يعود إلى الذاكرة

ويكيميديا

“حجم الذاكرة هو الأهم” ، وفقًا لجيفري هيتون ، مؤلف العديد من الكتب حول الذكاء الاصطناعي وأستاذ في جامعة واشنطن في سانت لويس. “إذا لم يكن لديك ذاكرة RAM كافية لوحدة معالجة الرسومات ، فإن نموذجك المناسب / الاستدلال يتوقف ببساطة.”

هيتون ، الذي لديه YouTube قناة مخصصة لمدى جودة عمل نماذج الذكاء الاصطناعي على وحدات معالجة رسومات معينة ، لاحظت أن نوى CUDA مهمة أيضًا ، لكن سعة الذاكرة هي العامل المهيمن عندما يتعلق الأمر بكيفية عمل وحدة معالجة الرسومات للذكاء الاصطناعي. يحتوي RTX 4090 على الكثير من الذاكرة وفقًا لمعايير الألعاب – 24 جيجا بايت من GDDR6X – ولكنها قليلة جدًا مقارنة بوحدة معالجة الرسومات من فئة مركز البيانات. على سبيل المثال ، تحتوي أحدث وحدة معالجة رسومات H100 من Nvidia على 80 جيجابايت من ذاكرة HBM3 ، بالإضافة إلى ناقل ذاكرة ضخم يبلغ 5120 بت.

يمكنك الحصول على القليل ، لكنك لا تزال بحاجة إلى الكثير من الذاكرة. يوصي هيتون بأن يكون للمبتدئين ما لا يقل عن 12 جيجابايت ، في حين أن مهندس التعلم الآلي النموذجي سيكون لديه وحدة أو اثنتين من وحدات معالجة الرسومات Nvidia الاحترافية بسعة 48 جيجابايت. وفقًا لهيتون ، “ستقع معظم أعباء العمل بشكل أكبر في نطاق A100 إلى ثمانية A100”. تحتوي وحدة معالجة الرسومات A100 من Nvidia على ذاكرة تبلغ 40 جيجابايت.

يمكنك رؤية هذا التحجيم أثناء العمل أيضًا. تعرض Puget Systems شريحة A100 واحدة بسعة 40 جيجابايت من الذاكرة تؤدي ضعف سرعة أداء RTX 3090 واحد بذاكرة 24 جيجابايت. وهذا على الرغم من حقيقة أن RTX 3090 يحتوي على ضعف عدد نوى CUDA وتقريبًا عدد نوى Tensor.

الذاكرة هي عنق الزجاجة ، وليست قوة معالجة خام. ذلك لأن تدريب نماذج الذكاء الاصطناعي يعتمد على مجموعات البيانات الكبيرة ، وكلما زادت تلك البيانات التي يمكنك تخزينها في الذاكرة ، كلما كان بإمكانك تدريب النموذج بشكل أسرع (وأكثر دقة).

احتياجات مختلفة ، تموت مختلفة

لا تكون وحدات معالجة الرسومات الخاصة بألعاب Nvidia مناسبة عمومًا للذكاء الاصطناعي نظرًا لمقدار ذاكرة الفيديو القليلة التي تمتلكها مقارنة بالأجهزة على مستوى المؤسسات ، ولكن هناك مشكلة منفصلة هنا أيضًا. لا تشترك وحدات معالجة الرسومات الخاصة بمحطة عمل Nvidia عادةً في وحدة معالجة الرسومات مع بطاقات الألعاب الخاصة بها.

على سبيل المثال ، يستخدم A100 الذي أشار إليه هيتون وحدة معالجة الرسومات GA100 ، وهي عبارة عن قالب من مجموعة Ampere من Nvidia والتي لم يتم استخدامها مطلقًا في البطاقات التي تركز على الألعاب (بما في ذلك RTX 3090 Ti المتطورة). وبالمثل ، يستخدم أحدث طراز H100 من Nvidia بنية مختلفة تمامًا عن سلسلة RTX 40 ، مما يعني أنه يستخدم قالبًا مختلفًا أيضًا.

هناك استثناءات. تُستخدم وحدة معالجة الرسومات AD102 من Nvidia ، والموجودة داخل RTX 4090 و RTX 4080 ، أيضًا في مجموعة صغيرة من وحدات معالجة الرسومات Ada Lovelace (L40 و RTX 6000). في معظم الحالات ، على الرغم من ذلك ، لا يمكن لـ Nvidia إعادة توظيف وحدة معالجة الرسومات (GPU) المخصصة للألعاب لبطاقة مركز البيانات. إنهما عوالم منفصلة.

هناك بعض الاختلافات الأساسية بين نقص GPU الذي رأيناه بسبب التعدين المشفر وزيادة شعبية نماذج الذكاء الاصطناعي. وفقًا لهيتون ، تطلب نموذج GPT-3 أكثر من 1000 وحدة معالجة رسومات Nvidia A100 للقطارات وحوالي ثمانية للتشغيل. تتمتع وحدات معالجة الرسومات هذه بإمكانية الوصول إلى اتصال NVLink ذي النطاق الترددي العالي أيضًا ، في حين أن وحدات معالجة الرسومات RTX 40-series من Nvidia لا تفعل ذلك. إنها تقارن بحد أقصى 24 جيجابايت من الذاكرة على بطاقات ألعاب Nvidia بمئات متعددة على وحدات معالجة الرسومات مثل A100 مع NVLink.

هناك بعض المخاوف الأخرى ، مثل تخصيص ذاكرة الموت لوحدات معالجة الرسومات المحترفة بدلاً من الألعاب ، ولكن أيام الاندفاع إلى Micro Center المحلي أو Best Buy للحصول على فرصة العثور على GPU في المخزون قد ولت. لخص هيتون هذه النقطة بشكل جيد: “نماذج اللغات الكبيرة ، مثل ChatGPT ، يُقدر أنها تتطلب ثمانية وحدات معالجة رسومات على الأقل للتشغيل. تفترض هذه التقديرات وحدات معالجة الرسومات A100 المتطورة. تخميني هو أن هذا قد يسبب نقصًا في وحدات معالجة الرسومات المتطورة ، ولكن قد لا يؤثر على وحدات معالجة الرسومات من فئة الألعاب ، مع ذاكرة وصول عشوائي أقل. “