الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على ConvNeXt V2: نموذج ذكاء اصطناعي يعمل على تحسين أداء وقدرة توسيع شبكات ConvNets باستخدام أجهزة تشفير تلقائية مقنعة

ستساعدك المقالة التالية: تعرف على ConvNeXt V2: نموذج ذكاء اصطناعي يعمل على تحسين أداء وقدرة توسيع شبكات ConvNets باستخدام أجهزة تشفير تلقائية مقنعة

شهد مجال رؤية الكمبيوتر تقدمًا كبيرًا في العقد الماضي ، ويمكن أن يُعزى هذا التقدم بشكل أساسي إلى ظهور الشبكات العصبية التلافيفية (CNNs). كانت قدرات CNN التي لا تشوبها شائبة على معالجة البيانات ثنائية الأبعاد ، بفضل آلية استخراج الميزات الهرمية ، عاملاً رئيسياً وراء نجاحها.

قطعت شبكات CNN الحديثة شوطًا طويلاً منذ تقديمها. آليات تدريب مُحدَّثة ، وتعزيزات للبيانات ، ونماذج تصميم شبكة مُحسَّنة ، والمزيد. الأدبيات مليئة بالأمثلة الناجحة لهذه المقترحات التي جعلت شبكات CNN أكثر قوة وكفاءة.

من ناحية أخرى ، ساهم جانب المصدر المفتوح لمجال رؤية الكمبيوتر في تحسينات كبيرة. بفضل النماذج المرئية واسعة النطاق المدربة مسبقًا والمتاحة على نطاق واسع ، أصبح تعلم الميزات أكثر كفاءة ؛ وبالتالي ، لم يكن البدء من نقطة الصفر هو الحال بالنسبة لغالبية نماذج الرؤية.

في الوقت الحاضر ، يتم تحديد أداء نموذج الرؤية بشكل أساسي من خلال ثلاثة عوامل: بنية الشبكة العصبية المختارة ، وطريقة التدريب ، وبيانات التدريب. يؤدي التقدم في أي من هذه الثلاثيات إلى زيادة كبيرة في الأداء العام.

من بين هؤلاء الثلاثة ، لعبت الابتكارات في هندسة الشبكات أهمية قصوى في التقدم. أزالت شبكات CNN الحاجة إلى هندسة الميزات اليدوية من خلال السماح باستخدام طرق تعلم الميزات العامة. منذ وقت ليس ببعيد ، حققنا طفرة في معماريات المحولات في مجال معالجة اللغة الطبيعية ، وتم نقلها إلى مجال الرؤية. كانت المحولات ناجحة للغاية بفضل قدرتها القوية على التحجيم في كل من حجم البيانات والنموذج. ثم أخيرًا ، في السنوات الأخيرة ، تم تقديم بنية ConvNeXt. لقد حدّثت الشبكات التلافيفية التقليدية وأظهرت لنا أن نماذج الالتفاف الخالصة يمكن أن تكون قادرة أيضًا على التوسع.

رغم ذلك ، لدينا مشكلة بسيطة هنا. تم قياس كل هذه “التطورات” من خلال مهمة رؤية كمبيوتر واحدة ، وأداء التعرف على الصور تحت الإشراف على ImageNet. لا تزال الطريقة الأكثر شيوعًا لاستكشاف مساحة التصميم لبنى الشبكات العصبية.

من ناحية أخرى ، لدينا باحثون يبحثون في طريقة مختلفة لتعليم الشبكات العصبية كيفية معالجة الصور. بدلاً من استخدام الصور المصنفة ، يستخدمون نهجًا يخضع للإشراف الذاتي حيث يتعين على الشبكة اكتشاف ما هو موجود في الصورة بمفردها. تعد أجهزة التشفير التلقائية المقنعة واحدة من أكثر الطرق شيوعًا لتحقيق ذلك. وهي تستند إلى تقنية نمذجة اللغة المقنعة ، والتي تستخدم على نطاق واسع في معالجة اللغة الطبيعية.

من الممكن المزج بين تقنيات مختلفة ومطابقتها عند تدريب الشبكات العصبية ، لكنها صعبة. يمكن للمرء أن يجمع بين ConvNeXt وأجهزة التشفير التلقائي المقنعة. على الرغم من أنه نظرًا لأن أجهزة التشفير التلقائي المقنعة مصممة للعمل بشكل أفضل مع المحولات لمعالجة البيانات المتسلسلة ، فقد يكون استخدامها مع الشبكات التلافيفية مكلفًا للغاية من الناحية الحسابية. أيضًا ، قد لا يكون التصميم متوافقًا مع الشبكات التلافيفية بسبب آلية النافذة المنزلقة. وقد أظهرت الأبحاث السابقة أنه قد يكون من الصعب الحصول على نتائج جيدة عند استخدام أساليب التعلم تحت الإشراف الذاتي مثل أجهزة التشفير الآلية المقنعة ذات الشبكات التلافيفية. لذلك ، من المهم أن تضع في اعتبارك أن البنى المختلفة قد يكون لها سلوكيات تعليمية مختلفة يمكن أن تؤثر على جودة النتيجة النهائية.

هنا يأتي دور ConvNeXt V2. إنها بنية تصميم مشترك تستخدم المشفر التلقائي المقنع في إطار عمل ConvNeXt لتحقيق نتائج مماثلة لتلك التي تم الحصول عليها باستخدام المحولات. إنها خطوة نحو جعل طرق التعلم ذاتية الإشراف القائمة على القناع فعالة لنماذج ConvNeXt.

كان تصميم برنامج التشفير التلقائي المقنع لـ ConvNeXt هو التحدي الأول ، وقد تم حله بطريقة ذكية. إنهم يتعاملون مع المدخلات المقنعة على أنها مجموعة من البقع المتفرقة ويستخدمون تلافيفات متفرقة لمعالجة الأجزاء المرئية فقط. علاوة على ذلك ، يتم استبدال جزء وحدة فك ترميز المحول في وحدة التشفير التلقائي المقنعة بكتلة ConvNeXt واحدة ، مما يجعل الهيكل التلافيفي بالكامل ، مما يؤدي بدوره إلى تحسين كفاءة ما قبل التدريب.

أخيرًا ، تمت إضافة طبقة تطبيع الاستجابة العالمية إلى إطار العمل لتعزيز منافسة الميزات بين القنوات. على الرغم من ذلك ، يكون هذا التغيير فعالًا عندما يتم تدريب النموذج مسبقًا باستخدام أجهزة تشفير تلقائية مقنعة. لذلك ، قد تكون إعادة استخدام تصميم معماري ثابت من التعلم الخاضع للإشراف دون المستوى الأمثل.

يعمل ConvNeXt V2 على تحسين الأداء عند استخدامه مع أجهزة التشفير التلقائية المقنعة. إنه مصمم خصيصًا لمهام التعلم تحت الإشراف الذاتي. يمكن أن يؤدي استخدام التدريب المسبق لجهاز التشفير التلقائي المقنع التلافيفي بالكامل إلى تحسين أداء الشبكات التلافيفية النقية بشكل كبير.