الأخبار التكنولوجية والاستعراضات والنصائح!

يقدم باحثو جامعة كارنيجي ميلون إنترنت إكسبلورر: نهج ذكاء اصطناعي مع تعلم التمثيل المستهدف على شبكة الويب المفتوحة

ستساعدك المقالة التالية: يقدم باحثو جامعة كارنيجي ميلون إنترنت إكسبلورر: نهج ذكاء اصطناعي مع تعلم التمثيل المستهدف على شبكة الويب المفتوحة

النموذج الأكثر شيوعًا لحل مهام الرؤية الحديثة ، مثل تصنيف الصور / اكتشاف الكائنات ، وما إلى ذلك ، في مجموعات البيانات الصغيرة يتضمن ضبطًا دقيقًا لأحدث شبكة عميقة مُدربة مسبقًا ، والتي كانت في السابق قائمة على ImageNet ومن المحتمل الآن أن تستند إلى CLIP. لقد كان خط الأنابيب الحالي ناجحًا إلى حد كبير ولكن لا يزال به بعض القيود.

ربما ، الشاغل الرئيسي يتعلق بالقدر الهائل من الجهد اللازم لجمع هذه المجموعات الكبيرة من الصور وتسميتها. بشكل ملحوظ ، نما حجم مجموعة بيانات ما قبل التدريب الأكثر شيوعًا من 1.2 مليون (ImageNet) إلى 400 مليون (CLIP) ولا يبدو أنه يتوقف. كنتيجة مباشرة ، يتطلب تدريب الشبكات العامة أيضًا جهودًا حسابية كبيرة لا يستطيع تحملها في الوقت الحاضر سوى عدد قليل من المعامل الصناعية أو الأكاديمية. قضية أخرى مهمة فيما يتعلق بقواعد البيانات المجمعة هي طبيعتها الثابتة. في الواقع ، على الرغم من كونها ضخمة ، لم يتم تحديث مجموعات البيانات هذه. ومن ثم ، فإن قوتهم التعبيرية فيما يتعلق بالمفاهيم المعروفة محدودة في الوقت المناسب.

يقترح العمل الأخير من جامعة كارنيجي ميلون وجامعة بيركلي معالجة الإنترنت كمجموعة بيانات خاصة للتغلب على المشكلات المذكورة سابقًا في النموذج الحالي للتدريب المسبق والضبط الدقيق.

على وجه الخصوص ، تقترح الورقة وكيلًا عبر الإنترنت مستوحى من التعلم المعزز وغير متجسد يسمى Internet Explorer والذي يبحث بنشاط في الإنترنت باستخدام محركات البحث القياسية للعثور على البيانات المرئية ذات الصلة التي تعمل على تحسين جودة الميزة في مجموعة البيانات المستهدفة.

إجراءات الوكيل هي استعلامات نصية يتم إجراؤها لمحركات البحث ، والملاحظات هي البيانات التي تم الحصول عليها من البحث.

يختلف النهج المقترح عن التعلم النشط والعمل ذي الصلة من خلال إجراء بحث موجه محسن بشكل فعال بطريقة تخضع للإشراف الذاتي بالكامل على مجموعة بيانات موسعة لا تتطلب أي تسميات للتدريب ، حتى من مجموعة البيانات المستهدفة. على وجه الخصوص ، لا يتم تطبيق النهج على مجموعة بيانات واحدة ولا يتطلب تدخل واضعي العلامات الخبراء ، كما هو الحال في التعلم النشط القياسي.

عمليًا ، يستخدم Internet Explorer مفاهيم WorNet للاستعلام عن محرك بحث (على سبيل المثال ، صور Google) ويقوم بتضمين هذه المفاهيم في مساحة تمثيل للتعرف ، عبر الوقت ، على تحديد الاستعلام ذي الصلة. يستفيد النموذج من التعلم تحت الإشراف الذاتي لتعلم تمثيلات مفيدة من الصور غير المسماة التي تم تنزيلها من الإنترنت. مشفر الرؤية الأولي هو نموذج MoCoV3 مدرب ذاتيًا ومُدرَّب مسبقًا. يتم تصنيف الصور التي تم تنزيلها من الإنترنت وفقًا لفقدان الإشراف الذاتي لفهم تشابهها مع مجموعة البيانات المستهدفة كبديل لكونها ذات صلة بالتدريب.

في خمسة معايير شائعة ودقيقة وصعبة ، مثل Birdsnap و Flowers و Food101 و Pets و VOC2007 ، يتمكن Internet Explorer (مع الاستخدام الإضافي للواصفات التي تم إنشاؤها بواسطة GPT للمفاهيم) من منافسة CLIP oracle ResNet 50 مما يقلل من عدد حساب وتدريب الصور على التوالي مرة واثنين من حيث الحجم.

للتلخيص ، تقدم هذه الورقة وكيلًا جديدًا وذكيًا يستفسر من الويب لتنزيل وتعلم معلومات مفيدة لحل مهمة تصنيف صور معينة بجزء بسيط من تكاليف التدريب المتعلقة بالنهج السابقة ويفتح مزيدًا من البحث حول هذا الموضوع.