الأخبار التكنولوجية والاستعراضات والنصائح!

تعليم الروبوتات حول الأدوات ذات مجالات التألق العصبي (NeRF)

ستساعدك المقالة التالية: تعليم الروبوتات حول الأدوات ذات مجالات التألق العصبي (NeRF)

يقدم بحث جديد من جامعة ميشيغان طريقة للروبوتات لفهم آليات الأدوات ، وغيرها من الكائنات المفصلية في العالم الحقيقي ، من خلال إنشاء كائنات Neural Radiance Fields (NeRF) التي توضح الطريقة التي تتحرك بها هذه الكائنات ، مما يسمح للروبوت بالتفاعل. معهم واستخدامها بدون تهيئة مسبقة مخصصة مملة.

المصدر: https://progress.eecs.umich.edu/projects/narf/

تحتاج الروبوتات التي يُطلب منها القيام بأكثر من مجرد تجنب المشاة أو أداء إجراءات مبرمجة مسبقًا (والتي من المحتمل أن تكون مجموعات البيانات غير القابلة لإعادة الاستخدام قد تم تصنيفها وتدريبها على حساب ما) تحتاج إلى هذا النوع من القدرة على التكيف إذا كانت ستعمل مع نفس المواد و الأشياء التي يجب على بقيتنا التعامل معها.

حتى الآن ، كان هناك عدد من العقبات التي تحول دون إضفاء هذا النوع من التنوع على الأنظمة الروبوتية. وتشمل هذه ندرة مجموعات البيانات القابلة للتطبيق ، والتي يتميز العديد منها بعدد محدود جدًا من الكائنات ؛ النفقات الهائلة التي ينطوي عليها إنشاء هذا النوع من النماذج ثلاثية الأبعاد الواقعية والقائمة على الشبكة والتي يمكن أن تساعد الروبوتات على تعلم الأدوات في سياق العالم الحقيقي ؛ والجودة غير الواقعية لمجموعات البيانات التي قد تكون مناسبة بالفعل للتحدي ، مما يتسبب في ظهور الكائنات مفككة عما يدركه الروبوت في العالم من حوله ، وتدريبه على البحث عن كائن يشبه الرسوم المتحركة لن يظهر أبدًا في الواقع.

لمعالجة هذا الأمر ، فإن الباحثين في ميتشيغان ، الذين ورق تم تطوير خط أنابيب من مرحلتين لتوليد كائنات مفصلية تستند إلى NeRF والتي لها مظهر “العالم الحقيقي” ، والتي تتضمن الحركة والقيود المترتبة على أي كائن مفصلي معين.

المصدر: https://arxiv.org/pdf/2210.01166.pdf

يسمى النظام – أو NARF22 ، لتمييزه عن مشروع آخر مشابه.

NARF22

إن تحديد ما إذا كان من المحتمل أن يتم التعبير عن كائن غير معروف أم لا يتطلب قدرًا لا يمكن تصوره تقريبًا من المعرفة المسبقة بنمط الإنسان. على سبيل المثال ، إذا لم تكن قد رأيت درجًا مغلقًا من قبل ، فقد يبدو أنه أي نوع آخر من الألواح الزخرفية – لن يحدث ذلك حتى تقوم بفتح أحد الأدراج بالفعل حيث تقوم بتضمين “ الدرج ” ككائن مفصلي مع محور حركة واحد (إلى الأمام والخلف).

لذلك ، NARF22 ليس المقصود منه أن يكون نظامًا استكشافيًا لاختيار الأشياء ومعرفة ما إذا كانت تحتوي على أجزاء متحركة قابلة للتنفيذ – سلوك شبه قرد يستلزم عددًا من السيناريوهات الكارثية المحتملة. بدلاً من ذلك ، يعتمد الإطار على المعرفة المتوفرة في تنسيق وصف الروبوت العالمي (URDF) – تنسيق مفتوح المصدر قائم على XML قابل للتطبيق على نطاق واسع ومناسب للمهمة. سيحتوي ملف URDF على معلمات قابلة للاستخدام للحركة في كائن ، بالإضافة إلى الأوصاف والأوجه المعنونة الأخرى لأجزاء الكائن.

في خطوط الأنابيب التقليدية ، من الضروري بشكل أساسي وصف قدرات التعبير عن كائن ما ، وتسمية القيم المشتركة ذات الصلة. هذه ليست مهمة رخيصة أو قابلة للتطوير بسهولة. بدلاً من ذلك ، يعرض سير العمل NaRF22 المكونات الفردية للكائن قبل “تجميع” كل مكون ثابت في تمثيل مبني على أساس NeRF ، مع معرفة معلمات الحركة التي يوفرها URDF.

في المرحلة الثانية من العملية ، يتم إنشاء عارض جديد تمامًا يشتمل على جميع الأجزاء. على الرغم من أنه قد يكون من الأسهل ببساطة تجميع الأجزاء الفردية في مرحلة مبكرة وتخطي هذه الخطوة اللاحقة ، إلا أن الباحثين لاحظوا أن النموذج النهائي – الذي تم تدريبه على وحدة معالجة الرسومات NVIDIA RTX 3080 تحت وحدة المعالجة المركزية AMD 5600X – لديه متطلبات حسابية أقل أثناء الانتشار العكسي. من مثل هذا التجمع المفاجئ والسابق لأوانه.

بالإضافة إلى ذلك ، يعمل نموذج المرحلة الثانية بمعدل ضعف سرعة التجميع المتسلسل “القسري” ، وأي تطبيقات ثانوية قد تحتاج إلى استخدام معلومات حول الأجزاء الثابتة من النموذج لن تحتاج إلى وصولها الخاص إلى معلومات URDF ، لأن تم دمج هذا بالفعل في عارض المرحلة النهائية.

البيانات والتجارب

أجرى الباحثون عددًا من التجارب لاختبار NARF22: واحدة لتقييم العرض النوعي لتكوين كل كائن ووضعه ؛ اختبار كمي لمقارنة النتائج المقدمة مع وجهات النظر المماثلة التي تراها الروبوتات في العالم الحقيقي ؛ ومظاهرة لتقدير التكوين وتحدي صقل 6 DOF (عمق المجال) الذي استخدم NARF22 لأداء التحسين القائم على التدرج.

تم الحصول على بيانات التدريب من أدوات التقدم مجموعة بيانات من ورقة سابقة أعدها العديد من مؤلفي العمل الحاليين. تحتوي أدوات التقدم على حوالي ستة آلاف صورة RGB-D (بما في ذلك معلومات العمق الضرورية لرؤية الروبوتات) بدقة 640 × 480. تضمنت المشاهد المستخدمة ثمانية أدوات يدوية ، مقسمة إلى أجزائها المكونة ، كاملة بنماذج شبكية ومعلومات عن الخصائص الحركية للأجسام (على سبيل المثال ، الطريقة التي تم تصميمها لتحريكها ، ومعلمات تلك الحركة).

بالنسبة لهذه التجربة ، تم تدريب نموذج نهائي قابل للتكوين باستخدام كماشة رجال الخطوط ، كماشة طويلة الأنف ، ومشبك (انظر الصورة أعلاه). احتوت بيانات التدريب على تكوين واحد للمشبك ، وواحد لكل كماشة.

يعتمد تنفيذ NARF22 على FastNeRF، مع تعديل معلمات الإدخال للتركيز على الوضع المتسلسل والمشفّر مكانيًا للأدوات. يستخدم FastNeRF الإدراك متعدد الطبقات (MLP) المقترن بآلية أخذ العينات voxelized (voxels هي في الأساس وحدات بكسل ، ولكن مع إحداثيات ثلاثية الأبعاد كاملة ، بحيث يمكن أن تعمل في مساحة ثلاثية الأبعاد).

بالنسبة للاختبار النوعي ، لاحظ الباحثون أن هناك عدة أجزاء مسدودة من المشبك (على سبيل المثال ، العمود الفقري المركزي ، والتي لا يمكن معرفتها أو تخمينها من خلال مراقبة الكائن ، ولكن فقط من خلال التفاعل معه ، وأن النظام يواجه صعوبة في إنشاء هذا هندسة “غير معروفة”.

على النقيض من ذلك ، كانت الكماشة قادرة على التعميم جيدًا على التكوينات الجديدة (أي امتدادات وحركات أجزائها التي تقع ضمن معلمات URDF ، ولكن لم يتم تناولها صراحة في مادة التدريب الخاصة بالنموذج.

لاحظ الباحثون ، مع ذلك ، أن أخطاء وضع العلامات على الكماشة أدت إلى تقليل جودة تقديم النصائح التفصيلية جدًا للأدوات ، مما أثر سلبًا على العروض – وهي مشكلة تتعلق بمخاوف أوسع حول وضع العلامات اللوجستية والميزنة والدقة في الكمبيوتر قطاع أبحاث الرؤية ، بدلاً من أي قصور إجرائي في خط أنابيب NARF22.

بالنسبة لاختبارات تقدير التكوين ، أجرى الباحثون تحسين الوضع وتقدير التكوين من وضعية “جامدة” أولية ، وتجنب أي من التخزين المؤقت أو الحلول المتسارعة الأخرى التي يستخدمها FastNeRF نفسه.

قاموا بعد ذلك بتدريب 17 مشهدًا منظمًا جيدًا من مجموعة اختبار أدوات التقدم (التي تم وضعها جانبًا أثناء التدريب) ، والتي تمر عبر 150 تكرارًا من تحسين النسب المتدرجة تحت مُحسِّن آدم. استعاد هذا الإجراء تقدير التكوين “جيدًا للغاية” ، وفقًا للباحثين.

النتائج من اختبار تقدير التكوين.