الأخبار التكنولوجية والاستعراضات والنصائح!

الفهم الموحد: يوفر نهج الذكاء الاصطناعي هذا رسم خرائط ثلاثي الأبعاد أفضل للروبوتات

ستساعدك المقالة التالية: الفهم الموحد: يوفر نهج الذكاء الاصطناعي هذا رسم خرائط ثلاثي الأبعاد أفضل للروبوتات

إن تطوير الروبوتات التي يمكنها القيام بالمهام اليومية لنا هو حلم طويل الأمد للبشرية. نريدهم أن يتجولوا ويساعدونا في الأعمال اليومية ، وتحسين الإنتاج في المصانع ، وزيادة نتائج الزراعة ، وما إلى ذلك. الروبوتات هي المساعدين الذين أردنا دائمًا الحصول عليهم.

يتطلب تطوير الروبوتات الذكية التي يمكنها التنقل والتفاعل مع الكائنات في العالم الحقيقي رسم خرائط ثلاثية الأبعاد دقيقة للبيئة. بدون أن يكونوا قادرين على فهم بيئتهم المحيطة بشكل صحيح ، لن يكون من الممكن تسميتهم بمساعدين حقيقيين.

كانت هناك طرق عديدة لتعليم الروبوتات عن محيطها. على الرغم من أن معظم هذه الأساليب تقتصر على إعدادات المجموعة المغلقة ، مما يعني أنها يمكن أن تفكر فقط حول مجموعة محدودة من المفاهيم التي تم تحديدها مسبقًا أثناء التدريب.

من ناحية أخرى ، لدينا تطورات جديدة في مجال الذكاء الاصطناعي يمكنها “فهم” المفاهيم في مجموعات البيانات المفتوحة نسبيًا. على سبيل المثال ، يمكن استخدام CLIP لتسمية وشرح الصور التي لم تُشاهد مطلقًا أثناء مجموعة التدريب ، وهي تنتج نتائج موثوقة. أو خذ DINO ، على سبيل المثال ؛ يمكنه أن يفهم ويرسم حدودًا حول الأشياء التي لم يرها من قبل. نحن بحاجة إلى إيجاد طريقة لجلب هذه القدرة إلى الروبوتات حتى نتمكن من القول إنهم يستطيعون بالفعل فهم بيئتهم حقًا.

ما الذي يتطلبه فهم البيئة وصياغتها؟ إذا أردنا أن يتمتع الروبوت الخاص بنا بإمكانية تطبيق واسعة في مجموعة من المهام ، فيجب أن يكون قادرًا على استخدام نمذجة بيئته دون الحاجة إلى إعادة التدريب على كل مهمة جديدة. يجب أن يكون للنمذجة التي يقومون بها خاصيتان رئيسيتان ؛ كونها مفتوحة ومتعددة الوسائط.

تعني النمذجة ذات المجموعة المفتوحة أنه يمكنهم التقاط مجموعة متنوعة من المفاهيم بتفاصيل كبيرة. على سبيل المثال ، إذا طلبنا من الروبوت أن يحضر لنا علبة صودا ، فيجب أن يفهمها على أنها “شيء نشربه” ويجب أن يكون قادرًا على ربطها بعلامة تجارية معينة أو نكهة أو ما إلى ذلك. هذا يعني أن الروبوت يجب أن يكون قادرًا على استخدام أكثر من “حاسة”. يجب أن يفهم النص والصورة والصوت وما إلى ذلك معًا.

دعونا نجتمع مع مفهوم الاندماج، حل لمعالجة القيود المذكورة أعلاه.

مفهوم الاندماج هو شكل من أشكال تمثيل المشهد الذي يكون مفتوحًا ومتعدد الوسائط بطبيعته. إنه يسمح بالتفكير فيما وراء مجموعة مغلقة من المفاهيم ويتيح مجموعة متنوعة من الاستعلامات الممكنة للبيئة ثلاثية الأبعاد. بمجرد أن يعمل ، يمكن للروبوت استخدام اللغة أو الصور أو الصوت أو حتى التفكير القائم على الهندسة ثلاثية الأبعاد مع البيئة.

مفهوم الاندماج يستخدم التقدم في النماذج واسعة النطاق في مجالات اللغة والصورة والصوت. إنه يعمل على ملاحظة بسيطة ؛ يمكن دمج ميزات المجموعة المفتوحة المحاذاة للبكسل في خرائط ثلاثية الأبعاد عبر طرق التعريب والتخطيط المتزامنة التقليدية (SLAM) ودمج طرق العرض المتعددة. وهذا يتيح التفكير المنطقي الفعال ولا يتطلب أي ضبط أو تدريب إضافي.

تتم معالجة الصور المدخلة لإنشاء أقنعة كائنات عامة لا تنتمي إلى أي فئة معينة. ثم يتم استخراج الميزات المحلية لكل كائن ، ويتم حساب ميزة عامة لكامل صورة الإدخال. تُستخدم تقنية محاذاة البكسل ذات اللقطة الصفرية لدمج الميزات الخاصة بالمنطقة مع الميزة العامة ، مما ينتج عنه ميزات محاذاة للبكسل.

يتم تقييم ConceptFusion على مزيج من العالم الحقيقي والسيناريوهات المحاكاة. يمكن أن تحتفظ بالمفاهيم طويلة الذيل بشكل أفضل من الأساليب الخاضعة للإشراف وتتفوق على أساليب SoTA الحالية بأكثر من 40٪.

إجمالي، مفهوم الاندماج هو حل مبتكر لقيود أساليب رسم الخرائط ثلاثية الأبعاد الحالية. من خلال تقديم تمثيل مشهد مفتوح ومتعدد الوسائط ، مفهوم الاندماج يتيح تفكيرًا أكثر مرونة وفعالية حول البيئة دون الحاجة إلى تدريب إضافي أو ضبط دقيق.