الأخبار التكنولوجية والاستعراضات والنصائح!

تعرف على Pix2Act: عامل AI يمكنه التفاعل مع واجهات المستخدم الرسومية باستخدام نفس الواجهة المفاهيمية التي يستخدمها البشر بشكل شائع عبر لقطات الشاشة المستندة إلى البكسل والعامة …

ستساعدك المقالة التالية: تعرف على Pix2Act: عامل AI يمكنه التفاعل مع واجهات المستخدم الرسومية باستخدام نفس الواجهة المفاهيمية التي يستخدمها البشر بشكل شائع عبر لقطات الشاشة المستندة إلى البكسل والعامة …

من خلال تمكين المستخدمين من الاتصال بالأدوات والخدمات ، يمكن للأنظمة التي يمكنها اتباع التوجيهات من واجهات المستخدم الرسومية (GUI) أتمتة الوظائف الشاقة ، وزيادة إمكانية الوصول ، وزيادة فائدة المساعدين الرقميين.

تعتمد العديد من تطبيقات الوكيل الرقمي المستندة إلى واجهة المستخدم الرسومية على التمثيلات النصية المشتقة من HTML ، والتي لا تتوفر دائمًا بسهولة. يستخدم الأشخاص واجهات المستخدم الرسومية من خلال إدراك المدخلات المرئية والعمل عليها باستخدام اختصارات قياسية للماوس ولوحة المفاتيح ؛ لا يحتاجون إلى إلقاء نظرة على الكود المصدري للتطبيق لمعرفة كيفية عمل البرنامج. بغض النظر عن التكنولوجيا الأساسية ، يمكنهم التقاط برامج جديدة بسرعة بواجهات مستخدم رسومية بديهية.

يعد نظام ألعاب Atari مجرد مثال واحد على مدى جودة أداء النظام الذي يتعلم من مدخلات البكسل فقط. ومع ذلك ، هناك العديد من العوائق المقدمة من خلال التعلم من مدخلات البكسل فقط بالتزامن مع الإجراءات العامة منخفضة المستوى عند محاولة التعليمات القائمة على واجهة المستخدم الرسومية التالية للمهام. لتفسير واجهة المستخدم الرسومية بصريًا ، يجب أن يكون المرء على دراية بهيكل الواجهة ، وأن يكون قادرًا على التعرف على اللغة الطبيعية الموجودة بصريًا وتفسيرها ، والتعرف على العناصر المرئية وتحديدها والتنبؤ بالوظائف وطرق التفاعل لتلك العناصر.

يقدم كل من Google DeepMind و Google PIX2ACT ، وهو نموذج يأخذ لقطات شاشة قائمة على البكسل كمدخلات ويختار الإجراءات التي تتوافق مع عناصر تحكم الماوس ولوحة المفاتيح الأساسية. لأول مرة ، توضح مجموعة البحث أن الوكيل الذي لديه مدخلات بكسل فقط ومساحة عمل عامة يمكن أن يتفوق على العاملين في الحشد البشري ، ويحقق أداءً على قدم المساواة مع أحدث الوكلاء الذين يستخدمون معلومات DOM وعددًا مشابهًا من التظاهرات البشرية .

لهذا ، توسع الباحثون في PIX2STRUCT. تم بالفعل تدريب نموذج تحويل الصورة إلى نص المستند إلى Transformer على بيانات واسعة النطاق عبر الإنترنت لتحويل لقطات الشاشة إلى تمثيلات منظمة بناءً على HTML. يطبق PIX2ACT البحث الشجري لإنشاء مسارات جديدة للخبراء بشكل متكرر للتدريب ، باستخدام مجموعة من المظاهرات البشرية والتفاعلات مع البيئة.

تستلزم جهود الفريق هنا إنشاء إطار عمل للبيئات العالمية القائمة على المستعرض وتكييف مجموعتي بيانات معياريتين ، MiniWob ++ و WebShop ، لاستخدامهما في بيئتهم باستخدام تنسيق قياسي للمراقبة عبر المجالات والعمل. باستخدام خيارهم المقترح (CC-Net بدون DOM) ، يتفوق PIX2ACT على العاملين الجماعيين البشريين أربع مرات تقريبًا على MiniWob ++. توضح Ablations أن التدريب المسبق المستند إلى البكسل في PIX2STRUCT ضروري لأداء PIX2ACT.

بالنسبة للتعليمات المستندة إلى واجهة المستخدم الرسومية التي تتبع المدخلات المستندة إلى البكسل ، توضح النتائج فعالية التدريب المسبق لـ PIX2STRUCT عبر تحليل لقطة الشاشة. يؤدي التدريب المسبق في بيئة الاستنساخ السلوكي إلى رفع درجات مهمة MiniWob ++ و WebShop بمقدار 17.1 و 46.7 على التوالي. على الرغم من أنه لا يزال هناك عيب في الأداء مقارنة بالنماذج اللغوية الأكبر التي تستخدم المدخلات المستندة إلى HTML والإجراءات الخاصة بالمهمة ، فإن هذا العمل وضع خط الأساس الأول في هذه البيئة.