ستساعدك المقالة التالية: شرح الذكاء الاصطناعي للصور عالية الدقة – نحو الذكاء الاصطناعي
نُشر في الأصل على نحو AI ، الشركة الرائدة في العالم في مجال الذكاء الاصطناعي والأخبار التقنية والإعلام. إذا كنت تقوم ببناء منتج أو خدمة متعلقة بالذكاء الاصطناعي ، فنحن ندعوك للتفكير في أن تصبح راعيًا للذكاء الاصطناعي. في نحو الذكاء الاصطناعي ، نساعد في توسيع نطاق الشركات الناشئة في مجال الذكاء الاصطناعي والتكنولوجيا. دعنا نساعدك على إطلاق التكنولوجيا الخاصة بك للجماهير.
شرح الذكاء الاصطناعي للصور عالية الدقة
يمكن استخدام الذكاء الاصطناعي لاتخاذ قرارات آلية بناءً على صور عالية الدقة ، لكن هل يمكننا فهم تلك القرارات؟ في هذه المقالة ، أناقش كيف يمكن استخدام التعلم متعدد الأمثلة القابل للتفسير لمعالجة هذه المشكلة.
يمكن أن تحتوي مجموعات بيانات رؤية الكمبيوتر الحديثة ملايين الصور. ومع ذلك ، هذه الصور في كثير من الأحيان صغير الحجم. على سبيل المثال ، في ImageNet [1]، متوسط الصورة فقط 469 × 387 بكسل. ولكن ماذا لو كان حجم كل صورة يزيد عن 10000 × 10000 بكسل؟ أو أكثر من 100000 × 100000؟
في هذه المقالة ، أستكشف كيف يمكن تكييف الذكاء الاصطناعي لاستخدامها مع الصور عالية الدقة ، ثم ناقش طرق شرح كيف تتخذ نماذج الذكاء الاصطناعي هذه القرارات.
بيانات عالية الدقة
قبل الخوض في كيفية تطبيق التعلم الآلي على الصور عالية الدقة ، فإن الأمر يستحق المناقشة ما أنواع البيانات موجودة بالفعل في هذا المجال. لقد قدمت مثالين في الصور أعلاه ، وتحدثت عنهما بمزيد من التفصيل أدناه:
بيانات القمر الصناعي – هناك زيادة كمية البياناتيتم جمعها من الفضاء عن طريق مراقبة الأرض بالأقمار الصناعية. كمية البيانات التي يتم جمعها ضخمة ؛ أكثر من 100 تيرابايت في اليوم. غالبًا ما تكون البيانات التي يتم جمعها عالية الدقة ، ويمكن أن تحتوي أيضًا على نطاقات طيفية متعددة (على سبيل المثال ، الأشعة تحت الحمراء وكذلك الضوء المرئي).
البيانات الطبية– أنواع معينة من البيانات الطبية عالية الدقة . على سبيل المثال ، يمكن تلطيخ عينات الأنسجة من الجسم و فحص تحت المجهر. يمكن بعد ذلك رقمنة هذه العينات لإنتاجها صور شرائح كاملة(WSI) ، وهي ذات دقة عالية جدًا (100000 × 100000 بكسل!).
في كلتا الحالتين المثاليتين ، تكون معالجة الصور عالية الدقة من المستحيل رؤية الكمبيوتر التقليدية طُرق، لأن:
- إذا كانت الصور أبقى في قرارهم الأصلي، تصبح نماذج التعلم الآلي كبير جدًا بحيث لا يمكن تدريبه. هذا لأن عدد المعلمات في نموذج المقاييس مع حجم الصور المدخلة.
- إذا كانت الصور أعيد تشكيلها لتكون أصغر، مهم غالبًا ما تُفقد المعلومات. على سبيل المثال ، في بيانات WSI ، لن يتم التعرف على الخلايا الفردية إذا تم أخذ عينات من الصورة إلى أسفل. أو في بيانات الأقمار الصناعية ، سيكون من المستحيل حل ميزات مثل المباني الفردية.
حسنا، كيف لنا ان نحل هذه المشكلة؟ في القسم التالي ، أناقش نهجًا شائعًا يُعرف باسم متعددة مثيل التعلم .
التعلم عن طريق المثيلات المتعددة للحصول على صور عالية الدقة
في التعلم متعدد المثيلات (MIL) ، تكون البيانات منظمة في أكياس مثيلات. بالنسبة للصور عالية الدقة ، يأخذ هذا شكل تقسيم الصورة الأصلية عالية الدقةإلى بقع صور أصغر. ومع ذلك ، لا تتطلب MIL سوى الملصقات الموجودة على ملصق الحقيبة. هذا يعنى لا يتعين علينا تصنيف كل حالة على حدة، مما يوفر الكثير من الوقت والمال. يوجد أدناه رسم متحرك قصير يشرح العملية بمزيد من التفصيل.
نتيجة استخدام MIL للصور عالية الدقة هو ذلك يتعامل مع كل من المشاكل الموضحة أعلاه . أولاً ، نظرًا لأن النموذج الآن يعالج فقط تصحيحات أصغر ، فإن عدد معلمات النموذج أقل بكثير. هذا يجعل من الممكن تدريب النموذج بالفعل. ثانياً: البقع التي يتم استخلاصها الحفاظ على التفاصيل الدقيقة التي تم التقاطها في الصورة الأصلية عالية الدقة ، لذلك لا يتم فقد أي معلومات.
بالنظر إلى أن التربية الإعلامية والمعلوماتية هي نهج مناسب لتطبيق التعلم الآلي على الصور عالية الدقة ، كيف يمكننا فهم كيفية اتخاذ النماذج المدربة للقرارات؟
تفسير التعلم المثيل المتعدد
يعد فهم كيفية اتخاذ نماذج التربية الإعلامية والمعلوماتية قرارًا مجال البحث الذي كنت أعمل عليه مؤخرًا [3]، مما يؤدي إلى طريقة جديدة: التفسيرات المحلية لتعلم المثيل المتعدد (MILLI). لقد تعاملت مع هذا من وجهة نظر لا أدري. هذا يعني أنه لم يتم وضع افتراضات حول نموذج التربية الإعلامية والمعلوماتية الأساسي. على هذا النحو ، فإن أساليبي هي ينطبق على أي نوع من طراز MIL ؛ الحالي أو المستقبل.
بشكل عام ، الهدف من التربية الإعلامية والمعلوماتية القابلة للتفسير هو فهم هدفين:
- أيّهي الحالات المهمة في الحقيبة؟ هذه هي الحالات التي يتم استخدامها لاتخاذ القرارات.
- ماذا النتائج هل تدعم هذه الحالات؟ يمكن للحالات المختلفة أن تدعم نتائج مختلفة ، لذلك فقط تحديد المثيلات الرئيسية لا يقدم تفسيرًا كاملاً.
بالنسبة للصور عالية الدقة ، يمكن الإجابة على هذين السؤالين عن طريق إبراز البقع المهمة في الصورةالتي تدعم نتائج مختلفة. على سبيل المثال ، يمكن أن يكون علم الأنسجة الرقمي تحديد أنواع مختلفة من نوى الخلايا التي تشير إلى خطر الإصابة بالسرطان [4]. ثم يتم تقديم شرح لعملية صنع القرار جنبًا إلى جنب مع تنبؤ النموذج. يمكن استخدام هذا لإبلاغ المستخدم النهائي عن سبب التوصل إلى قرار معين ، تسهيل الثقة في النموذج.
تسمح MILLI لنا بفهم كيفية اتخاذ نماذج MIL للقرارات استغلال خاصية مشتركة لجميع نماذج التربية الإعلامية والمعلوماتية . نظرًا لأن أكياس MIL لا يجب أن تكون بنفس الحجم (على سبيل المثال ، يمكن أن تحتوي على عدد مختلف من المثيلات لكل كيس) ، يجب أن تكون جميع طرازات MIL ، حسب التصميم ، قادرة على معالجة الأكياس ذات الأحجام المختلفة. هذا يعني أننا قادرون على قم بإزالة المثيلات من الأكياس واستمر في عمل تنبؤات ، وهي خاصية تنفرد بها MIL (في النماذج غير MIL ، من المستحيل إزالة الميزات ببساطة). من خلال إزالة الحالات ومراقبة التغيير في التنبؤ ، من الممكن تكوين صورة لـ أيّالحالات التي تقود عملية صنع القرار في النموذج ، و ماذا نتائج تلك الحالات الدعم.
إن الاقتراب من الدراية الإعلامية والمعلوماتية القابلة للتفسير بهذه الطريقة أمر كثير أكثر فعالية من النهج الحالية. تتضمن هذه الأساليب الحالية أنواعًا معينة من نماذج التربية الإعلامية والمعلوماتية قابل للتفسير بطبيعته.كجزء من معالجتها ، تنتج هذه النماذج تفسيراتها الخاصة لعملية اتخاذ القرار. على سبيل المثال ، يمكن أن يشمل ذلك صنع تنبؤات المثال بالإضافة إلى تنبؤات الحقيبة [5] أو تعيين قيم للإشارة إلى المقدار الانتباه الذي يدفعه النموذج لكل حالة [2]. لا يقتصر الأمر على أن التفسيرات التي قدمتها MILLI أكثر فعالية ودقة من النماذج القابلة للتفسير بطبيعتها ، ميلي هي نموذج لاأدري ، مما يعني أنه ينطبق على أي نوع من نماذج MIL. على العكس من ذلك ، النهج القابلة للتفسير بطبيعتها تعمل فقط لأنواع معينة من النماذج، مما يحد من قابليتها للتطبيق.
ملخص
لا يمكن معالجة الصور عالية الدقة باستخدام تقنيات التعلم الآلي التقليدية. بدلا من ذلك ، نهج خاص يعرف باسم متعددة مثيل التعلمممكن استخدامه. تسمح لنا التقنيات الجديدة بفهم كيفية استخدام نماذج التعلم متعددة الأمثلة المدربة للبيانات لاتخاذ القرارات ، و تقديم تفسيرات عملية صنع القرار للمستخدمين النهائيين.
مراجع
[1] جيه دينج ، دبليو دونج ، ر. سوتشر ، L.-J. Li و K. Li و L. Fei-Fei ، “Imagenet: A
قاعدة بيانات الصور الهرمية واسعة النطاق ، “في ، الصفحات 248-255 ، IEEE ، 2009.
[2] إم إلسي ، وج. تومكزاك ، وإم ويلينج ،
تعلم الموقف “في ، ص 2127–
2136 ، PMLR ، 2018.
[3] J. Early، C. Evers، and S. Ramchurn، “نموذج التفسير اللاأدري لـ
متعددة المثيلات “في ، 2022.
[4] K. Sirinukunwattana، SEA Raza، Y.-W. تسانغ ، دكتور سنيد ، آي إيه كري ،
و NM Rajpoot ، “التعلم العميق الحساس للمنطقة المحلية للكشف عن النوى وتصنيفها في صور أنسجة سرطان القولون الروتينية” ، المجلد. 35 ، لا. 5 ، ص 1196-1206 ، 2016.
[5] X. Wang و Y. Yan و P. Tang و X. Bai و W. Liu ، “إعادة النظر في حالات متعددة
الشبكات العصبية “، المجلد. 74 ، ص 15-24 ، 2018
نُشر شرح الذكاء الاصطناعي للصور عالية الدقة في الأصل في Towards AI on Medium ، حيث يواصل الأشخاص المحادثة من خلال تسليط الضوء على هذه القصة والرد عليها.
تم النشر عبر نحو الذكاء الاصطناعي