الأخبار التكنولوجية والاستعراضات والنصائح!

يقترح باحثون من جامعة سنغافورة الوطنية Mind-Video: أداة ذكاء اصطناعي جديدة تستخدم بيانات الرنين المغناطيسي الوظيفي من الدماغ لإعادة إنشاء صورة فيديو

ستساعدك المقالة التالية: يقترح باحثون من جامعة سنغافورة الوطنية Mind-Video: أداة ذكاء اصطناعي جديدة تستخدم بيانات الرنين المغناطيسي الوظيفي من الدماغ لإعادة إنشاء صورة فيديو

لقد جعل فهم الإدراك البشري إعادة بناء الرؤية البشرية من عمليات الدماغ أمرًا مثيرًا للاهتمام ، خاصة عند استخدام تقنيات غير جراحية مثل التصوير بالرنين المغناطيسي الوظيفي (fMRI). كان هناك الكثير من التقدم في استعادة الصور الثابتة من تسجيلات الدماغ غير الغازية ، ولكن ليس كثيرًا في طريق التجارب البصرية المستمرة مثل الأفلام.

على الرغم من أن التقنيات غير الغازية تجمع فقط الكثير من البيانات لأنها أقل قوة وأكثر عرضة للتأثيرات الخارجية مثل الضوضاء. بالإضافة إلى ذلك ، يعد جمع بيانات التصوير العصبي عملية مكلفة وتستغرق وقتًا طويلاً.

تم إحراز تقدم على الرغم من هذه التحديات ، وعلى الأخص في تعلم ميزات مفيدة بالرنين المغناطيسي الوظيفي مع أزواج متفرقة من التعليقات التوضيحية للرنين المغناطيسي الوظيفي. على عكس الصور الثابتة ، فإن التجربة المرئية البشرية عبارة عن تدفق مستمر ومتغير من المشاهد والحركات والأشياء. نظرًا لأن التصوير بالرنين المغناطيسي الوظيفي يقيس الإشارات المعتمدة على مستوى أكسجة الدم (BOLD) ويلتقط صورًا لنشاط الدماغ كل بضع ثوانٍ ، فقد يكون من الصعب استعادة التجربة البصرية الديناميكية. يمكن اعتبار كل قراءة للرنين المغناطيسي الوظيفي “متوسط” لنشاط الدماغ أثناء الفحص. على العكس من ذلك ، فإن معدل الإطارات للفيديو القياسي هو 30 إطارًا في الثانية (FPS). في الوقت الذي يستغرقه الحصول على إطار واحد للرنين المغناطيسي الوظيفي ، يمكن عرض 60 إطار فيديو كمحفزات بصرية ، مما قد يعرض الموضوع لمجموعة واسعة من الكائنات والإجراءات والإعدادات. لذلك ، يعد استرداد الأفلام بمعدل FPS أكبر بكثير من الدقة الزمنية للرنين المغناطيسي الوظيفي عن طريق فك تشفير الرنين المغناطيسي الوظيفي أمرًا صعبًا.

قدم باحثون من جامعة سنغافورة الوطنية وجامعة هونغ كونغ الصينية MinD-Video ، وهو عبارة عن خط أنابيب معياري لفك تشفير الدماغ يشتمل على مشفر الرنين المغناطيسي الوظيفي ونموذج انتشار مستقر معزز تم تدريبه بشكل مستقل ثم ضبطه معًا. يأخذ النموذج المقترح البيانات من الدماغ على مراحل ، مما يوسع معرفته بالمجال الدلالي.

في البداية ، يقوم الفريق بتدريب ميزات التصوير بالرنين المغناطيسي الوظيفي المرئي العامة باستخدام التعلم غير الخاضع للإشراف على نطاق واسع ونمذجة الدماغ المقنعة. بعد ذلك ، يستخدمون الوسائط المتعددة لمجموعة البيانات المشروحة لتقطير الميزات ذات الصلة بالدلالات واستخدام التعلم المتباين لتدريب مشفر الرنين المغناطيسي الوظيفي في مساحة التدريب المسبق على اللغة المتباينة (CLIP). بعد ذلك ، تم تدريب نموذج الانتشار المعزز المستقر ، المصمم لإنتاج الفيديو باستخدام إدخال الرنين المغناطيسي الوظيفي ، مع الميزات المكتسبة لشحذها.

أضاف الباحثون تركيزًا قريبًا من الإطار إلى نموذج الانتشار المستقر لتوليد مقاطع فيديو ديناميكية للمشهد. لقد طوروا أيضًا نظام توجيه خصوم لتكييف فحوصات الرنين المغناطيسي الوظيفي لأغراض محددة. تم استرداد مقاطع الفيديو عالية الجودة ، وكانت دلالاتها ، مثل الحركات وديناميكيات المشهد ، موضعية.

قام الفريق بتقييم النتائج باستخدام الفيديو ومقاييس الدلالات والبكسل على مستوى الإطار. مع دقة تصل إلى 85٪ في المقاييس الدلالية و 0.19 في SSIM ، تعد هذه الطريقة أكثر فعالية بنسبة 49٪ من الأساليب الحديثة السابقة. تشير النتائج أيضًا إلى أن النموذج يبدو أن لديه معقولية بيولوجية وقابلية للتفسير بناءً على نتائج دراسة الانتباه ، والتي أظهرت أنه يرسم خرائط للقشرة البصرية والشبكات المعرفية العليا.

نظرًا للاختلافات الفردية ، لا تزال قدرة التقنية المقترحة على التعميم عبر الموضوعات قيد الدراسة. يتم استخدام أقل من 10٪ من وحدات البكسل القشرية في هذه الطريقة لإعادة البناء ، بينما تظل الإمكانات الكاملة لبيانات الدماغ الإجمالية غير مستغلة. يعتقد الباحثون أنه مع بناء نماذج أكثر تعقيدًا ، فمن المحتمل أن يتم استخدام هذه المنطقة في أماكن مثل علم الأعصاب و BCI.