الأخبار التكنولوجية والاستعراضات والنصائح!

التعلم العميق لديناميات الجزيئات الحيوية واسعة النطاق: مقياس أبحاث جامعة هارفارد نموذج أليغرو كبير ومدرب مسبقًا على أنظمة مختلفة

ستساعدك المقالة التالية: التعلم العميق لديناميات الجزيئات الحيوية واسعة النطاق: مقياس أبحاث جامعة هارفارد نموذج أليغرو كبير ومدرب مسبقًا على أنظمة مختلفة

تعتمد البيولوجيا الحاسوبية والكيمياء وهندسة المواد على القدرة على توقع التطور الزمني للمادة على النطاق الذري. بينما تحكم ميكانيكا الكم الاهتزازات ، والهجرة ، وتفكك الروابط بين الذرات والإلكترونات على مستوى ضئيل ، فإن الظواهر التي تحكم العمليات الفيزيائية والكيميائية المرصودة غالبًا ما تحدث على أطوال أكبر بكثير – ومقاييس زمنية أطول. إن الابتكار في كل من البنى شديدة التوازي مع الوصول إلى معالجات الإكساسكيل والطرق الحسابية السريعة والدقيقة للغاية لالتقاط التفاعلات الكمية أمر مطلوب لربط هذه الأحجام. لا تستطيع مناهج الكمبيوتر الحالية التحقيق في التعقيد البنيوي للأنظمة الفيزيائية والكيميائية الواقعية ، ومدة تطورها الملحوظ طويلة جدًا بالنسبة للمحاكاة الذرية.

كان هناك الكثير من الأبحاث حول MLIPs (إمكانات التعلم الآلي بين الذرات) على مدار العقدين الماضيين. تُستخدم الطاقات والقوى المكتسبة من البيانات المرجعية عالية الدقة لتشغيل MLIPs ، والتي تتسع خطيًا مع عدد الذرات. استخدمت المحاولات الأولى عملية غاوسية أو شبكة عصبية بسيطة جنبًا إلى جنب مع الواصفات المصنوعة يدويًا. كان لدى MLIPs المبكرة دقة تنبؤية ضعيفة لأنهم لم يتمكنوا من التعميم على هياكل البيانات التي لم تكن موجودة في التدريب ، مما أدى إلى عمليات محاكاة هشة لا يمكن استخدامها في أي مكان آخر.

يوضح بحث جديد من مختبر هارفارد أن الأنظمة الجزيئية الحيوية التي تحتوي على ما يصل إلى 44 مليون ذرة يمكن تصميمها بدقة SOTA باستخدام Allegro. استخدم الفريق نموذج Allegro كبير مُدرب مسبقًا للأنظمة ذات التعداد الذري الذي يتراوح من 23000 لـ DHFR إلى 91000 للعامل IX ، و 400000 للسليلوز ، و 44.000.000 لقفيصة فيروس نقص المناعة البشرية ، وأكثر من 100000 للأنظمة الأخرى. تم استخدام نموذج Allegro مُدرب مسبقًا مع 8 ملايين أوزان ، مع وجود خطأ قسري قدره 26 meV / A فقط تم تحقيقه من خلال التدريب على مليون بنية بدقة وظيفية هجينة على مجموعة بيانات SPICE الرائعة. محاكاة الإكساسكيل السريعة لمجموعات أنظمة المواد التي لم يكن من الممكن تخيلها من قبل ممكنة بفضل إمكانية تعلم المجموعات الكاملة من المواد غير العضوية والجزيئات العضوية بمقياس البيانات هذا. هذا نموذج ضخم وقوي للغاية ، مع 8 ملايين وزن.

لإجراء التعلم النشط للبناء التلقائي لمجموعات التدريب ، أظهر الباحثون أنه من الممكن بشكل فعال تحديد عدم اليقين في تنبؤات النموذج المتكافئ العميق للقوى والطاقة. نظرًا لأن النماذج المتكافئة دقيقة ، فإن عنق الزجاجة هو الآن في حسابات بنية الإلكترون الكمومية المطلوبة لتدريب MLIPs. نظرًا لأنه يمكن تكييف نماذج خليط Gaussian بسهولة في Allegro ، فسيكون من الممكن تشغيل عمليات محاكاة على نطاق واسع مع مراعاة عدم اليقين باستخدام نموذج واحد بدلاً من المجموعة.

Allegro هو النهج الوحيد القابل للتطوير الذي يتفوق على التصاميم التقليدية لتمرير الرسائل والقائمة على المحولات. عبر الأنظمة الكبيرة المختلفة ، تظهر سرعات قصوى تزيد عن 100 خطوة / ثانية وتصل النتائج إلى أكثر من 100 مليون ذرة. حتى على نطاق واسع يبلغ 44 مليون ذرة من قفيصة فيروس نقص المناعة البشرية ، حيث تكون الأعطال أكثر وضوحًا بشكل عام ، فإن عمليات المحاكاة مستقرة على مدى نانوثانية خارج الصندوق. لم يواجه الفريق أي مشاكل تقريبًا طوال فترة الإنتاج.

لفهم ديناميكيات الأنظمة الجزيئية الحيوية الضخمة والتفاعلات على المستوى الذري بين البروتينات والأدوية بشكل أفضل ، يأمل الفريق أن يمهد عملهم الطريق لطرق جديدة في الكيمياء الحيوية واكتشاف الأدوية.