الأخبار

نظام الذكاء الاصطناعي Artificial intelligence يتنبأ بسرعة بكيفية ارتباط بروتينين

يمكن أن يساعد نموذج التعلم الآلي machine-learning model العلماء في تسريع تطوير الأدوية الجديدة.

يمكن للأجسام المضادة Antibodies، وهي بروتينات صغيرة ينتجها الجهاز المناعي immune system، أن تلتصق بأجزاء معينة من الفيروس لتحييده. بينما يواصل العلماء محاربة SARS-CoV-2، الفيروس المسبب لـ Covid-19، فإن أحد الأسلحة المحتملة هو جسم مضاد اصطناعي يرتبط ببروتينات الفيروس المرتفعة لمنع الفيروس من دخول خلية بشرية.

لتطوير جسم مضاد اصطناعي synthetic antibody ناجح، يجب على الباحثين أن يفهموا بالضبط كيف سيحدث هذا الارتباط. يمكن للبروتينات، ذات الهياكل ثلاثية الأبعاد المتكتلة lumpy 3D structures التي تحتوي على العديد من الطيات، أن تلتصق ببعضها البعض في ملايين التوليفات، لذا فإن العثور على مركب البروتين المناسب بين عدد لا يحصى من المرشحين تقريبًا يستغرق وقتًا طويلاً.

لتبسيط العملية، أنشأ باحثو معهد ماساتشوستس للتكنولوجيا نموذجًا للتعلم الآلي machine-learning model يمكنه التنبؤ مباشرة بالمركب الذي سيتشكل عندما يرتبط بروتينان معًا. تقنيتهم ​​أسرع بما يتراوح بين 80 و 500 مرة من طرق البرمجيات الحديثة، وغالبًا ما تتنبأ بهياكل بروتينية أقرب إلى الهياكل الفعلية التي تمت ملاحظتها تجريبياً.

يمكن أن تساعد هذه التقنية العلماء على فهم أفضل لبعض العمليات البيولوجية التي تنطوي على تفاعلات البروتين، مثل تكرار الحمض النووي وإصلاحه؛ ويمكنه أيضًا تسريع عملية تطوير أدوية جديدة.

"التعلم العميق Deep learning جيد جدًا في التقاط التفاعلات بين البروتينات المختلفة التي يصعب على الكيميائيين أو علماء الأحياء كتابتها بشكل تجريبي. بعض هذه التفاعلات معقدة للغاية، ولم يجد الناس طرقًا جيدة للتعبير عنها. يمكن لنموذج التعلم العميق هذا أن يتعلم هذه الأنواع من التفاعلات من البيانات"، كما يقول Octavian-Eugen Ganea، باحث ما بعد الدكتوراة في مختبر MIT لعلوم الكمبيوتر والذكاء الاصطناعي (CSAIL) Computer Science and Artificial Intelligence Laboratory والمؤلف الرئيسي المشارك للورقة.

المؤلف الرئيسي المشارك لـ Ganea هو Xinyuan Huang، طالب دراسات عليا في ETH Zurich. يضم المؤلفون المشاركون في معهد ماساتشوستس للتكنولوجيا Regina Barzilay، الأستاذة المتميزة في كلية الهندسة للذكاء الاصطناعي والصحة في CSAIL، وTommi Jaakkola، أستاذ Thomas Siebel للهندسة الكهربائية في CSAIL وعضو معهد البيانات والأنظمة والمجتمع. سيتم تقديم البحث في المؤتمر الدولي لتمثيل التعلم.

مرفق البروتين Protein attachment
يركز النموذج الذي طوره الباحثون، المسمى Equidock، على الالتحام الصلب للجسم rigid body docking- والذي يحدث عندما يرتبط بروتينان عن طريق الدوران أو الترجمة في مساحة ثلاثية الأبعاد، لكن أشكالهما لا تنضغط أو تنحني.

يأخذ النموذج الهياكل ثلاثية الأبعاد لبروتينين ويحول تلك الهياكل إلى رسوم بيانية ثلاثية الأبعاد يمكن معالجتها بواسطة الشبكة العصبية. تتكون البروتينات من سلاسل الأحماض الأمينية، ويتم تمثيل كل من هذه الأحماض الأمينية بواسطة عقدة في الرسم البياني.

قام الباحثون بدمج المعرفة الهندسية في النموذج، لذلك فهو يفهم كيف يمكن للأشياء أن تتغير إذا تم تدويرها أو ترجمتها في مساحة ثلاثية الأبعاد. يحتوي النموذج أيضًا على معرفة رياضية مضمنة تضمن ارتباط البروتينات دائمًا بنفس الطريقة، بغض النظر عن مكان وجودها في الفضاء ثلاثي الأبعاد. هذه هي الطريقة التي ترسو بها البروتينات في جسم الإنسان.

باستخدام هذه المعلومات، يحدد نظام التعلم الآلي ذرات البروتينين التي من المرجح أن تتفاعل وتشكل تفاعلات كيميائية، تُعرف باسم نقاط الجيب الملزمة. ثم تستخدم هذه النقاط لوضع البروتينين معًا في معقد.

يشرح Ganea: "إذا استطعنا أن نفهم من البروتينات أي الأجزاء الفردية من المحتمل أن تكون نقاط الجيب الرابطة هذه، فإن ذلك سوف يلتقط جميع المعلومات التي نحتاجها لوضع البروتينين معًا. بافتراض أنه يمكننا إيجاد هاتين المجموعتين من النقاط، يمكننا فقط معرفة كيفية تدوير البروتينات وترجمتها بحيث تتطابق مجموعة واحدة مع المجموعة الأخرى".

كان التغلب على نقص بيانات التدريب أحد أكبر تحديات بناء هذا النموذج. نظرًا لوجود القليل من البيانات التجريبية ثلاثية الأبعاد للبروتينات، كان من المهم بشكل خاص دمج المعرفة الهندسية في Equidock، كما يقول Ganea. بدون هذه القيود الهندسية، قد يلتقط النموذج ارتباطات خاطئة في مجموعة البيانات.

ثانية مقابل ساعات Seconds vs. hours
بمجرد تدريب النموذج، قارنه الباحثون بأربع طرق برمجية. Equidock قادر على التنبؤ بمركب البروتين النهائي بعد ثانية واحدة إلى خمس ثوانٍ فقط. استغرقت جميع خطوط الأساس وقتًا أطول بكثير، من 10 دقائق إلى ساعة أو أكثر.

في مقاييس الجودة quality measures، التي تحسب مدى تطابق مجمع البروتين المتوقع مع معقد البروتين الفعلي، كان Equidock في كثير من الأحيان مشابهًا لخطوط الأساس، لكنه في بعض الأحيان كان أداؤه دون المستوى.

"ما زلنا متخلفين وراء أحد خطوط الأساس. لا يزال من الممكن تحسين طريقتنا، ويمكن أن تظل مفيدة. يمكن استخدامه في فحص افتراضي كبير جدًا حيث نريد أن نفهم كيف يمكن لآلاف البروتينات أن تتفاعل وتشكل مجمعات. يمكن استخدام طريقتنا لإنشاء مجموعة أولية من المرشحين بسرعة كبيرة، ومن ثم يمكن ضبطها باستخدام بعض الأساليب التقليدية الأكثر دقة، ولكن الأبطأ".

بالإضافة إلى استخدام هذه الطريقة مع النماذج التقليدية، يريد الفريق دمج تفاعلات ذرية محددة في Equidock حتى يتمكن من إجراء تنبؤات أكثر دقة. على سبيل المثال، ترتبط الذرات الموجودة في البروتينات أحيانًا من خلال تفاعلات كارهة للماء، والتي تتضمن جزيئات الماء.

يقول Ganea إن أسلوبهم يمكن أيضًا تطبيقه على تطوير جزيئات صغيرة شبيهة بالعقاقير. ترتبط هذه الجزيئات بأسطح البروتين بطرق محددة، لذا فإن التحديد السريع لكيفية حدوث هذا الارتباط يمكن أن يقصر الجدول الزمني لتطوير الدواء.

في المستقبل، يخططون لتعزيز Equidock حتى يتمكن من عمل تنبؤات لرسو البروتين المرن. أكبر عقبة هناك هي نقص البيانات الخاصة بالتدريب، لذلك يعمل Ganea وزملاؤه على إنشاء بيانات تركيبية يمكنهم استخدامها لتحسين النموذج.

تم تمويل هذا العمل جزئيًا من قبل اتحاد التعلم الآلي للاكتشافات الصيدلانية والتوليف Machine Learning for Pharmaceutical Discovery and Synthesis consortium، والمؤسسة السويسرية الوطنية للعلوم Swiss National Science Foundation، وعيادة عبد اللطيف جميل للتعلم الآلي في الصحة Abdul Latif Jameel Clinic for Machine Learning in Health، واكتشاف DTRA للتدابير الطبية المضادة للتهديدات الجديدة والناشئة (DOMANE) DTRA Discovery of Medical Countermeasures Against New and Emerging وبرنامج الاكتشاف الجزيئي المعجل DARPA Accelerated Molecular Discovery.