ترجمة: شيماء ميران
يحتوي الحمض النووي (الريبوزي منقوص الاوكسجين) داخل خلايا أجسامنا على المعلومات الأساسيَّة اللازمة لديمومة الحياة. وكان أكبر التحديات العلميَّة في القرن الماضي هو فهم كيفيَّة تخزين هذه المعلومات وهيكلتها. واليوم، تمكن الباحثون مع نموذج (GROVER) والنموذج اللغوي الجديد (LLMs)، التعلم الآلي لفهم وتوليد نصّ لغة بشريَّة مدربة على الحمض النووي البشري، من فك شفرة المعلومات المعقدة المخفيَّة في جينومنا.
لقد سعى العلماء منذ اكتشاف لولب الحمض النووي المزدوج في العام 1953 الى فهم المعلومات المشفرة الموجودة داخله. ومن الواضح أنها متعددة الطبقات، ونسبة الجينات فيه من (1 – 2) بالمئة فقط والتسلسلات هي التي تشفر البروتينات.
للحمض النووي العديد من الوظائف تتجاوز تشفير البروتينات، إذ ينظمُ بعضه تسلسلات الجينات، والبعض الآخر يقدم أغراضاً هيكليَّة، ومعظم التسلسلات تقوم بوظائف متعددة في وقتٍ واحدٍ. اليوم، لا نفهم معنى معظم الحمض النووي. وفي ما يخصُّ فهمَ المناطق غير المشفرة في الحمض النووي، يبدو أنَّنا بدأنا للتو بحل المعلومات.
المعني البيولوجي
لقد غيّر الذكاء الاصطناعي والنموذج اللغوي (LLMs) مثل (ChatGPT) (وهو روبوت محادثة مطور) فهمنا للغة، وطورت نماذج اللغة الكبيرة من خلال التدريب على النص، القدرة على استخدام اللغة في سياقات متعددة. ونظراً لكون الحمض النووي هو رمز الحياة، فإنَّ (GROVER) يعامله كلغة، ويمكن للعلماء استخدامه لاستخراج المعني البيولوجي من الحمض النووي.
تعلم (GROVER) قواعد الحمض النووي، فهي من حيث اللغة تشبه تعلم قواعد اللغة ودلالاتها؛ ما يعني تعلم القواعد التي تحكم التسلسلات وترتيب النوكليوتيدات والتسلسلات ومعناها في الحمض النووي. ومثلما تتعلم نماذج (GPT) اللغويَّة اللغات البشريَّة، تعلم (GROVER) بنحوٍ أساسيٍ كيفيَّة “التحدث” بالحمض النووي.
لم يكن (GROVER) قادراً على التنبؤ بدقة تسلسلات الحمض النووي فقط، بل تمكن من استخراج المعلومات السياقيَّة ذات المعنى البيولوجي، مثل تحديد المحفزات الجينيَّة أو مواقع ربط البروتين على الحمض النووي، كما يتعلم العمليات التي تعدُّ عموماً عمليات تنظيميَّة تحدث فوق الحمض النووي بدلاً من ترميزه.
السبيل الى تطور الطب
إنَّ الحمض النووي يشبه اللغة، إذ يحتوي على أربعة أحرف تبني تسلسلات وتحمل معناها. وتخالف اللغة في أنَّ الحمض النووي لا يحتوي على كلمات محددة، بل أربع قواعد نيوكليوتيديَّة «الأدينين (A)، والسيتوزين (C)، والجوانين (G)، والثايمين (T)” والتي تعمل كوحداتٍ أساسيَّة للرمز الجيني الذي يتألف من جين.
كان يتوجب على الفريق إنشاء قاموس (DNA) قبل البدء بتدريب (GROVER)، فقد استخدموا طريقة مستخدمة في الخوارزميات وهي ضغط البيانات، من خلال تحليل كامل الجينوم والبحث عن مجموعة حروفٍ وهذا ما يحدث غالباً. فبدؤوا بحرفين وراجعوا الحمض النووي بالكامل كثيراً لبنائه مجموعات الحروف المتعددة الأكثر شيوعاً. وبذلك، في 600 دورة تقريباً، تمكن العلماء من تجزئة الحمض النووي الى كلمات تسمح لـ (GROVER) تقديم الأفضل. وعندما يتعلق الأمر بالتنبؤ بالتسلسل التالي، نحن ندرك أنَّ هذا النظام قادرٌ على تحقيق أفضل النتائج.
يعدُ (GROVER) بأنه سيقوم بكشف طبقات مختلفة من الشفرة الجينيَّة، فالحمض النووي يحتوي على معلومات أساسيَّة حول كينونتنا كبشر، ومدى استعدادنا للإصابة بالأمراض، وقدرتنا على الاستجابة للعلاجات. وقد يساعد فهمنا لقواعد الحمض النووي من خلال نموذج لغوي في الكشف عن عمق المعنى البيولوجي المخفي في الحمض النووي، ما يؤدي إلى تقدم علم الجينوم والطب الشخصي في المستقبل.
عن جريدة كويت تايمز