استخدام نماذج ماركوف المخفية في البحث عن الجينات ضمن تسلسلت DNA
مقدمة
إقتراح موضوع إطروحة لنيل شهادة الماجستير من جامعة حلب كلية الهندسة الكهربائية واللكترونية قسم الحاسبات للطالب خالد الشمعة بالتعاون مع المركز الدولي للبحوث الزراعية في المناطق الجافة .ICARDA
عنوان الطروحة:
استخدام نماذج ماركوف المخفية في البحث عن الجينات ضمن تسلسلت DNA Using Hidden Markov Models to finding gene in DNA sequences
الشراف للدكتور عامر بوشي من جامعة حلب كلية الهندسة الكهربائية واللكترونية قسم الحاسبات ،والدكتور Murari Singhمن المركز الدولي للبحوث الزراعية في المناطق الجافة .ICARDA
هدف البحث
يهدف هذا البحث إلى تطوير برمجية بلغة Perlقادرة على قراءة كتل بيانات تسلسلت DNAالنصية الخام والمخزنة وفق التنسيقات المعيارية المخصصة لهذا النوع من البيانات ،ومن ثم البحث ضمنها عن القطع التي تمثل الجينات الوظيفية للكائن الحي وذلك من بين ركام المليين من الحرف الصماء، باستخدام نماذج ماركوف المخفية.
سنتطرق في هذا العرض التقديمي إلى النقاط التالية: توطئة بيولوجية (إحيائية). شرح المسألة المراد حلها. الطرائق والدوات التي سيتم استخدامها.
توطئة بيولوجية (إحيائية)
الحمض الريبي النووي المنقوص الكسجين DNA
يتألف الحمض الريبي النووي المنقوص الكسجين الدنا DNAمن أربع قواعد كيميائية أو لبنات يرمز لها بالختصارات ( ،)A, T, C, Gوهي أشبه ما تكون بشيفرة رباعية تتضمن المجموعة الكاملة من التعليمات اللزمة لبناء الكائن الحي.
يبنى شريط الدنا DNAمن شفعين مجدولين مؤلفين من تلك اللبنات بحيث تتقابل فيه كل Aفقط مع T وكل Cفقط مع ،Gحيث يتوزع هذا الشريط المجدول على عدة بنى مستقلة تدعى الصبغيات وتتوضع في نواة كل خلية (للنسان 23صبغي).
يختلف طول شريط الدنا DNAالجمالي من كائن إلى آخر ،ويبلغ طوله في النسان 3.2بليون قاعدة.
الجينات Genes
يطلق اسم الجين على الجزء الوظيفي من تسلسل الدنا DNAوالذي يتضمن تعليمات تستخدم في بناء بروتين معين ذي وظيفة محددة (عدد الجينات في النسان هو 25000جين تقريبا).
ل تشكل المناطق التي تقوم بترميز الجينات ضمن الصبغيات سوى نسبة ضئيلة من الطول الجمالي لسلسلة الدنا DNA )3%في حالة البشر).
تتبعثر الجينات ضمن الصبغيات على امتداد جزيء الدنا ،DNAفيما لم يتم التعرف على وظيفة ما تبقى من شريط الدنا DNAبشكل علمي حتى الن.
الحماض المينية Amino Acids
تستخدم الكائنات الحية 20حمضا أمينيا مختلفا كأحجار بناء للف البروتينات الموجودة في أجسادها.
تختلف هذه الحموض المينية بأشكالها وأحجامها وصفاتها الكيميائية مثل محبتها أو كراهيتها للماء.
تنشأ فيما بين قواعد الحموض المينية رابطة تدعى بالرابطة الببتيدية وذلك حين اقتراب قواعد تلك الحموض المينية من بعضها البعض بشكل كاف ،مما يساعد في بناء سلسل طويلة منها ذات هيكل قوي ومرن في ذات الن.
الرحلة من الجين إلى البروتين ()1
لتحويل شيفرات الجينات الموجودة في جزيء الدنا DNA ضمن الصبغيات إلى بروتينات فاعلة يتم استخدام وسيط هو الرنا المرسال .mRNA
يقوم الرنا المرسال mRNAبنسخ شيفرة الجين المطلوب وذلك من خلل إنشاء متمم لسلسلة الدنا .DNA
ضمن جزيء الرنا RNAيتم بشكل عام استبدال القاعدة الكيميائية Tبالقاعدة الكيميائية Uالمكافئة من حيث الوظيفة في تشافعها مع القاعدة الكيميائية .A
يتاح لجزيئات الرنا المرسال mRNAمغادرة نواة الخلية إلى جسمها لتتم عملية تصنيع البروتينات هنالك.
الرحلة من الجين إلى البروتين ()2
للكائنات الحية نظام تشفير ترمز فيه كل ثلثة قواعد متتالية إلى أحد الحموض المينية.
من المعلوم أننا نستطيع إنشاء 64تشكيل ممكن لثلثيات مبنية من أربعة قواعد مختلفة ،في حين أن لدينا 20حمضا أمينيا فقط بالضافة إلى رمزي البدء والنهاية ،مما يعني أن لبعض الحماض المينية أكثر من ترميز.
لقد أثبتت الدراسات العلمية اللحقة أن آلية التشفير هذه بديعة من حيث قدرتها على تحمل الخطاء والطفرات بحيث نحصل في النهاية على بروتين سوي من حيث الوظيفة.
الرحلة من الجين إلى البروتين ()3
تتم عملية بناء البروتينات الفعلية ضمن الريبوزوم ،وهو جسيم من مكونات الخلية يرتبط مع سلسل رنا المرسال mRNA الخارجة من نواة الخلية ،ليقوم بتفسير شيفراتها إلى سلسل الحماض المينية.
تستعين هذه العملية بجزيء رنا الناقل tRNAوالذي يمتلك من جهة مفتاحا ذي ثلث قواعد ،ويرتبط من الجهة الخرى بالحمض الميني الموافق لذلك المفتاح.
يسمح وجود الحماض المينية قرب بعضها في الريبوزوم بتشكيل الرابطة الببتيدية ومن ثم تحرر الرنا الناقل .tRNA
آلية ربط الحماض المينية في الريبوزوم Rebosome ريبوزوم
أحماض أمينية تشكل سلسلة ببتيدية
Pro
Val
Tyr
His
Met
’3 رنا الناقل GGA
CAU
AUG
CCU
GUA
UAC
الرمز المتمم ’5
شريط رنا المرسال الرمز
تشكيل البروتينات Proteins
مع نمو سلسلة الحماض المينية تبدأ بنية البروتين الثلثية البعاد بالتشكل ،وذلك تبعا للخصائص الكيميائية والحيزية للحماض المينية وتسلسلها.
إن بنية البروتين الثلثية البعاد هي التي تحدد وظيفته ،وحين تحدث طفرة تغير أحد تلك الحماض المينية فإن وظيفة البروتين ذاته قد تتأثر.
يعتبر مرض فقر الدم المنجلي مثال على ذلك ،حيث يؤدي تغير قاعدة وحيدة ضمن رنا المرسال mRNAإلى تكوين بروتين خضاب دم مشوه وعاجز عن حمل الكسجين بكفاءة.
شرح المسألة المراد حلها
شكل وطبيعة بيانات الدخل
تقدم بيانات الدخل على شكل ملفات نصية تتضمن سيل طويل من تسلسلت الحرف A, T, C, Gالناتجة عن سلسلة جزيء الدنا DNAالمدروس ،وقد تتضمن تلك الملفات بعض الترويسات التي تتضمن معلومات إضافية ،كالرقم المعرف ومصدر المعلومات.
مسألة تحديد المقاطع التي تتضمن الجينات
تعتبر هذه المهمة تحديا ً صعبا ً بحد ذاته ،إذ تفشل معظم أساليب البحث المعتادة والتي صممت لمعالجة النصوص في مثل تلك المهمة وذلك نظراً لن تفسير تسلسلت أحرف DNAهو عملية أقل صرامة مقارنة باللغة المكتوبة ،فليس من النادر أن يكون لدينا على سبيل المثال تسلسلين متكافئين تماما ً من حيث الوظيفة لكنهما ل يتطابقان في أكثر من %30من أحرفهما.
هذا عدى عن حقيقة عدم وجود نقطة علم تحدد المكان الذي تبدأ منه قراءة الثلثيات التي ترمز إلى الحماض المينية ،مما يعطينا ثلثة قراءات محتملة لذات السلسلة ،وإن تذكرنا أن هنالك سلسلة متممة يمكن لها أن تكون هي بدورها تحمل ترميزا للجينات ،فنصل بالجمال إلى 6قراءات محتملة.
الطرائق والدوات التي سيتم استخدامها
نماذج ماركوف المخفية HMM
تنتمي نماذج ماركوف إلى مجموعة النماذج الحصائية ،ففي نماذج ماركوف العتيادية تكون الحالت مرئية بشكل مباشرة ،ولذا تكون احتمالت النتقال من حالة إلى أخرى هي كل ما نحتاج إلى معرفته لتحديد النموذج.
في نماذج ماركوف المخفية ل يمكننا الطلع على الحالت بشكل مباشر ،لكن عوضا عن ذلك تكون لدينا مجموعة من إشارات الخرج مع احتمال توليد كل إشارة خرج من مختلف حالت النموذج.
عادة ما تتوفر لدينا احتمالت النتقال والخرج بالضافة إلى سلسلة إشارات الخرج الملحظة، فيما يكمن التحدي في تخمين سلسلة الحالت التي أدت إلى ذلك السلوك.
مثال توضيحي
بفرض أن لديك صديقة تقطن في مكان بعيد وتتواصل معها من خلل الهاتف ،ولتكن هذه الصديقة مهتمة بثلثة أنشطة فقط هي التنزه والتسوق والتنظيف ،بحيث أن اختيارها لما ستقوم به من نشاط في يوم ما يتعلق بشكل حصري بحالة الطقس في ذلك اليوم.
بطبيعة الحال لن تكون لديك معرفة مباشرة بحالة الطقس حيث تقطن صديقتك ،لكن لديك تلميحات يمكنك الستفادة منها ،وهي ما تخبرك به صديقتك عما تقوم به من نشاط حينما تتصل بها ،ومن خلل هذه المعلومة ستحاول تخمين حالة الطقس لديها
0.6
الحالة البتدائية
0.4
0.4 0.7
0.6
مشمس
ماطر 0.3 0.1 تنزه
0.4
0.5
تسوق تنظيف
0.6 تنزه
0.3
0.1
تسوق تنظيف
مجالت تطبيق نماذج ماركوف المخفية HMM
التعرف على الكلم المنطوق.
التعرف على حركات الجسد وإيماءاته.
التعرف الضوئي على النصوص.
الترجمة اللية.
المعلوماتية الحيوية Bioinformaticsمن قبيل التنبؤ بمناطق ترميز البروتينات (بمعنى آخر الجينات )Genesضمن تسلسلت الدنا .DNA
لغة Perl
أطلقت هذه اللغة لول مرة عام 1987من قبل ،Larry Wallوهي لغة برمجية عامة الغراض صممت في الساس لمعالجة النصوص ،لكن استخدامها انتشر لحقا ليشمل طيفا واسعا من المهام منها إدارة النظمة ،وبرمجة تطبيقات الويب.
تميل لغة Perlإلى كونها لغة عملية (بمعنى أنها سهلة الستخدام وفعالة ومتكاملة) ،كما تتميز بدعمها لكل نمطي البرمجة الجرائية والموجهة بالكائنات.
تحظى لغة Perlبكم كبير من المكتبات المطورة من قبل طرف ثالث في خدمة أهداف ومهام خاصة.
مشروع BioPerl
لقد تم إطلق مشروع BioPerlمن أجل تطوير مجموعة من المكتبات الغرضية التوجه والمكتوبة باستخدام لغة Perlوذلك بهدف تسهيل التعامل مع البيانات البيولوجية (الحيائية) ومعالجتها.
تقدم مكتبات هذا المشروع بيئة عمل موسعة ومنسقة لجراء عمليات الحوسبة البيولوجية (الحيائية) ،حيث تتضمن العديد من الدوات التي يمكن إعادة استخدامها من أجل تطوير تطبيقات متنوعة في هذا الحقل من العلوم.
لغة الحوسبة الحصائية R
تعتبر لغة Rالمفتوحة المصدر عبارة عن لغة وبيئة برمجية تخدم عمليات الحوسبة الرياضية الحصائية وما يتعلق بها من المخططات البيانية ،وقد طورت لول مرة في جامعة أوكلند Aucklandبنيوزيلندا.
تعتبر لغة Rلغة واسعة النتشار في تطوير التطبيقات الحصائية وتحليل البيانات ،كما أصبحت لغة معيارية يتم تدريسها في العديد من جامعات العالم لهذه الغاية.
تتميز لغة Rبقوة إمكانياتها الرسومية التي تستطيع من خللها توليد مخططات بيانية عالية الدقة.
راجياً أن تحظى فكرة هذه الطروحة على رضاكم ،وشكراً