Dna

  • October 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Dna as PDF for free.

More details

  • Words: 1,431
  • Pages: 23
‫استخدام نماذج ماركوف المخفية في البحث‬ ‫عن الجينات ضمن تسلسلت ‪DNA‬‬

‫مقدمة‬ ‫‪‬‬

‫إقتراح موضوع إطروحة لنيل شهادة الماجستير من جامعة حلب كلية‬ ‫الهندسة الكهربائية واللكترونية قسم الحاسبات للطالب خالد الشمعة‬ ‫بالتعاون مع المركز الدولي للبحوث الزراعية في المناطق الجافة ‪.ICARDA‬‬

‫‪‬‬

‫عنوان الطروحة‪:‬‬

‫استخدام نماذج ماركوف المخفية في البحث عن الجينات ضمن تسلسلت ‪DNA‬‬ ‫‪Using Hidden Markov Models to finding gene in DNA sequences‬‬ ‫‪‬‬

‫الشراف للدكتور عامر بوشي من جامعة حلب كلية الهندسة الكهربائية‬ ‫واللكترونية قسم الحاسبات‪ ،‬والدكتور ‪ Murari Singh‬من المركز الدولي‬ ‫للبحوث الزراعية في المناطق الجافة ‪.ICARDA‬‬

‫هدف البحث‬ ‫‪‬‬

‫يهدف هذا البحث إلى تطوير برمجية بلغة ‪ Perl‬قادرة على قراءة كتل بيانات‬ ‫تسلسلت ‪ DNA‬النصية الخام والمخزنة وفق التنسيقات المعيارية المخصصة‬ ‫لهذا النوع من البيانات‪ ،‬ومن ثم البحث ضمنها عن القطع التي تمثل الجينات‬ ‫الوظيفية للكائن الحي وذلك من بين ركام المليين من الحرف الصماء‪،‬‬ ‫باستخدام نماذج ماركوف المخفية‪.‬‬

‫‪‬‬

‫سنتطرق في هذا العرض التقديمي إلى النقاط التالية‪:‬‬ ‫‪ ‬توطئة بيولوجية (إحيائية)‪.‬‬ ‫‪ ‬شرح المسألة المراد حلها‪.‬‬ ‫‪ ‬الطرائق والدوات التي سيتم استخدامها‪.‬‬

‫توطئة بيولوجية (إحيائية)‬

‫الحمض الريبي النووي المنقوص الكسجين ‪DNA‬‬ ‫‪‬‬

‫يتألف الحمض الريبي النووي المنقوص الكسجين‬ ‫الدنا ‪ DNA‬من أربع قواعد كيميائية أو لبنات يرمز لها‬ ‫بالختصارات (‪ ،)A, T, C, G‬وهي أشبه ما تكون‬ ‫بشيفرة رباعية تتضمن المجموعة الكاملة من‬ ‫التعليمات اللزمة لبناء الكائن الحي‪.‬‬

‫‪‬‬

‫يبنى شريط الدنا ‪ DNA‬من شفعين مجدولين مؤلفين‬ ‫من تلك اللبنات بحيث تتقابل فيه كل ‪ A‬فقط مع ‪T‬‬ ‫وكل ‪ C‬فقط مع ‪ ،G‬حيث يتوزع هذا الشريط‬ ‫المجدول على عدة بنى مستقلة تدعى الصبغيات‬ ‫وتتوضع في نواة كل خلية (للنسان ‪ 23‬صبغي)‪.‬‬

‫‪‬‬

‫يختلف طول شريط الدنا ‪ DNA‬الجمالي من كائن‬ ‫إلى آخر‪ ،‬ويبلغ طوله في النسان ‪ 3.2‬بليون قاعدة‪.‬‬

‫الجينات ‪Genes‬‬ ‫‪‬‬

‫يطلق اسم الجين على الجزء الوظيفي من‬ ‫تسلسل الدنا ‪ DNA‬والذي يتضمن تعليمات‬ ‫تستخدم في بناء بروتين معين ذي وظيفة محددة‬ ‫(عدد الجينات في النسان هو ‪ 25000‬جين‬ ‫تقريبا)‪.‬‬

‫‪‬‬

‫ل تشكل المناطق التي تقوم بترميز الجينات ضمن‬ ‫الصبغيات سوى نسبة ضئيلة من الطول الجمالي‬ ‫لسلسلة الدنا ‪DNA )3%‬في حالة البشر)‪.‬‬

‫‪‬‬

‫تتبعثر الجينات ضمن الصبغيات على امتداد جزيء‬ ‫الدنا ‪ ،DNA‬فيما لم يتم التعرف على وظيفة ما‬ ‫تبقى من شريط الدنا ‪ DNA‬بشكل علمي حتى‬ ‫الن‪.‬‬

‫الحماض المينية ‪Amino Acids‬‬ ‫‪‬‬

‫تستخدم الكائنات الحية ‪ 20‬حمضا أمينيا‬ ‫مختلفا كأحجار بناء للف البروتينات‬ ‫الموجودة في أجسادها‪.‬‬

‫‪‬‬

‫تختلف هذه الحموض المينية بأشكالها‬ ‫وأحجامها وصفاتها الكيميائية مثل محبتها‬ ‫أو كراهيتها للماء‪.‬‬

‫‪‬‬

‫تنشأ فيما بين قواعد الحموض المينية‬ ‫رابطة تدعى بالرابطة الببتيدية وذلك حين‬ ‫اقتراب قواعد تلك الحموض المينية من‬ ‫بعضها البعض بشكل كاف‪ ،‬مما يساعد‬ ‫في بناء سلسل طويلة منها ذات هيكل‬ ‫قوي ومرن في ذات الن‪.‬‬

‫الرحلة من الجين إلى البروتين (‪)1‬‬ ‫‪‬‬

‫لتحويل شيفرات الجينات الموجودة في جزيء الدنا ‪DNA‬‬ ‫ضمن الصبغيات إلى بروتينات فاعلة يتم استخدام وسيط‬ ‫هو الرنا المرسال ‪.mRNA‬‬

‫‪‬‬

‫يقوم الرنا المرسال ‪ mRNA‬بنسخ شيفرة الجين المطلوب‬ ‫وذلك من خلل إنشاء متمم لسلسلة الدنا ‪.DNA‬‬

‫‪‬‬

‫ضمن جزيء الرنا ‪ RNA‬يتم بشكل عام استبدال القاعدة‬ ‫الكيميائية ‪ T‬بالقاعدة الكيميائية ‪ U‬المكافئة من حيث‬ ‫الوظيفة في تشافعها مع القاعدة الكيميائية ‪.A‬‬

‫‪‬‬

‫يتاح لجزيئات الرنا المرسال ‪ mRNA‬مغادرة نواة الخلية‬ ‫إلى جسمها لتتم عملية تصنيع البروتينات هنالك‪.‬‬

‫الرحلة من الجين إلى البروتين (‪)2‬‬ ‫‪‬‬

‫للكائنات الحية نظام تشفير ترمز فيه كل ثلثة‬ ‫قواعد متتالية إلى أحد الحموض المينية‪.‬‬

‫‪‬‬

‫من المعلوم أننا نستطيع إنشاء ‪ 64‬تشكيل ممكن‬ ‫لثلثيات مبنية من أربعة قواعد مختلفة‪ ،‬في حين‬ ‫أن لدينا ‪ 20‬حمضا أمينيا فقط بالضافة إلى رمزي‬ ‫البدء والنهاية‪ ،‬مما يعني أن لبعض الحماض‬ ‫المينية أكثر من ترميز‪.‬‬

‫‪‬‬

‫لقد أثبتت الدراسات العلمية اللحقة أن آلية‬ ‫التشفير هذه بديعة من حيث قدرتها على تحمل‬ ‫الخطاء والطفرات بحيث نحصل في النهاية على‬ ‫بروتين سوي من حيث الوظيفة‪.‬‬

‫الرحلة من الجين إلى البروتين (‪)3‬‬ ‫‪‬‬

‫تتم عملية بناء البروتينات الفعلية ضمن‬ ‫الريبوزوم‪ ،‬وهو جسيم من مكونات الخلية‬ ‫يرتبط مع سلسل رنا المرسال ‪mRNA‬‬ ‫الخارجة من نواة الخلية‪ ،‬ليقوم بتفسير‬ ‫شيفراتها إلى سلسل الحماض المينية‪.‬‬

‫‪‬‬

‫تستعين هذه العملية بجزيء رنا الناقل‬ ‫‪ tRNA‬والذي يمتلك من جهة مفتاحا ذي‬ ‫ثلث قواعد‪ ،‬ويرتبط من الجهة الخرى‬ ‫بالحمض الميني الموافق لذلك المفتاح‪.‬‬

‫‪‬‬

‫يسمح وجود الحماض المينية قرب بعضها‬ ‫في الريبوزوم بتشكيل الرابطة الببتيدية‬ ‫ومن ثم تحرر الرنا الناقل ‪.tRNA‬‬

‫آلية ربط الحماض المينية في الريبوزوم ‪Rebosome‬‬ ‫ريبوزوم‬

‫أحماض أمينية تشكل‬ ‫سلسلة ببتيدية‬

‫‪Pro‬‬

‫‪Val‬‬

‫‪Tyr‬‬

‫‪His‬‬

‫‪Met‬‬

‫’‪3‬‬ ‫رنا الناقل‬ ‫‪GGA‬‬

‫‪CAU‬‬

‫‪AUG‬‬

‫‪CCU‬‬

‫‪GUA‬‬

‫‪UAC‬‬

‫الرمز المتمم‬ ‫’‪5‬‬

‫شريط رنا المرسال‬ ‫الرمز‬

‫تشكيل البروتينات ‪Proteins‬‬ ‫‪‬‬

‫مع نمو سلسلة الحماض المينية تبدأ بنية‬ ‫البروتين الثلثية البعاد بالتشكل‪ ،‬وذلك تبعا‬ ‫للخصائص الكيميائية والحيزية للحماض‬ ‫المينية وتسلسلها‪.‬‬

‫‪‬‬

‫إن بنية البروتين الثلثية البعاد هي التي‬ ‫تحدد وظيفته‪ ،‬وحين تحدث طفرة تغير أحد‬ ‫تلك الحماض المينية فإن وظيفة البروتين‬ ‫ذاته قد تتأثر‪.‬‬

‫‪‬‬

‫يعتبر مرض فقر الدم المنجلي مثال على‬ ‫ذلك‪ ،‬حيث يؤدي تغير قاعدة وحيدة ضمن‬ ‫رنا المرسال ‪ mRNA‬إلى تكوين بروتين‬ ‫خضاب دم مشوه وعاجز عن حمل‬ ‫الكسجين بكفاءة‪.‬‬

‫شرح المسألة المراد حلها‬

‫شكل وطبيعة بيانات الدخل‬ ‫‪‬‬

‫تقدم بيانات الدخل على‬ ‫شكل ملفات نصية‬ ‫تتضمن سيل طويل من‬ ‫تسلسلت الحرف ‪A,‬‬ ‫‪ T, C, G‬الناتجة عن‬ ‫سلسلة جزيء الدنا‬ ‫‪ DNA‬المدروس‪ ،‬وقد‬ ‫تتضمن تلك الملفات‬ ‫بعض الترويسات التي‬ ‫تتضمن معلومات‬ ‫إضافية‪ ،‬كالرقم‬ ‫المعرف ومصدر‬ ‫المعلومات‪.‬‬

‫مسألة تحديد المقاطع التي تتضمن الجينات‬ ‫‪‬‬

‫تعتبر هذه المهمة تحديا ً صعبا ً بحد ذاته‪ ،‬إذ تفشل معظم أساليب البحث‬ ‫المعتادة والتي صممت لمعالجة النصوص في مثل تلك المهمة وذلك نظراً‬ ‫لن تفسير تسلسلت أحرف ‪ DNA‬هو عملية أقل صرامة مقارنة باللغة‬ ‫المكتوبة‪ ،‬فليس من النادر أن يكون لدينا على سبيل المثال تسلسلين‬ ‫متكافئين تماما ً من حيث الوظيفة لكنهما ل يتطابقان في أكثر من ‪ %30‬من‬ ‫أحرفهما‪.‬‬

‫‪‬‬

‫هذا عدى عن حقيقة عدم وجود نقطة علم تحدد المكان الذي تبدأ منه قراءة‬ ‫الثلثيات التي ترمز إلى الحماض المينية‪ ،‬مما يعطينا ثلثة قراءات محتملة‬ ‫لذات السلسلة‪ ،‬وإن تذكرنا أن هنالك سلسلة متممة يمكن لها أن تكون هي‬ ‫بدورها تحمل ترميزا للجينات‪ ،‬فنصل بالجمال إلى ‪ 6‬قراءات محتملة‪.‬‬

‫الطرائق والدوات التي سيتم استخدامها‬

‫نماذج ماركوف المخفية ‪HMM‬‬ ‫‪‬‬

‫تنتمي نماذج ماركوف إلى مجموعة النماذج‬ ‫الحصائية‪ ،‬ففي نماذج ماركوف العتيادية تكون‬ ‫الحالت مرئية بشكل مباشرة‪ ،‬ولذا تكون احتمالت‬ ‫النتقال من حالة إلى أخرى هي كل ما نحتاج إلى‬ ‫معرفته لتحديد النموذج‪.‬‬

‫‪‬‬

‫في نماذج ماركوف المخفية ل يمكننا الطلع على‬ ‫الحالت بشكل مباشر‪ ،‬لكن عوضا عن ذلك تكون‬ ‫لدينا مجموعة من إشارات الخرج مع احتمال توليد‬ ‫كل إشارة خرج من مختلف حالت النموذج‪.‬‬

‫‪‬‬

‫عادة ما تتوفر لدينا احتمالت النتقال والخرج‬ ‫بالضافة إلى سلسلة إشارات الخرج الملحظة‪،‬‬ ‫فيما يكمن التحدي في تخمين سلسلة الحالت‬ ‫التي أدت إلى ذلك السلوك‪.‬‬

‫مثال توضيحي‬ ‫‪‬‬

‫بفرض أن لديك صديقة تقطن في مكان بعيد وتتواصل معها من خلل الهاتف‪ ،‬ولتكن هذه‬ ‫الصديقة مهتمة بثلثة أنشطة فقط هي التنزه والتسوق والتنظيف‪ ،‬بحيث أن اختيارها لما ستقوم‬ ‫به من نشاط في يوم ما يتعلق بشكل حصري بحالة الطقس في ذلك اليوم‪.‬‬

‫‪‬‬

‫بطبيعة الحال لن تكون لديك معرفة مباشرة بحالة الطقس حيث تقطن صديقتك‪ ،‬لكن لديك‬ ‫تلميحات يمكنك الستفادة منها‪ ،‬وهي ما تخبرك به صديقتك عما تقوم به من نشاط حينما تتصل‬ ‫بها‪ ،‬ومن خلل هذه المعلومة ستحاول تخمين حالة الطقس لديها‬

‫‪0.6‬‬

‫الحالة البتدائية‬

‫‪0.4‬‬

‫‪0.4‬‬ ‫‪0.7‬‬

‫‪0.6‬‬

‫مشمس‬

‫ماطر‬ ‫‪0.3‬‬ ‫‪0.1‬‬ ‫تنزه‬

‫‪0.4‬‬

‫‪0.5‬‬

‫تسوق تنظيف‬

‫‪0.6‬‬ ‫تنزه‬

‫‪0.3‬‬

‫‪0.1‬‬

‫تسوق تنظيف‬

‫مجالت تطبيق نماذج ماركوف المخفية ‪HMM‬‬ ‫‪‬‬

‫التعرف على الكلم المنطوق‪.‬‬

‫‪‬‬

‫التعرف على حركات الجسد وإيماءاته‪.‬‬

‫‪‬‬

‫التعرف الضوئي على النصوص‪.‬‬

‫‪‬‬

‫الترجمة اللية‪.‬‬

‫‪‬‬

‫المعلوماتية الحيوية ‪ Bioinformatics‬من قبيل التنبؤ بمناطق‬ ‫ترميز البروتينات (بمعنى آخر الجينات ‪ )Genes‬ضمن تسلسلت‬ ‫الدنا ‪.DNA‬‬

‫لغة ‪Perl‬‬ ‫‪‬‬

‫أطلقت هذه اللغة لول مرة عام ‪ 1987‬من قبل‬ ‫‪ ،Larry Wall‬وهي لغة برمجية عامة الغراض‬ ‫صممت في الساس لمعالجة النصوص‪ ،‬لكن‬ ‫استخدامها انتشر لحقا ليشمل طيفا واسعا من‬ ‫المهام منها إدارة النظمة‪ ،‬وبرمجة تطبيقات‬ ‫الويب‪.‬‬

‫‪‬‬

‫تميل لغة ‪ Perl‬إلى كونها لغة عملية (بمعنى أنها‬ ‫سهلة الستخدام وفعالة ومتكاملة)‪ ،‬كما تتميز‬ ‫بدعمها لكل نمطي البرمجة الجرائية والموجهة‬ ‫بالكائنات‪.‬‬

‫‪‬‬

‫تحظى لغة ‪ Perl‬بكم كبير من المكتبات المطورة‬ ‫من قبل طرف ثالث في خدمة أهداف ومهام‬ ‫خاصة‪.‬‬

‫مشروع ‪BioPerl‬‬ ‫‪‬‬

‫لقد تم إطلق مشروع ‪ BioPerl‬من أجل تطوير‬ ‫مجموعة من المكتبات الغرضية التوجه‬ ‫والمكتوبة باستخدام لغة ‪ Perl‬وذلك بهدف‬ ‫تسهيل التعامل مع البيانات البيولوجية‬ ‫(الحيائية) ومعالجتها‪.‬‬

‫‪‬‬

‫تقدم مكتبات هذا المشروع بيئة عمل موسعة‬ ‫ومنسقة لجراء عمليات الحوسبة البيولوجية‬ ‫(الحيائية)‪ ،‬حيث تتضمن العديد من الدوات‬ ‫التي يمكن إعادة استخدامها من أجل تطوير‬ ‫تطبيقات متنوعة في هذا الحقل من العلوم‪.‬‬

‫لغة الحوسبة الحصائية ‪R‬‬ ‫‪‬‬

‫تعتبر لغة ‪ R‬المفتوحة المصدر عبارة عن لغة وبيئة‬ ‫برمجية تخدم عمليات الحوسبة الرياضية الحصائية‬ ‫وما يتعلق بها من المخططات البيانية‪ ،‬وقد طورت‬ ‫لول مرة في جامعة أوكلند ‪ Auckland‬بنيوزيلندا‪.‬‬

‫‪‬‬

‫تعتبر لغة ‪ R‬لغة واسعة النتشار في تطوير‬ ‫التطبيقات الحصائية وتحليل البيانات‪ ،‬كما أصبحت‬ ‫لغة معيارية يتم تدريسها في العديد من جامعات‬ ‫العالم لهذه الغاية‪.‬‬

‫‪‬‬

‫تتميز لغة ‪ R‬بقوة إمكانياتها الرسومية التي‬ ‫تستطيع من خللها توليد مخططات بيانية عالية‬ ‫الدقة‪.‬‬

‫راجياً أن تحظى فكرة هذه‬ ‫الطروحة على رضاكم‪ ،‬وشكراً‬

Related Documents

Dna
October 2019 56
Dna
May 2020 44
Dna
June 2020 44
Dna
June 2020 29
Dna
October 2019 52
Dna
May 2020 37