Analiza

  • November 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Analiza as PDF for free.

More details

  • Words: 5,415
  • Pages: 43
‫סיכום אנאליזה‪:‬‬ ‫אנוטציה – פירוט מקטעים ברצף שיש עליהם מידע יחודי‪.‬‬ ‫מצגת ‪:1‬‬ ‫•ביואינפורמטיקה – המקום בו טכנולוגית מידע וביולוגיה נפגשים לתורה‬ ‫משותפת‪ .‬טכנלוגית המידע מספק אלגוריתמים ואילו החלק הביולוגי‬ ‫מכוונן אותם ומשתמש בהם לטובת מחקר ביולוגי‪.‬‬ ‫•שאלות ביולוגיות שניתן לענות בעזרת אלגוריתמים לחיפוש רצפים‪:‬‬ ‫‪o‬האם הרצף שמצאתי כבר נמצא ע"י מישהו אחר‬ ‫‪o‬בנית מקטע דנ"א ארוך ע"ס מידע על מקטעם קצרים‬ ‫יותר‬ ‫‪o‬חיפוש תבניות‬ ‫‪o‬מציאת האזורים המקודדים לחלבון בגנום‬ ‫‪o‬השוואת רצפי ח‪.‬אמינו של חלבונים לצורך קביעת זהות ‪/‬‬ ‫שונות‬ ‫‪o‬מחקר (משפחות חלבונים)‬ ‫‪o‬מדידת מרחק אבולוציוני בין מינים‬ ‫‪o‬חיזוי תכונות של חלבונים‬ ‫•החלק המחשבי – ‪ DNA‬הוא ‪ String‬אנחנו יודעים לשחק עם ‪-stirng‬ים‪.‬‬ ‫•החלק הביולוגי – חשוב לזכור שפתרון שמתמטית הוא הנכון ביותר לא‬ ‫תמיד נכון ביותר מבחינה ביולוגית‪.‬‬ ‫מצגת ‪:2‬‬ ‫•הצורך בבסיסי נתונים ביולוגיים‪:‬‬ ‫‪o‬גידול בכמות המידע‬ ‫‪o‬דרך פרסום מועדפת של מידע חדש‬ ‫‪o‬כלי טוב לשימוש מחקרי‬ ‫•סוגי ‪:DB‬‬ ‫‪o‬ביביליוגרפיים ‪ -‬לדוגמא ‪ Medline‬או ‪ – PubMed‬מכיל‬ ‫‪ Abstract‬של מאמרים‪ ,‬כניסות של עיתונים חשובים‪,‬‬ ‫ספרים (טקסט חלקי ‪ /‬מלא)‪....‬‬ ‫‪o‬רצפים (דנ"א‪ ,‬חלבונים) –‬ ‫‪ ‬מידע חשוב שצריך להכיל‪:‬‬ ‫•רצף‬ ‫•‪AC‬‬ ‫•‪Refrences‬‬ ‫•מידע טקסונומי (קבוצות‬ ‫אורגניזמים)‬ ‫•אנוטציות‪ ,‬מילות מפתח ו‪-‬‬ ‫‪Cross Reference‬‬ ‫‪ DB‬שונים משתמשים בפורמטים שונים‬ ‫להצגת המידע – אין רגולציה‬ ‫דוגמאות לפורמטים‪ . Fasta, GenBank, EMBL :‬ישנם כלים (‬ ‫‪ )ReadSeq‬להחלפה בין פורמטים‪.‬‬ ‫‪ DB‬מרכזיים ל‪:DNA-‬‬

‫•‪ – GeneBank – USA‬מחולק‬ ‫לתת ‪:DB‬‬ ‫‪o‬מולקולרים –‬ ‫דנ"א‪,‬‬ ‫חלבונים‬ ‫‪o‬רצפים‪:‬‬ ‫‪m/Rna, Gene,‬‬ ‫‪...EST‬‬ ‫‪o‬קבוצות‬ ‫אורגניזמים‪:‬‬ ‫‪ – Hum‬אדם‪...‬‬

‫‪o‬סימונים‪:‬‬ ‫‪G‬‬ ‫‪‬‬ ‫‪e‬‬ ‫‪n‬‬ ‫‪e‬‬ ‫=‬ ‫‪1‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪5‬‬ ‫‪6‬‬ ‫‪7‬‬ ‫‪/‬‬ ‫‪g‬‬ ‫‪e‬‬ ‫‪n‬‬ ‫‪e‬‬ ‫=‬ ‫”‬ ‫‪x‬‬ ‫‪x‬‬ ‫‪x‬‬ ‫”‬ ‫–‬ ‫ג‬ ‫ן‬

x x x ‫ה‬ ‫ח‬ ‫ל‬ ‫מ‬ ‫נ‬ ‫ו‬ ‫ק‬ ' 1 ‫ו‬ ‫ע‬ ‫ד‬ 1 2 5 6 7 . m  R N A : j o i n ( 1 . . 6 4 , 2 1 4 0 2 2 7

4 … ) – ‫א‬ ‫ק‬ ‫ס‬ ‫ו‬ ‫נ‬ ‫י‬ ‫ם‬ + U T R ‫י‬ ‫ם‬ C  D S : j o i n ( 2 6 . 6 4 , 2 1 4 0 . . 2 2 7 4 … )

‫–‬ ‫ה‬ ‫מ‬ ‫י‬ ‫ד‬ ‫ע‬ ‫ה‬ ‫מ‬ ‫ק‬ ‫ו‬ ‫ד‬ ‫ד‬ ‫ב‬ ‫ל‬ ‫ב‬ ‫ד‬ ‫–‬ ‫ל‬ ‫ל‬ ‫א‬ ‫‪U‬‬ ‫‪T‬‬ ‫‪R‬‬ ‫‬‫י‬ ‫ם‬ ‫‪,‬‬ ‫ה‬ ‫‬‫‪S‬‬ ‫‪t‬‬ ‫‪o‬‬ ‫‪p‬‬ ‫‪C‬‬ ‫‪o‬‬ ‫‪d‬‬ ‫‪o‬‬ ‫‪n‬‬ ‫מ‬ ‫ו‬ ‫פ‬ ‫י‬

‫ע‬ ‫ב‬ ‫מ‬ ‫ק‬ ‫ט‬ ‫ע‬ ‫ה‬ ‫א‬ ‫ח‬ ‫ר‬ ‫ו‬ ‫ן‬ ‫‪.‬‬ ‫‪‬כ‬ ‫א‬ ‫ש‬ ‫ר‬ ‫מ‬ ‫ד‬ ‫ו‬ ‫ב‬ ‫ר‬ ‫ב‬ ‫מ‬ ‫ק‬ ‫ט‬ ‫ע‬ ‫ק‬ ‫ו‬ ‫מ‬ ‫פ‬ ‫ל‬ ‫י‬ ‫מ‬ ‫נ‬ ‫ט‬ ‫ר‬ ‫י‬ ‫א‬ ‫ז‬ ‫י‬ ‫‪:‬‬

‫‪o‬יתרונות‪/‬חסרו‬ ‫נות‪:‬‬ ‫‪‬נ‬ ‫פ‬ ‫ח‬ ‫מ‬ ‫י‬ ‫ד‬ ‫ע‬ ‫ג‬ ‫ד‬ ‫ו‬ ‫ל‬ ‫‪,‬‬ ‫‪C‬‬ ‫‪R‬‬ ‫ע‬ ‫ם‬ ‫‪D‬‬ ‫‪B‬‬ ‫א‬ ‫ח‬ ‫ר‬ ‫י‬ ‫ם‬ ‫ב‬ ‫‬‫‪N‬‬ ‫‪C‬‬ ‫‪B‬‬ ‫‪I‬‬ ‫‪,‬‬ ‫ת‬ ‫ת‬ ‫‪D‬‬ ‫‪B‬‬ ‫’‬ ‫‪s‬‬ ‫ב‬ ‫‬‫‪N‬‬ ‫‪C‬‬

‫‪B‬‬ ‫‪I‬‬ ‫‪‬נ‬ ‫פ‬ ‫ח‬ ‫מ‬ ‫י‬ ‫ד‬ ‫ע‬ ‫ג‬ ‫ד‬ ‫ו‬ ‫ל‬ ‫‪,‬‬ ‫א‬ ‫י‬ ‫ן‬ ‫ב‬ ‫ק‬ ‫ר‬ ‫ה‬ ‫‪,‬‬ ‫מ‬ ‫י‬ ‫ד‬ ‫ע‬ ‫ל‬ ‫א‬ ‫י‬ ‫ו‬ ‫צ‬ ‫א‬ ‫ה‬ ‫ח‬ ‫ו‬ ‫צ‬ ‫ה‬ ‫–‬ ‫א‬

‫נ‬ ‫ו‬ ‫ט‬ ‫צ‬ ‫י‬ ‫ו‬ ‫ת‬ ‫ל‬ ‫א‬ ‫ע‬ ‫י‬ ‫ק‬ ‫ב‬ ‫י‬ ‫ו‬ ‫ת‬ ‫–‬ ‫מ‬ ‫ב‬ ‫ו‬ ‫צ‬ ‫ע‬ ‫ע‬ ‫"‬ ‫י‬ ‫ה‬ ‫מ‬ ‫ש‬ ‫ג‬ ‫ר‬ ‫י‬ ‫ם‬ ‫‪.‬‬ ‫‪o‬תת ‪db:‬‬ ‫‪dbEST‬‬ ‫‪‬מ‬ ‫כ‬ ‫י‬ ‫ל‬ ‫ר‬ ‫צ‬ ‫פ‬

‫י‬ ‫‪E‬‬ ‫‪S‬‬ ‫‪T‬‬ ‫ש‬ ‫נ‬ ‫ו‬ ‫צ‬ ‫ר‬ ‫ו‬ ‫מ‬ ‫ר‬ ‫י‬ ‫צ‬ ‫ו‬ ‫ף‬ ‫ש‬ ‫ל‬ ‫‪c‬‬ ‫‪D‬‬ ‫‪N‬‬ ‫‪A‬‬ ‫‪.‬‬ ‫‪‬א‬ ‫ו‬ ‫ת‬ ‫ם‬ ‫י‬ ‫ת‬ ‫ר‬ ‫ו‬ ‫נ‬ ‫ו‬ ‫ת‬ ‫‪/‬‬ ‫ח‬ ‫ס‬ ‫ר‬ ‫ו‬ ‫נ‬ ‫ו‬ ‫ת‬

‫ש‬ ‫ל‬ ‫‪G‬‬ ‫‪e‬‬ ‫‪n‬‬ ‫‪B‬‬ ‫‪a‬‬ ‫‪n‬‬ ‫‪k‬‬ ‫‪– RefSeqo‬‬ ‫בסיס נותנים‬ ‫מבוקר‪ ,‬כל‬ ‫רצף ‪/‬‬ ‫מולקולה‬ ‫מופיע פעם‬ ‫אחת בלבד‪.‬‬ ‫‪o‬ישנו פורמט‬ ‫אחר ל‪ AC-‬ב‪-‬‬ ‫‪RefSeq‬‬ ‫שמתאר אותו‪,‬‬ ‫למשל‪:‬‬ ‫– ‪NM_1111‬‬ ‫‪RNA,‬‬ ‫‪– NP_1111‬‬ ‫חלבון‪..‬‬ ‫‪o‬סטטוס‪:‬‬ ‫‪G‬‬ ‫‪‬‬ ‫‪e‬‬ ‫‪n‬‬ ‫‪o‬‬ ‫‪m‬‬ ‫‪e‬‬ ‫‪A‬‬ ‫‪n‬‬ ‫‪n‬‬ ‫‪o‬‬ ‫‪t‬‬ ‫‪a‬‬ ‫‪t‬‬ ‫‪i‬‬ ‫‪o‬‬ ‫‪n‬‬ ‫–‬ ‫ה‬ ‫ר‬ ‫ש‬

‫ו‬ ‫מ‬ ‫ה‬ ‫ה‬ ‫ת‬ ‫ק‬ ‫ב‬ ‫ל‬ ‫ה‬ ‫א‬ ‫ו‬ ‫ט‬ ‫ו‬ ‫מ‬ ‫ט‬ ‫י‬ ‫ת‬ ‫‪,‬‬ ‫ו‬ ‫א‬ ‫י‬ ‫נ‬ ‫ה‬ ‫נ‬ ‫ת‬ ‫ו‬ ‫נ‬ ‫ה‬ ‫ל‬ ‫ב‬ ‫ד‬ ‫י‬ ‫ק‬ ‫ה‬ ‫‪.‬‬ ‫‪I‬‬ ‫‪n‬‬ ‫‪f‬‬ ‫‪r‬‬ ‫‪r‬‬ ‫‪e‬‬ ‫‪d‬‬ ‫–‬

‫ה‬ ‫ת‬ ‫ק‬ ‫ב‬ ‫ל‬ ‫ה‬ ‫מ‬ ‫ח‬ ‫י‬ ‫פ‬ ‫ו‬ ‫ש‬ ‫ר‬ ‫צ‬ ‫ף‬ ‫‪,‬‬ ‫ע‬ ‫ד‬ ‫י‬ ‫ן‬ ‫ל‬ ‫א‬ ‫ב‬ ‫ו‬ ‫צ‬ ‫ע‬ ‫ו‬ ‫נ‬ ‫י‬ ‫ס‬ ‫ו‬ ‫י‬ ‫י‬ ‫ם‬ ‫ל‬ ‫א‬ ‫י‬ ‫מ‬ ‫ו‬ ‫ת‬ ‫‪P‬‬ ‫‪r‬‬

‫‪e‬‬ ‫‪d‬‬ ‫‪i‬‬ ‫‪c‬‬ ‫‪t‬‬ ‫‪e‬‬ ‫‪d‬‬ ‫‬‫ה‬ ‫ר‬ ‫ש‬ ‫ו‬ ‫מ‬ ‫ה‬ ‫ע‬ ‫ו‬ ‫ד‬ ‫ל‬ ‫א‬ ‫ע‬ ‫ב‬ ‫ר‬ ‫ה‬ ‫ב‬ ‫י‬ ‫ק‬ ‫ו‬ ‫ר‬ ‫ת‬ ‫‪,‬‬ ‫ח‬ ‫ל‬ ‫ק‬ ‫מ‬ ‫ה‬ ‫מ‬ ‫י‬ ‫ד‬ ‫ע‬ ‫ב‬ ‫ר‬ ‫ש‬

‫ו‬ ‫מ‬ ‫ה‬ ‫ח‬ ‫ז‬ ‫ו‬ ‫י‬ ‫ו‬ ‫ל‬ ‫א‬ ‫א‬ ‫ו‬ ‫מ‬ ‫ת‬ ‫‪.‬‬ ‫‪P‬‬ ‫‪r‬‬ ‫‪o‬‬ ‫‪v‬‬ ‫‪i‬‬ ‫‪s‬‬ ‫‪i‬‬ ‫‪o‬‬ ‫‪n‬‬ ‫‪a‬‬ ‫‪l‬‬ ‫–‬ ‫ע‬ ‫ד‬ ‫י‬ ‫ן‬ ‫ל‬ ‫א‬ ‫נ‬ ‫ב‬ ‫ח‬ ‫ן‬ ‫‪,‬‬ ‫ה‬ ‫מ‬ ‫י‬ ‫ד‬

‫ע‬ ‫ה‬ ‫ת‬ ‫ק‬ ‫ב‬ ‫ל‬ ‫מ‬ ‫מ‬ ‫ק‬ ‫ו‬ ‫ר‬ ‫ש‬ ‫נ‬ ‫ח‬ ‫ש‬ ‫ב‬ ‫א‬ ‫מ‬ ‫י‬ ‫ן‬ ‫‪.‬‬ ‫‪R‬‬ ‫‪‬‬ ‫‪e‬‬ ‫‪v‬‬ ‫‪i‬‬ ‫‪e‬‬ ‫‪w‬‬ ‫‪d‬‬ ‫–‬ ‫נ‬ ‫ב‬ ‫ח‬ ‫ן‬ ‫‪.‬‬ ‫‪V‬‬ ‫‪‬‬ ‫‪a‬‬ ‫‪l‬‬ ‫‪i‬‬ ‫‪d‬‬ ‫‪a‬‬ ‫‪t‬‬ ‫‪e‬‬ ‫‪d‬‬ ‫–‬

‫א‬ ‫ו‬ ‫ש‬ ‫ר‬ ‫‪.‬‬ ‫•‪EMBL – EBI - England‬‬ ‫•‪DDBJ – Japan‬‬ ‫•כל השלושה מעודכנים‬ ‫ברמה שבועית‪ ,‬מחליפים‬ ‫מידע בינהם‪ ,‬אורך מקסימלי‬ ‫לכניסה של רצף ‪300Kbp‬‬ ‫מינימום‪.10bp :‬‬ ‫•מקור המידע‪ :‬קבוצות‬ ‫מחקר‪ ,‬מכונים לחקר הגנום‪,‬‬ ‫פטנטים (שיגור ישיר – אין‬ ‫בקרה)‪.‬‬ ‫‪o‬גנומים ‪ -‬מכילים מידע כל גנים‪ ,‬מיפוי‪ ,‬קישורים‬ ‫לרצפים‪....‬‬ ‫‪‬קיימים לכל המינים החשובים‪– GDB :‬אדם‪,‬‬ ‫‪ – MGD‬עכבר‪...‬‬ ‫‪ – Ensembl‬מכיל את כל רצפי ה‪DNA-‬‬ ‫(אדם) ברמה גנומית‪.‬‬ ‫‪‬ע"י שימוש בכלי תוכנה‪ ,‬ניתן לבצע‬ ‫אנאליזות‪:‬‬ ‫•גנים‪ ,SNP ,‬חזרות‪,‬‬ ‫הומולוגיות‪.‬‬ ‫•שייך ל‪.EBI-‬‬ ‫‪o‬חלבונים (משפחות‪/‬אתרים)‬ ‫‪o‬מוטציות ‪ /‬פולימורפיזם – מכיל מידע על וריאיות של‬ ‫רצפים – כאשר ישנו קישור (או לא) למחלות גנטיות‪.‬‬ ‫‪‬כלליים‪:‬‬ ‫•‪ – OMIM‬קטלוג למידע‬ ‫הגנטי ופגמים גנטיים –‬ ‫מכיל סיכומי ספרות‪,‬‬ ‫תמונות‪ ,‬קישורים למידע‬ ‫נוסף ומאמרים‪.‬‬ ‫•‪ – dbSNP‬מכיל את המידע‬ ‫על ‪ SNP‬ומוטציות מחיקה‬ ‫קטנות‪.‬‬ ‫•ספציפיים למחלות‪p53, :‬‬ ‫‪...Astma‬‬ ‫‪ D3o‬מבני‬ ‫‪o‬מטבולי ‪ /‬רגולטורי‬ ‫•‪ DB‬לחלבונים‪:‬‬ ‫‪ – SwissProto‬מספק‪ :‬רמת דיוק‪/‬בקרה טובה‪ ,‬אנוטציות‪:‬‬ ‫פונקציה‪ ,‬מבנה‪ ,‬דומיינים‪ ,‬שינויים לאחר תרגום‪.‬‬

‫‪ – trEMBLo‬מכיל רצפי ‪ mRNA‬מתורגמים – מיוצר‬ ‫אוטומטית ע"ס ‪ CDS‬מ‪ ,EMBL-‬מכיל את כל המידע‬ ‫שעדיין לא נכנס ל‪.Swiss Prot -‬‬ ‫‪ – GenPepto‬תרגום אוטומטי של ‪ CDS‬מ‪– GenBank -‬‬ ‫מלוכלך‪.‬‬ ‫‪ Pir – CRo‬בין‪... EMBL/ GenBannk / PDB/ GDB / OMIM :‬‬ ‫‪ DBo‬למשפחות חלבונים ‪-Domain /‬ים‪:‬‬ ‫‪‬זיהוי אתרים ע"י ‪MSA‬‬ ‫‪‬ניתנים להגדרה ע"פ‪ :‬תבנית (לנפוצים‬ ‫מאוד)‪ ,‬פרופיל (מטריצות השוואה)‪ ,‬מודל‬ ‫מרקוב – מודל הסתברותי‪.‬‬ ‫‪‬מכיל מידע ‪ /‬כלי אנאליזה לאיתור מהיר‬ ‫של משפחת החלבונים אליה רצף חדש‬ ‫שייך‪ ,‬ואלי גם לאבחן באופן כללי פונקציה‬ ‫של רצף חדש‪.‬‬ ‫‪‬נקראים ‪ Secondery DB‬שכן מבוססים על‬ ‫המידע שהושג ב‪( Primary-‬גנים ‪/‬‬ ‫גנומים‪ ,)..‬נוצרים ידנית או מופקים‬ ‫אוטומטית‪.‬‬ ‫‪ – Prosite‬מכיל מידע על דומיינים‬ ‫פונקציונלים‪.‬‬ ‫מצגת מס' ‪:3‬‬ ‫•מדוע כדאי להשוות רצפים‪ :‬קבלת מידע על יחסים אבולוציונים‪ ,‬חיזוי‬ ‫של מבנה ותפקיד של חלבון‪.‬‬ ‫•הומולוגיה – דימיון הנובע מאב קדמון משותף‪.‬‬ ‫•‪ - Alignment‬היפותזה הנוגעת לדימיון פיזי בין רצפים‪ ,‬השוואה בין שני‬ ‫רצפים‪ ,‬תוך חיפוש מקטעים באותו סדר בין שניהם‪.‬‬ ‫•‪ – DotPlots‬השוואה ויזואלית‪ ,‬משווים שני רצפים בנק' התחלה שונות‬ ‫של שניהם‪ ,‬שמים נק' במיקום של שתי ח‪.‬א זהות‪.‬‬ ‫•איכות ההשואה‪ :‬אחוזים – לא טוב‪ ,‬כאשר ניקח רצף גודל נקבל‬ ‫התאמה של ‪ x‬אבל תת רצף שלו יכול להראות ‪....100%‬‬ ‫•‪ - Global Alignment Score‬סה"כ החלקים היחסיים של תרומת תת רצך‬ ‫לניקוד הכולל‪ .‬ניתן לתת ניקוד שונה לזהות‪ ,‬החלפה‪ ,‬מחיקות‪/‬כניסות‪...‬‬ ‫•נהוג לבנות מטריצות חישוב‪ ,‬אשר יורדות לרזולוציה מלאה של השוואה‬ ‫בין נוק'‪ ,‬ובעלות ערכי חישוב עבור ‪-GAP‬ים כאשר נתן לפצל ערכים גם‬ ‫ל‪-‬תחילת ‪ /GAP‬המשך ‪...GAP‬‬ ‫•‪ Kimuras‬נתן משקל במטריצה שלו לעובדה שבהחלפת ח‪.‬א‪ .‬בוצע‬ ‫החלפה בין ‪ C/T A/G‬או‬ ‫‪ A/C‬ו – ‪ – T/G‬טנסורסיה‪..‬‬ ‫•באופן דומה‪ ,‬ניתן לבנות מטריצות להשוואת חלבונים‪ ,‬כאשר – ניתן גם‬ ‫לרדת לרזולוציה של החלפה בין חומצות אמינו דומות‪...‬‬ ‫•מטריצות חלבונים מכילות מידע להסברות ההחלפה של ח‪.‬א‪ .‬אחת‬ ‫באחרת‪.‬‬

‫ מטריצת הסתברויות של חלבונים (בחירת‬‫‪PAMo‬‬ ‫המטריצה ‪ /‬הרזולוציה הנכונה משפיעה על התוצאה)‬ ‫‪‬נבנה ע"ס משפחות חלבונים‪ ,‬ערכי‬ ‫המטריצה מחושבים ע"ס עצים פילוגנטיים‬ ‫של רצפים מאוד קרובים‪ ,‬אשר נוטים‬ ‫להחליף ח‪.‬א‪ .‬בודדות‪ .‬הכפלת מטריצות‬ ‫לעליה במרחק האבולוציוני‪.‬‬ ‫‪ – 1PAM‬מטריצות המחושבות ע"ס דימיון‬ ‫בין רצפים‪.‬‬ ‫‪‬יחידות ‪ PAM‬מודדות מרחק אבולוציוני – ‪1‬‬ ‫יחידת ‪ = PAM‬ההסתברות למוטציה‬ ‫נקודתית ב‪ 100-‬ח‪.‬א‪.‬‬ ‫‪‬ערך כל עמודה במטריצה מסוכם ל‪-‬‬ ‫‪ ,10,000‬תמיד האלכסון ‪ -‬הערכים‬ ‫הגדולים‪.‬‬ ‫‪‬מטריצת החישוב הסופית מחושבת כ‪:Lod-‬‬ ‫‪)S(a,b) = 10log(Mab / Pb‬‬ ‫‪ – Mab‬ההסתברות למוטצית החלפה בין ‪ a‬ל‪.b-‬‬ ‫‪ - Pb‬שכיחות של ‪ b‬בחלבון‪.‬‬ ‫‪ – )S(a/b‬יחס ההחלפה בין ‪ a‬ל‪.b-‬‬ ‫‪‬כפל מטריצות ‪ PAM1‬בעצמו נותן אפשרות‬ ‫לרדת לרזולוציה נמוכה יותר – ז"א מרחק‬ ‫אבולוציוני רחוק יותר‪ .‬לדוגמא כמו שב‪-‬‬ ‫‪ PAM1‬ניתן למצוא מוטציה ‪ 1‬כל ‪ ,100‬אזי‬ ‫ב‪ PAM250-‬ניתן למצוא ‪ 80‬מ' כל ‪ 100‬ח‪.‬א‪.‬‬ ‫– ז"א חלבונים מאוד רחוקים‪....‬‬ ‫‪ – BLOSUMxxo‬ה‪-Block-‬ים מכונסים ל‪-Cluster-‬ים‪,‬‬ ‫כאשר לפחות ‪ %xx‬מהח‪.‬א ב‪ Cluster-‬זהות‪ .‬ערכי‬ ‫המטריצה משוערכים מביצוע ‪ Alignmeny‬ללא מרווחים‬ ‫למשפחות חלבונים‪.‬‬ ‫‪o‬מחשבים את שכיחות ההתאמה בפועל עבור כל ח‪.‬א‬ ‫ברצף‪ ,‬למשל ב‪ 40%-‬מהמקרים ‪ A‬מוצמד ל‪ A-‬ב‪ 20%-‬ל‪-‬‬ ‫‪....C‬‬ ‫מחשבים את שכיחות ההתאמה הצפויה (ז"א כאשר ‪ A‬מול ‪ A‬ב‪-‬‬ ‫‪ C ,100%‬מול ‪.)...C‬‬ ‫מחלקים את הערך הראשון בערך השני ומקבלים את ההסתברות‪.‬‬ ‫הוצאת ‪ LOG‬ע"מ‬ ‫לנרמל מעניקה את הערך להכפלה במטריצה (חיובי = ח‪.‬א דומות –‬ ‫ככל שיותר קרובות‬ ‫– ערך יותר גבוה‪ ,‬שלילי = שונות)‪.‬‬ ‫‪o‬מטריצות ‪ – HARD‬מיועדות להתאמה בין רצפים בעלי‬ ‫מרחק אבולוציוני קצר‬ ‫‪ PAM‬ערך נמוך ‪ – BLOSUM‬ערך גבוה‬ ‫‪o‬מטריצת ‪ - SOFT‬מרחק אבולוציוני גדול‪,‬‬ ‫‪ PAM‬ערך גבוה ‪ – BLOSUM‬ערך נמוך‬ ‫‪Optimal Score = Optimal Alignmento‬‬ ‫‪ – Global‬ביצוע ‪ Alignment‬באורך מלא של‬ ‫שני הרצפים‬

‫•‪ – Needelman-Wunsch‬מציאת‬ ‫ה‪ Alignment-‬המקסימלי‪,‬‬ ‫ביצוע אנאליזה וסכימה לכל‬ ‫אורך הרצף‪ – .‬השיטה אינה‬ ‫מסוגלת לזהות בעצמה‬ ‫‪-Domain‬ים‪-Motif/‬ים‬ ‫והומולוגיה בינהם‪.‬‬ ‫•אופן חישוב סה"כ‬ ‫האפשרויות השונות ע"מ‬ ‫למצוא את את ה‪Alignment-‬‬ ‫האופטימלי הוא בעייתי‪ ,‬שכן‬ ‫מדובר בהמון אפשרויות‬ ‫שיש להשוות בינהם‪ .‬פותחה‬ ‫שיטה שנקראת‪:‬‬ ‫“‪– "Dynamic Programming Computation of scores‬‬ ‫השיטה פועלת ע"פ עקרון הרקורסיה‪ ,‬כאשר למעשה‬ ‫בכל צעד מחושבת ההתאמה הטובה ביותר בהתייחס‬ ‫לצעדים הקודמים‪.‬‬ ‫דוגמא‪:‬‬ ‫נק' התחלה‬ ‫‪A C G T‬‬ ‫‪A 1 -1 -1 -1‬‬ ‫‪C -1 1 -1 -1‬‬ ‫‪G -1 -1 1 -1‬‬ ‫‪T -1 -1 -1 1‬‬ ‫‪Gap = -2‬‬

‫‪ – Local‬מציאת מקטע ההתאמה הטוב‬ ‫ביותר בין שני הרצפים‬ ‫•‪ – Smith – Waterman‬מחפש‬ ‫את ההתאמה הטובה ביותר‬ ‫בין שני מקטעים‪ ,‬ללא קשר‬ ‫ישיר לאורכם‪ ,‬או לנק'‬ ‫ההתחלה‪ .‬בשיטה זו לא‬ ‫מבוצע בהכרח‬ ‫‪ Alignment‬לכל הרצף‪.‬‬ ‫•אופן החישוב דומה לחישוב‬ ‫בשיטה הגלובלית‪:‬‬ ‫‪o‬במקום ערכים‬ ‫שלילים‬ ‫מציבים ‪0‬‬ ‫‪o‬חישוב‬ ‫המסלול‬ ‫האופטימלי‬ ‫מבוצע‬ ‫מהערך הגבוה‬

‫‪GAP = -2‬‬ ‫באופן עקרוני‪:‬‬ ‫תזוזה לאחד הצדדים = ‪GAP‬‬ ‫תזוזה באלכסון =‬ ‫ערך במטריצה (זהות‪/‬החלפה)‬

‫ביותר ולא‬ ‫מהפינה‬ ‫הימנית‬ ‫התחתונה‪.‬‬

‫‪‬נקודות חשובות‪:‬‬ ‫•המסלול האופטימלי הוא‬ ‫תוצאה של מניפולציה‬ ‫חישובית ואינה בהכרח‬ ‫אומרת שזוהי ההתאמה‬ ‫הביולוגית הנכונה‪.‬‬ ‫•שכיחות החלפות של ח‪.‬א‪.‬‬ ‫אינה שווה בכל עמדה ברצף‬ ‫•הכנסת ‪-GAP‬ים אינה דומה‬ ‫למוטציות הכנסה‪/‬מחיקה‪.‬‬ ‫•מתוכנית המחשב תמיד‬ ‫מתקבלת תוצאה – גם כאשר‬ ‫לא הגיוני בכלל לבצע‬ ‫‪.Alignment‬‬ ‫•כלים‪:‬‬ ‫‪EMBOSSo‬‬ ‫‪programs‬‬ ‫& ‪(global‬‬ ‫‪local) - SRS‬‬ ‫‪NCBI Blasto‬‬ ‫‪)(local‬‬ ‫מצגת ‪:4‬‬ ‫•מדוע מבצעים ‪?MSA‬‬ ‫‪o‬זיהוי משפחת של חלבונים ע"ס איזורים הומולוגיים‪.‬‬ ‫‪o‬עזרה בזיהוי מבנה שניוני ושלישוני של רצפים חדשים‬ ‫‪o‬סיוע בחקר אבולוציוני‪ ,‬ובניית עצים פילוגניטים‪.‬‬

‫‪o‬מהנחות ה‪ - Alignment-‬אורגניזמים קרובים בעלי ‪DNA‬‬ ‫ורצף חלבונים דומה‪.‬‬ ‫חלבונים דומים‪ ,‬לעיתים קרובות בעלי אותה‬ ‫פונק'‪.‬‬ ‫שני גנים נקראים ‪ Paralogous‬אם עברו‬ ‫‪- Paralogouso‬‬ ‫דופליקציה‪.‬‬ ‫‪ – Orthologuso‬שני גנים נקראים ‪ Orthologus‬אם עברו‬ ‫ספציאציה (היו זהים והפכו להיות שונים)‪.‬‬ ‫‪ - :MSAo‬לקבוצת רצפים אין התאמה יחידה נכונה‪ ,‬אלא‬ ‫רק ה‪ Alignmnet-‬שנחשב אופטימלי ע"ס החישובים‪.‬‬ ‫קביעת ה‪ Alignment-‬הטוב ביותר עבור ההשפעה נתונה‬ ‫לשיקול דעתו של החוקר‪.‬‬

‫‪o‬שיטות ה‪ MSA-‬מבוססות על ביצוע ‪ PWA‬רקורסיבי בשלב‬ ‫הראשון בין שני רצפים‪ ,‬ובשלבים הבאים בין תוצאת ה‪PWA-‬‬ ‫הקודם לבין רצף נוסף‪.‬‬ ‫‪: Progressive Alignment‬‬ ‫•ביצוע ‪ PWA‬בין כל זוגות הרצפים‬ ‫האפשריים‬ ‫•חישוב "מרחק" והכנת מטריצת‬ ‫מרחקים בין כל זוג רצפים ע"פ ה‬ ‫‪.PWA‬‬ ‫‪Human‬‬ ‫‪86.3‬‬ ‫‪122.6‬‬ ‫‪80.8‬‬ ‫‪3.3‬‬ ‫‪0.0 ‬‬

‫‪Monkey‬‬ ‫‪90.8‬‬ ‫‪122.4‬‬ ‫‪84.7‬‬ ‫‪0.0‬‬ ‫‪3.3‬‬

‫‪Mosquito‬‬ ‫‪105.6‬‬ ‫‪117.8‬‬ ‫‪0.0‬‬ ‫‪84.7‬‬ ‫‪80.8‬‬

‫‪Rice‬‬ ‫‪84.9‬‬ ‫‪0.0‬‬ ‫‪117.8‬‬ ‫‪122.4‬‬ ‫‪122.6‬‬

‫‪Spinach‬‬ ‫‪0.0‬‬ ‫‪84.9‬‬ ‫‪105.6‬‬ ‫‪90.8‬‬ ‫‪86.3‬‬

‫‪Spinach‬‬ ‫‪Rice‬‬ ‫‪Mosquito‬‬ ‫‪Monkey‬‬ ‫‪Human‬‬

‫מטריצה המתארת השוואה של חלבון דומה במס'‬ ‫אורגניזמים‬

‫•בנית ‪ – Guide Tree‬ע"ס מטריצת‬ ‫מרחקים באמצעות שיטת ‪Neighbor‬‬ ‫‪ , joining‬בונים עץ שמראה את יחסי‬ ‫הקרבה בין הרצפים‪ .‬העץ מכתיב‬ ‫למעשה את סדר הרצפים שעליהם‬ ‫יבוצע ‪.Progressive Alignment‬‬ ‫•‪ – NJ‬איחוד בכל צעד‪ ,‬את שני תתי‬ ‫העצים הקרובים ביותר שעדיין לא‬ ‫אוחדו‪.‬‬ ‫לדוגמא‪ :‬במטריצה שהוצגה ערכי המינימום – ז"א ה‪-‬‬ ‫‪ Alignment‬הקרוב‬ ‫ביותר הוא בין האדם לקוף‪ ,‬ולכן בשלב ראשון מתבצע איחוד‬ ‫של הרצפים הנ"ל‪.‬‬

‫‪ ‬‬

‫לאחר האיחוד יש לחשב מחדש את המרחק של כל הנותרים‬ ‫מהרצף המאוחד‪ ,‬וזאת ע"י ביצוע ממוצע חשבוני של כל‬ ‫רצף שנותר מול המרחק המקורי שלו מהאדם והקוף לפני‬ ‫האיחוד‪.‬‬ ‫לדוגמא‪ :‬הרצף של התרד נמצא ‪ 90.8‬מהקוף ו‪ 86.3-‬מהאדם‬ ‫ולכן מרחקו מהרצף המאוחד אדם‪-‬קוף יהיה‪90.8+86.3/2 :‬‬ ‫= ‪88.55‬‬ ‫במטריצה החדשה במקום עמודות אדם וקוף‪ ,‬תופיע עמודה‬ ‫אחת בלבד – אדם‪-‬קוף‪ ,‬כאשר כל המרחקים בטבלה מייצגים‬ ‫את המרחקים מן הרצף המאוחד‪.‬‬ ‫** יש לשים לב‪ :‬בעל שלב מחברים את העמודות‬ ‫בעלות הערך הנמוך ביותר‪ ,‬ולא את הרצף‬ ‫המאוחד מול זה שקרוב אליו!!!‬ ‫בשלב האחרון‪ :‬שתי העמודות‪/‬שורות שנותרו הופכות להיות‬ ‫הענפים המרכזיים בעץ שנוצר‪.‬‬ ‫•ביצוע ‪ alignment‬סידרתי ע"פ‬ ‫תוצאות ה‪.Guide Tree-‬‬ ‫•שיטת ‪ Clustal W‬מבצעת ‪ MSA‬ע"ס‬ ‫העקרונות שנלמדו‪ ,‬ביצוע ‪MSA‬‬ ‫תוך שימוש במשקלים (‪– Weights‬‬ ‫מבוסס על המרחק של כל רצף‬ ‫משורש העץ)‪ .‬כאשר מחשבים‬ ‫‪ MSA‬הניקוד עבור ‪ GAP‬שונה‬ ‫מהניקוד ב‪PWA-‬‬ ‫•‪ – Clustal‬עובד רק עם רצפים ב‪-‬‬ ‫‪ ,)FASTA (multiFASTA‬ניתן למצוא‬ ‫אותו ב‪.SRS, EMBL/EBI-‬‬ ‫•‪ – Clustalx‬מוצר תוכנה המאפשר‬ ‫לקבל ממשק ‪ windows‬המציגות‬ ‫ויזואלית את תוצאות ה‪.ClustalW-‬‬ ‫•ניתן לבצע באמצעות כלי תוכנה‬ ‫שונים "שיפורים" לתוצאות‬ ‫הממוחשבות ע"מ להתאימם יותר‬ ‫למציאות ביולוגית‪.‬‬

‫מצגת ‪:5‬‬ ‫•המטרה‪ :‬מציאת התאמות של רצף מבוקש אל מול בסיסי‬ ‫נתונים‪.‬‬ ‫•אלגוריתם מדויק‪ :‬ביצוע ‪ PWA‬לכל רצץ ב‪ ,DB-‬החיסרון‪ :‬ב‪DB-‬‬ ‫יש מליוני רצפים – מאוד איטי‪.‬‬

‫•אלגוריתם מקורב‪ :‬שימוש באלגוריתם ‪ Heuristic‬ע"מ להוציא את‬ ‫הרצפים הלא רלוונטים בטרם ביצוע ‪( PWA‬האלגוריתם המדויק)‬ ‫אל מול קבוצה מצומצמת יותר של רצפים‪.‬‬ ‫•הנחות האלגוריתם המקורב‪ :‬רצפים הומולוגים מכילים מקטעים‬ ‫דומים (מותר החלפות ח‪.‬א‪ .‬אך אסורים מרווחים)‪.‬‬ ‫•ל‪ DB-‬מבוצע ‪ Pre Process‬שממפתח אותו מראש (פעם אחת בחיי ה‪)DB-‬‬ ‫ומאפשר גישה מהירה למקטעים קצרים‪.‬‬ ‫המפתוח מבוצע ע"י בניית טבלה המכילה רצפים קצרים (אורך‬ ‫מילה עבור חלבונים ‪ 1-2‬ח‪.‬א‪ .‬עבור נוקליאודוטידים ‪ ,4-6‬בדנ"א‬ ‫בדרך כלל משתמשים באורך מילה של ‪ )3‬ושרשור ע"ס רצף‬ ‫המפתח את כל הרצפיםב‪ DB-‬המכילים את הרצף הקצר הזה ‪+‬‬ ‫המיקומים המדויקים בתוך הרצף‪.‬‬ ‫באופן דומה נבנית טבלה כזו לרצף עליו אנו מבצעים את‬ ‫השאילתה‪.‬‬ ‫ככל שאורך המילה המשמשת כמפתח אורך יותר‪ :‬חיפוש‬ ‫מהיר יותר‪ ,‬מדויק פחות‪.‬‬ ‫•‪:FastaA‬‬ ‫‪o‬שלב ‪ – I‬עבור כל רצף ב‪ DB-‬מתבצע חיפוש לאיתור כל‬ ‫המקטעים התואמים לפי טבלאות המפתח‪.‬‬ ‫‪o‬שלב ‪ - II‬זיהוי ‪ 10‬ההתאמות (האלכסוניות) הטובות‬ ‫מבוצע ע"ס ‪ PAM250‬של כל ההתאמות‬ ‫‪II+III‬למשל‬ ‫ביותר (ניקוד‬ ‫רצף‪.‬‬ ‫לכל‬ ‫ובחירת ה‪ 10-‬הטובות ביותר)‪ .‬התוצאה הטובה ביותר‬ ‫נקראת ‪( init1‬בתרשים מסומן ב‪)*-‬‬ ‫‪o‬שלב ‪ – III‬חיבור המקטעים האלכסוניים שהתקבלו‪ ,‬תוך‬ ‫"הורדת ניקוד" בשל החיבור‪ .‬הניקוד של הרצף המחובר‬ ‫נקרא‪.initn :‬‬ ‫‪o‬שלב ‪ – IV‬הרצפים בעלי ערך ה‪ initn-‬הגבוה ביותר‪,‬‬ ‫עוברים חישוב של ‪ ,local Alignment‬ה‪Local Alignment-‬‬ ‫מבוצע בתוך רצועה שרוחבה בד"כ ‪ 32‬ח‪.‬א‪( .‬ז"א שלא‬ ‫יבוצע ‪ Local Alignment‬באמצע אחד הרצפים למשל‬ ‫וינטרל את כל מה שביצענו עד עכשיו)‪ .‬הניקוד של ה‪-‬‬ ‫‪ Local Alignment‬נקרא‪.opt :‬‬ ‫‪o‬בדיקת מותאמות סטטיסטית לשיטה‪:‬‬ ‫‪‬חישוב ממוצע של ניקודים אקראים‬ ‫והשוואת הניקוד ‪ Alignment‬ספציפי אל מול‬ ‫הערך הממוצע וחישוב סטיית התקן‬ ‫מהערך הממוצע –‬ ‫‪.Z-Score‬‬ ‫‪‬ככל שה‪ Z-Score-‬יותר גבוה יותר טוב‪ ,‬שכן‬ ‫ככל שהתוצאה שלנו רחוקה מן הממוצע‬ ‫(ע"ס ערכי סטיית התקן)‪ ,‬היא יותר‬ ‫מדויקת‪.‬‬ ‫‪ – E Value‬מייצג את כמות הרצפים בעלי ‪Z-‬‬ ‫‪ Score‬מסויים שיתקבלו כתוצאה מסריקת‬ ‫ה‪ DB-‬עבור רצף רנדומלי‪.‬‬ ‫הגדרה מקבילה‪ :‬מס' ה‪-Alignmnet-‬ים השונים‪ ,‬בעלי‬ ‫ניקוד מקביל או גבוה יותר אשר צפוי שיופיעו כאשר‬ ‫יבוצע חיפוש רנדומלי ב‪.DB-‬‬

‫‪ E Value‬מחושב לכל רשומה שהתקבלה בתוצאות‪ ,‬הערך‬ ‫משקף בין השאר את גודל ה‪ DB-‬ושיטת ביצוע הניקוד‪.‬‬ ‫•כאשר ‪ Z‬עולה )תוצאה‬ ‫שמצאנו מדויקת יותר)‪E ,‬‬ ‫יורד (פחות התאמות‬ ‫מדויקות שכאלו) ולהפך‪.‬‬ ‫‪ – FastaA‬גם שם של פורמט לרצפים‪ ,‬וגם‬ ‫משפחה של תוכניות מחשב כמו שתואר‬ ‫לעיל‪.‬‬

‫‪ – BLASTo‬סט של אלגוריתמים שנועדו לחיפוש רצף ב‪-‬‬ ‫‪Local Alignment‬‬ ‫מול ה‪ .DB-‬העיקרון מבוסס על שבירת רצף השאילתה‬ ‫והרצפים ב‪ DB-‬למקטעים וחיפוש התאמות‪ ,‬כאשר בניגוד ל‪-‬‬ ‫‪ FastaA‬מילות חיפוש יכולות להיות גם דומות ולא רק זהות‪.‬‬ ‫‪o‬שלב ‪ – I‬שבירת רצף השאילתה למילים באורך ‪( W‬עבור‬ ‫חלבונים ‪ )W=3‬וחיפוש כל המילים שניקוד שלהן הוא‬ ‫לפחות ‪.T‬‬ ‫‪o‬שלב ‪ – II‬השוואת המילים אלו מול ה‪ DB-‬וחיפוש‬ ‫התאמות‪.‬‬ ‫‪o‬בחירת תוצאות בהן על אותו אלכסון ישנן שתי פגיעות‬ ‫שהמרחק בינהן הוא עד ‪( A‬בד"כ ‪.)40‬‬ ‫‪o‬הרחבת החיפוש ספציפית מול רצפים אלו שנבחרו‪.‬‬ ‫‪o‬התוצאה‪ -HSPs – High Scoring Segment Pairs :‬קבלת‬ ‫התאמות של רצפים בעלי ניקוד התאמתי גבוה‪.‬‬ ‫‪o‬מובהקות סטטיסטית ‪ - E Value‬מס' התוצאות השגויות‬ ‫(רעש) שצפוי שיופיעו עבור חיפוש ב‪ DB-‬בגודל מסויים‪.‬‬ ‫כאשר ‪ – E=1‬ז"א צפוי שתהייה התאמה אחת‬ ‫שקרית‪/‬שגויה בחיפוש‪ – E=0 ,‬צפוי שלא יהיו תוצאות‬ ‫שגויות – התאמה מדוייקת‪.‬‬ ‫‪-Filtero‬ים‪ Blast :‬באופן אוטומטי מורידה ‪ /‬מפלטרת גם‬ ‫ברצף השאילתה וגם ברצפים ב‪ DB-‬איזורים של חזרות‬ ‫קטנות (‪ .)Low Complexity Regions‬במידה ומנוטרלים‬ ‫הפילטרים‪ ,‬אזי הסבירות לקבלת תוצאות שגויות עולה‪.‬‬ ‫‪o‬סוגי ‪:Blast‬‬ ‫‪ – N‬רצף ‪ DNA‬מול ‪ DB‬של ‪DNA‬‬ ‫‪ – P‬רצף חלבון מול ‪ DB‬של חלבון‬ ‫‪ – X‬רצף ‪ DNA‬מתורגם לחלבון אל מול‬ ‫‪ DB‬של חלבונים‬ ‫‪ – tN‬רצף של חלבון אל מול ‪ DB‬שמכיל‬ ‫רצפי ‪ DNA‬מתורגמים‪.‬‬ ‫‪ – TX‬רצף ‪ DNA‬מתורגם אל מול ‪DB‬‬ ‫שמכיל רצפי ‪ DNA‬מתורגמים‪.‬‬

‫‪o‬חיפוש לפי רצף ‪ DNA‬יותר אמין מאשר חיפוש לפי חלבון‪,‬‬ ‫שכן אותה ח‪.‬א‪ .‬בחלבון יכולה להיות מקודדת ע"י יותר‬ ‫מקודון אחד (שונות ברמת הרצף) כמו כן ישנם רק‬ ‫ארבעה וריאנטים לחיפוש‪ ,‬לעומת זאת חיפוש דרך‬ ‫חלבונים מועדף במקרים מסויימים שכן מבנה החלבונים‬ ‫נשמר יותר טוב לאורך האבולוציה‪ ,‬ישנם ‪ 22‬ח‪.‬א‪.‬‬ ‫לחיפוש‪ DB ,‬של ‪ DNA‬יותר גדולים בד"כ – ז"א יותר‬ ‫תוצאות אקראיות וכמו כן מטריצות השוואה של חלבונים‬ ‫יותר רגישות ממטריצות ‪DNA‬‬ ‫‪o‬מתי לחפש לפי ‪?DNA‬‬ ‫‪‬לא נמצא חלבון דומה‬ ‫‪‬הרצף לא מקודד‬ ‫‪‬אין וראיציות ברמת החלבון – חלבון חדש‪,‬‬ ‫אין ריחוק אבולוציוני‪.‬‬ ‫‪‬הרחבת המידע על הרצף‪.‬‬ ‫מצגת ‪:6‬‬ ‫•ראינו חיפוש ב‪ DB-‬ע"י כלים שמבצעים ‪ ,PWA‬כגון ‪FastA,‬‬ ‫‪ ...Blast‬אך בכלים אלו יש פספוס של ‪ 10-20%‬של תוצאות‬ ‫אמיתיות‪ .‬אחוז הפספוס נעשה גבוה יותר כאשר מבצעים‬ ‫חיפושים מול חלבונים המורכבים ממס' ‪-Domain‬ים‪ .‬ניתן לבצע‬ ‫גם ‪ MSA‬אל מול ‪.DB’s‬‬ ‫•‪ – Motif‬מס' מבנים שיניונים אשר מסודרים בסדר קבוע‪ ,‬כגון‬ ‫‪ ...helix -> loop -> helix‬לחלק מן ה‪-Motif-‬ים יש גם תפקיד‬ ‫ביולוגי‪.‬‬ ‫•‪ – Domain‬היחידה הבסיסית של מבנה המסוגלת לעבור קיפול‬ ‫‪ D3‬עצמאי‪ ,‬מורכב מאוסף של ‪-motif‬ים אשר ארוזים כחלק‬ ‫ממבנה ה‪ .Domain-‬ל‪ Domain-‬יש תפקוד ביולוגי ספציפי‪.‬‬ ‫•משפחות ‪-Domain‬ים‪ :‬חלבונים בעלי אותו ‪.Domain‬‬ ‫•משפחות חלבונים‪ :‬חלבונים בעלי אותה קומבינציה של ‪-Domain‬‬ ‫ים‪.‬‬ ‫•בסיסי נתונים של ‪-Domain‬ים נקראים ‪ Secondary DB‬היות‬ ‫ותוכנם נגזר (ידנית‪/‬אוטומטית) ממידע שנמצא ב‪Primary DB-‬‬ ‫ולא מתוצאות ניסיוניות‪.‬‬ ‫•ייצוג ‪-Domain‬ים‪:‬‬ ‫‪ – Patterno‬משמש עבור ‪-Domain‬ים קטנים‪ ,‬שמורים היטב‬ ‫לאורך האבולוציה‪ ,‬דימיון גבוה ברמת הרצף בין ה‪-‬‬ ‫‪-Domain‬ים מאותו הסוג‪ .‬דוגמא‪:‬‬ ‫<‪ – }A[ST](2)-x(1,2)-{V‬מתחיל באלנין‪ ,‬אחריו סרין או‬ ‫טראונין‬ ‫פעמיים‪ ,‬לאחר מכן כל חומצת אמינו (בכמות ‪ 1‬או ‪)2‬‬ ‫ולאחר מכן כל‬ ‫ח‪.‬א‪ .‬מלבד ‪.Valin‬‬ ‫‪ – ]Regular Exp: ^A.[ST]{2}.?[^V‬כנ"ל‪.‬‬

‫‪ – Profileo‬משמש לתאור ‪-Domain‬ים קצת פחות שמורים‬ ‫בעיקר בחתך של משפחת חלבונים‪ .‬ניתן לבדוק מידת‬ ‫דימיון לרצף שחשוד כ‪ Domain-‬ששיך למשפחה‪.‬‬

‫‪ – Hidden Markov Model o‬שיטה אחרת ליצור ‪-Profile‬ים‬

‫‪ o‬בעיות באיתור ‪-domain‬ים‪:‬‬ ‫‪‬הגדרה ראשונית של המשפחות‪ ,‬זיהוי ה‪-‬‬ ‫‪-Domain‬ים השייכים למשפחה‪.‬‬ ‫‪‬בניית ‪ MSA‬לחברים במשפחות‪.‬‬ ‫‪‬מציאת גבולות ה‪ Domain-‬באספקט של‬ ‫כלל הרצף‪.‬‬ ‫‪o‬סוגי ‪:DB’s‬‬ ‫‪ Cruated: DB’s‬שנבחנים ע"י מומחים בטרם‬ ‫הכנסת מידע (‪.)Prosite‬‬ ‫‪ :Automated‬נבנים אוטומטית מ‪Primary-‬‬ ‫‪.)DB’s (ProDom‬‬ ‫‪ Prosite – DBo‬למשפחות חלבונים ו‪-Domain-‬ים‪ ,‬מכיל גם‬ ‫מידע לגבי אתרים בעלי חשיבות ביולוגית‪Patterns & ,‬‬ ‫‪ Profiles‬לסיוע במציאת השייכות המשפחתית של רצף‬ ‫חדש שנבחן‪ .‬ישנם שני סוגי קבצים ב‪Prosite:-‬‬ ‫‪ Pattern/Profiles‬עם רשימת כל ההתאמות שנמצאו ב‪-‬‬ ‫‪ ,SwissProt‬וקבצי תיעוד‪.‬‬ ‫‪o‬שיטות לביצוע אנאליזה על משפחות חלבונים‪:‬‬ ‫‪ – RegEx‬זיהוי אתר קטן יחסית ששמור‬ ‫מאוד בין כל החלבונים במשפחה‪ .‬נוכחות‬ ‫של כזה או מס' בודד של כאלה = רצף‬ ‫חדש שייך למשפחה‪.‬‬ ‫‪ – PrintS‬זיהוי ע"פ מס' ‪-Motif‬ים מרחקים‬ ‫והסדר בו הם יושבים ולאחר מכן ביצוע‬ ‫‪ Blocks‬שמחשבת את מובהקות התוצאה‬ ‫ע"ס מטריצות משקלים‪.‬‬

‫‪ – Profiles‬קביעת שייכות למשפחה ע"י‬ ‫מידת הקרבה ל‪ .Profile-‬ולאחר מכן ביצוע‬ ‫‪...HMM‬‬ ‫‪ – Profiles‬בדיקת מידת ההתאמה של רצף‬ ‫חדש‬ ‫‪ – RegEx o‬מופקים מאזורים בודדים שנתגלו כשמורים‬ ‫היטב ב‪ .Alignmnet-‬המידע המוצג ע"י ‪ RegEx‬הוא‬ ‫מינימלי‪ ,‬ז"א מידע על הרצף הולך לאיבוד (למשל אם‬ ‫כותבים ‪ – X‬ז"א כל חומצה אמינית‪ ,‬אבל בפועל לא בטוח‬ ‫שכל ח‪.‬א‪ .‬יכולה לבוא אלה שלא נמצאה חוקיות לאיזו כן‬ ‫ואיזו לא‪ ,)...‬ככל שהרצף סוטיה יותר מן הרצף השמור‬ ‫כך ייצוגו יצא יותר "מטושטש" ולא ברור‪ .‬בשיטת ה‪-‬‬ ‫‪ RegEx‬אין משמעות לדימיון או שיש התמה או שאין‬ ‫(למשל אם שתי ח‪.‬א‪ .‬זהות תכתב הח‪.‬א‪ .‬אחרת יכתבו‬ ‫שתי החומצות – אגב‪ ,‬מטעה כי ניתן לבנות כך גם רצפים‬ ‫שלא קיימים‪.‬‬ ‫‪ :PrintS o‬תקצירים של אנאליזה "‪ "FingerPrint‬על‬ ‫חלבונים‪ ,‬ניתן לקבל מידע לגבי ה‪-Domain-‬ים‪ ,‬אורכם‪,‬‬ ‫מרחקם זה מזה‪ ,‬וסדר ההופעה‪.‬‬ ‫‪ – FingerPrint‬קבוצה של ‪-Motif‬ים שמורים‬ ‫היטב‪ ,‬אשר משמשים לתיאור משפחה של‬ ‫חלבונים‪ .‬ע"ס תוצאות ‪ FingerPrints‬ניתן‬ ‫לקבוע את אופן קיפול החלבון ואת‬ ‫תפקידו‪.‬‬ ‫‪‬ה‪ Diagnostic Signture -‬של משפחות‬ ‫החלבונים מורכבת בד"כ ביותר מ‪Motif 1-‬‬ ‫ולמעשה לוקחים הרבה ככל האפשר‪.‬‬ ‫באמצעות תבנית ה‪-Motif-‬ים‪ ,‬ולמעשה‬ ‫הקונטקס שבו הם נמצאים (‪-Motif‬ים‬ ‫שכנים) ניתן לקבל תוצאה שמראה גם‬ ‫שייכות ביולוגית מעבר לדימיון בין רצפים‪.‬‬ ‫‪ – Blockso‬השוואת סגמנטים שעבר ‪ Alignment‬ללא‬ ‫מרווחים‪ ,‬אל מול החלקים השמורים ביותר של החלבון‪.‬‬ ‫ההשוואה נעשית אל מול כל משפחות החלבונים ב‪-‬‬ ‫‪Cruated DB’s‬‬ ‫‪‬חישוב ניקוד הבלוק‬ ‫ע"י ‪.Blosum62‬‬ ‫‪ :HMMo‬דומים ל‪-Profile-‬ים בכך שטווח הפעולה הוא על‬ ‫כל ה‪Domain-‬‬ ‫זוהי למעשה שיטה הסתברותית‪ ,‬כל עמדה מקבלת סימון‬ ‫מצב ‪" :‬זהות‪ ,‬מחיקה‪ ,‬הכנסה"‪ ,‬וע"ס זה מתבצע החישוב‬ ‫באמצעות מטריצות ‪)PSSM (Position Specific Score Matrix‬‬ ‫‪ – Psi-BLASTo‬חישוב ה‪ PSSM-‬מבוצע בכל פעם ע"ס‬ ‫תוצאות סבב הריצה הקודם‪ .‬אופן עבודת התוכנה‪:‬‬ ‫‪‬רצפי השאילתה נסרקים ומתבצע חיפוש‬ ‫של איזורים "לא מורכבים"‪.‬‬ ‫‪‬התוכנה מבצעת ‪( Blast‬עם מרווחים) על‬ ‫רצף שאילתה ראשוני‪.‬‬

‫‪‬התוכנה לוקחת תוצאות משמעותיות מה‪-‬‬ ‫‪ Alignmnet‬שהתקבל‪( ,‬מייצרת‬ ‫‪,)Profile‬מבצעת ‪ MSA‬ובונה ‪ PSSM‬ע"ס‬ ‫התוצאות‪.‬‬ ‫‪‬חיפוש מחדש ב‪ DB-‬באמצעות ה‪Profile-‬‬ ‫באופן מעגלי ע"מ למצוא הומולוגים‬ ‫נוספים‪.‬‬ ‫‪‬לולאת החיפוש ממשיכה עד למשתמש‬ ‫נמאס והוא מחליט להפסיק או שאין יותר‬ ‫תוצאות‪.‬‬ ‫מידע נוסף‪:‬‬ ‫‪‬כ‪ 25-45%-‬מהתאמות למשפחות חלבונים‬ ‫שלא נמצאו ע"י ‪ Blast/FastA‬ניתן לזהות‬ ‫באמצעות השיטה הזו‪.‬‬ ‫‪‬לאחר מס' איטרציות‪ ,‬המרחק בין הרצפים‬ ‫עלול לגרום לטעויות בתוצאות (‪Profile‬‬ ‫‪.)Drift‬‬ ‫‪ – PHI-Blast‬ביצוע חיפוש דומה‪ ,‬כאשר ה‪-‬‬ ‫‪ Input‬הוא ‪ Pattern‬במקום רצף והתוצאה‬ ‫יכולה להיות ‪ Input‬ל‪ PSI BLAST-‬וע"י כך‬ ‫ניתן למקד קצת יותר את החיפוש‪.‬‬

‫מצגת ‪:7‬‬ ‫•כל שני יצורים חולקים איזשהו אב קדמון בעבר‪.‬‬ ‫•‪ – CladoGenesis‬התפצלות לשני מסלולי התפתחות עצמאיים‬ ‫מבחינה גנטית‪.‬‬ ‫•‪ – Anagenesis‬התפתחות אבולוציונית לאורך מסלול גנטי אחד‪.‬‬ ‫•ניתן לחשב את המרחק הגנטי בין כל שני אורגניזמים בעץ‬ ‫מינים‪ ,‬מתרגמים את תוצאת החישוב למידות של זמן התפתחותי‪.‬‬ ‫•‪????? - MonoPhyletic Group‬‬ ‫•מטרות פילוגניזה‪:‬‬ ‫‪o‬קשירת הקשרים הביולוגים הנכונים בין‬ ‫אורגניזמים‪.‬‬ ‫‪o‬חישוב זמן‪ ,‬וסדר כרונולוגי של תהליכי‬ ‫התפתחות של אורגניזמים שונים‪.‬‬ ‫•מושגים‪.ROOT, Internal Node, Braches, Newick Format :‬‬ ‫•סוגי מידע‪ :‬מולקולרי (דנ"א‪ ,‬רנ"א‪ / )...‬מורפולוגי (רקמות רכות‬ ‫‪ /‬קשות‪.)...‬‬ ‫•יתרונות מידע מולקולרי‪ :‬יחידות מולקולריות הינן תורשתיות‪,‬‬ ‫תיאור היחידה אינו פשטני – יחסית מדוייק‪ ,‬ניתן להעביר את‬ ‫המידע מניפולציות מתמטיות‪ ,‬יותר קל לזהות הומולוגיות מאשר‬ ‫בצורה המורפולגית‪ ,‬זמינות גבוהה למידע מולקולרי‪.‬‬ ‫•עץ מינים‪ -‬מייצג את היחסים האבולוציונים בין מינים‪.‬‬

‫•עץ גנים לגנים שונים יתכנו מסלולים אבולוציונים שונים בתוך‬ ‫אותו אוטובוס‪.‬‬ ‫•‪ – Orthologous‬שני גנים הם אורתולוגים אם הם עברו ספציאציה‬ ‫לשני גנים שונים‪.‬‬ ‫•‪ – Paralogous‬גן שעבר הכפלה‪ ,‬וכעת מיצג למשל שני גנים הוא‬ ‫פרלוגי‪.‬‬ ‫•שלבים בבנית עץ פילוגניטי‪:‬‬ ‫‪o‬בחירת רצף שאילתה וחיפוש של רצפים‬ ‫דומים‬ ‫‪o‬ביצוע ‪MSA‬‬ ‫‪o‬תרגום מס' אי ההתאמות למס' שינויים‬ ‫שהתרחשו‪.‬‬ ‫‪o‬בניית מטריצת מרחקים – משתמשים ביחידות‬ ‫המיצגות את מס' ההחלפות של נוק בודדים מתוך‬ ‫‪ 1000‬נוק'‪.‬‬ ‫‪o‬בניית העץ הפילוגנטי – נעשה ע"ס שימוש‬ ‫במטריצת המרחקים‪ :‬בוחרים את שתי‬ ‫התוצאות הנמוכות ביותר‪ ,‬אלו הם‬ ‫האורגניזמים הסמוכים‪ ,‬בונים מטריצת‬ ‫מרחקים חדשה המייצגת את המרחק בין‬ ‫כ"א משאר האורגניזמים אל מול‬ ‫האורגניזם המאוחד (ע"ס ממוצע‬ ‫המרחקים המקורי)‪ .‬וחוזר חלילה‪ .‬בכל‬ ‫שלב נבחרים אלו בעלי הערך‬ ‫הנמוך ביותר ללא קשר לשלב הקודם‪.‬‬ ‫בשלב האחרון נשארים שני ענפים‬ ‫(מטריצה ‪ )4X4‬ואז פשוט שמים אותם‬ ‫בשני צידי השורש‪.‬‬ ‫‪ – Cladogramso‬מייצג את סדר הענפים‪,‬‬ ‫לאורך הענפים אין משמעות‪.‬‬ ‫‪ – Phylogramso‬מייצג את סדר הענפים‪ ,‬כמו‬ ‫כן אורך הענפים מייצג מרחק אבולוציוני‪.‬‬ ‫‪ – Unrooted Treeo‬עץ שלא ידוע איפה‬ ‫מתחיל השורש שלו‪ .‬קביעת השורש‬ ‫נקראת ‪ ,Rooting‬ובד"כ נעשית ע"ס מידע‬ ‫נוסף שיש לנו ממקורות נוספים (כמות‬ ‫העצים האפשריים מכל עץ גדולה מאוד‬ ‫ותלויה בגודל העץ – ‪ 4‬אורגניזמים – ‪3‬‬ ‫צורות ללא שורש‪ ,‬מכ"א מהן ניתן להפיק ‪5‬‬ ‫צורות עם שורש – סה"כ ‪ 15‬אפשרויות)‪.‬‬ ‫‪!)NRooted = (2n-3)!/2^n-2(n-2‬‬ ‫‪!)NUnRooted = (2n-5)!/2^n-3(n-3‬‬ ‫‪ -o‬דימיון בין שני אורגניזמים‬ ‫‪ -Related‬קישור גנטי ממשי‪.‬‬ ‫שני מינים יכולים להיות דומים בלי להיות ‪....Related‬‬

‫‪o‬עבור ‪ 20‬אורגנימיזם ישנן –‬ ‫‪ 8,200,794,532,637,891,559,375‬אפשרויות‪ ,‬ורק אחת‬ ‫מהן יכולה להיות נכונה‪ ...‬אין שיטה בדוקה לבחור מה‬ ‫הנכונה‪ ,‬בד"כ מסתייעים במידע נוסף‪ :‬למשל שימוש‬ ‫בקבוצה חיצונית‪ ,‬שיודעים שהיא אינה שייכת לקבוצה‬ ‫המונופילטית שלנו‪.‬‬ ‫‪o‬פילוגניזה מולקולרית – שיטות‪ :‬הקונספט‬ ‫כאן הוא שימוש במטריצת מרחקים כאשר‬ ‫הסברה היא שרצפים ששונים ב‪ 5%-‬יותר‬ ‫קרובים מכאלו ששנים אחד מהשני ב‪-‬‬ ‫‪ .10%‬ישנם מס' אלגוריתמים‪:‬‬ ‫‪UPGMA – Unwaited Pair Group method‬‬ ‫‪ – Avarage‬סידור העץ ע"ס ממוצע‬ ‫מתמטי???‬ ‫‪– Min Evolution‬‬ ‫שימוש במטריצת‬ ‫מרחקים‪ ,‬ע"מ למצוא‬ ‫את העץ שיתן את‬ ‫אורך הענפים הכולל‬ ‫הקצר ביותר‪ ,‬זהו‬ ‫העץ שמתקבל‬ ‫כפלט‪.‬‬ ‫‪ – Neighbot Joining‬קלט‪ ,MSA :‬שני‬ ‫אלגוריתמים לביצוע הפעילות‪:‬‬ ‫•‪– Maximum Parsimony‬‬ ‫הנחת בסיס‪ :‬העץ הנכון הוא‬ ‫זה שנדרש המס' המועט‬ ‫ביותר של שינויים ע"מ‬ ‫להסביר מה שהתקבל ב‪-‬‬ ‫‪ .MSA‬עבור כל ‪ Site‬נבנים‬ ‫כל העצים האפשריים ע"מ‬ ‫להגיע למצב המתואר ב‪-‬‬ ‫‪ .site‬בסיום נבחר סט העצים‬ ‫שבו סה"כ השינויים במועט‬ ‫ביותר‪.‬‬

‫•‪ – Maximu Liklihood‬לא‬ ‫דיברנו‪.‬‬ ‫‪‬טעויות בבנית עצים פילוגנטיים‪ :‬טעויות‬ ‫בסידור הטופולוגיה ‪ /‬טעויות בחישוב‬ ‫המרחקים (אורך הענפים)‪.‬‬

‫‪ – BootStrap Test‬ע"מ לבדוק את אמינות‬ ‫התוצאה‪ ,‬ולוודא שכל החברים בעץ‬ ‫שייכים‪ ,‬מבוצעת הבדיקה הזו‪ ,‬שבה באופן‬ ‫רנדומלי מוחלפות עמודות ב‪Alignment-‬‬ ‫ויוצרות ‪ .Pseudo Alignments‬הוא כ"א מה‪-‬‬ ‫‪ Pseudo‬נבנים העצים ונבחר העץ הנכון‪,‬‬ ‫ומידת ההגעה לעץ הנכון מגדירה את‬ ‫מובהקות התוצאה (‪ 95%‬נחשב‪.)...‬‬

‫מצגת ‪:8‬‬ ‫•אילו מאפיינים של ‪ DNA‬ניתצן למצוא ע"ס אנאליזה של הרצף‬ ‫‪o‬חזרות – הגנום האנושי מכיל המון חזרות‬ ‫‪( Interspersed‬משובצות‪/‬מפוזרות) – בגנום‬ ‫של רוב האורגניזמים האאוקריוטים ישנה‬ ‫כמות רבה של רצפים חוזרים מסוג זה‬ ‫(באדם כרבע מהגנם)‪.‬‬ ‫ ‪ – Short Interspresed‬מקטעים קצרים של חזרות אלו‬‫(פחות מ‪ 500-‬בסיסים בכל מקטע ופחות מ‪5^10-‬‬ ‫חזרות)‪.‬‬ ‫ ‪ – Long Interspresed‬מקטעים ארוכים של חזרות אלו‬‫(יותר‬ ‫מ‪ 5Kb-‬בכל מקטע‬ ‫‪‬חזרות רצף פשוטות – בדרך עד ‪12‬‬ ‫בסיסים ליחידה במס' חזרות‬ ‫‪Mini/MicroSatellits‬‬ ‫‪‬בלוקי חזרות מסוג ‪ – tandem‬חזרות‬ ‫בטלומרים ובצנטרומר‪ .‬אורך החזרות יכול‬ ‫להמשך ע"פ מיליוני בסיסים והתוכן בד"כ‬ ‫ספציפי למין‪.‬‬ ‫‪o‬מציאת גנים‬ ‫‪o‬מציאת פרומוטורים‪.‬‬ ‫•כלי תוכנה שנועדו לסייע בידנו לזיהוי חזרות‪:‬‬ ‫‪ RepBase – DBo‬שמכיל מידע לגבי רצפי חזרות ידועים‪,‬‬ ‫ואזורי ‪.Low Complexity‬‬ ‫‪ – RepeatMaskero‬כלי לאיתור חזרות ומיסוך חזרות ע"פ‬ ‫רצפי ‪ ,DNA‬השימוש ב‪ DB-‬הוא הבסיס לאיתור החזרות‪.‬‬ ‫בד"כ מריצים על רצף לפני שמבצעים ‪.Gene Prediction‬‬ ‫‪o‬סוגי חזרות‪SINE, LINE, LTR,DNA, SIMPLE, Low :‬‬ ‫‪…Complex, Satellite,tRna‬‬ ‫‪o‬גן‪ :‬סה"כ מקטעי ה‪ DNA-‬שאחראים ליצירת תוצר‬ ‫פונקציונלי‪ :‬חלבונים‪...rRNA, RNAi ,‬‬ ‫‪o‬תופעות שיש לקחת בחשבון‪ :‬פרוקריוטי‪/‬אאוקריוטי‪,‬‬ ‫אינטרונים‪/‬אקסונים‪ ,‬שיחבור אלנטרנטיבי‪ ,‬ביטוי‬ ‫דיפרנציאלי‪...‬‬ ‫‪o‬זיהוי גנים‪:‬‬

‫‪‬הומולוגיה ‪ -‬ע"ס חלבון‪ ,CDNA ,‬או מקטעי‬ ‫‪)RNA (EST). (Extrinsic‬‬ ‫שימוש בכלי ‪( Local Alignment‬כגון‪)Smith-Waterman :‬‬ ‫ע"מ למצוא התאמות בבסיסי נתונים של חלבונים‪,‬‬ ‫‪ – ...cDNA, EST‬הבעיות כאן הן‪ :‬חוסר יכולת לזהות גנים‬ ‫שהחלבונים שלהם למשל עדיין לא ב‪ ...DB-‬ועדיין אין‬ ‫הגדרה טובה לגבולות הדימיון בהומולוגיה‪.‬‬ ‫סיכום יתרונות‪/‬חסרונות‪:‬‬ ‫יתרונות‪ :‬מסתמך על נתונים קיימים‪ ,‬מיד ביולוגי קודם‪.‬‬ ‫חסרונות‪ :‬מסתמך על מידע קודם‪ ,‬חלקי‪ ,‬חשוף לטעויות‬ ‫ב‪ ,DB-‬וישנו קושי להגדיר היטב את גבולות הדימיון‪.‬‬ ‫ באמצעות שימוש ב‪ :EST-‬אם ישנה התאמה ז"א זה‬‫מקטע שבא לידי ביטוי – ולכן בסבירות גבוהה זהו גן‪ ,‬כמו‬ ‫כן ניתן בעזרתו לקבל מידע מדוייק על גבולות‬ ‫אקסונים‪/‬אינטרונים‪.‬‬ ‫כלים‪.sim4, BLAT :‬‬ ‫‪‬השוואה בין גנומים של מינים שונים –‬ ‫מבוסס על ההנחה מידע מקודד שמור‬ ‫יותר ממידע שאינו מקודד‪ .‬שתי גישות‪:‬‬ ‫•‪ – Intra-Genomic‬ע"י‬ ‫משפחות גנים‬ ‫•‪ – Inter Genomic‬בין מינים‪.‬‬ ‫•בעת ביצוע ה‪ Alignment-‬יש‬ ‫חשיבות למרחק‬ ‫האבולוציוני‪ :‬קרוב מידי – כל‬ ‫האיזורים יראו דימיון לא רק‬ ‫גנים‪ ,‬רחוק מידי – תיתכן‬ ‫מידה רבה של אי דימיון‬ ‫שתוביל לאיבוד מידע‪ /‬מידע‬ ‫שגוי‪.‬‬ ‫‪‬חיזוי גנים ע"פ סמנים (‪)intrinsic): (ab initio‬‬ ‫•פרוקריוטים – זיהוי ‪– ORF‬‬ ‫סדר גודל של גנום קטן‪ ,‬ג‪-‬‬ ‫‪ 90%‬מהמידע בגנום מקודד‪,‬‬ ‫זיהוי גנים קל יחסית – אחוז‬ ‫הצלחה גבוה מאוד‪ .‬מבנה‬ ‫של אופרונים – יחידת‬ ‫שיעתוק אחת למס' גנים‪ ,‬אין‬ ‫אינטרונים‪ ,‬גן ‪ = 1‬חלבון ‪,1‬‬ ‫לכל גן יש ‪ ORF‬שמתחיל ב‪-‬‬ ‫‪ )start codon(ATG‬ונגמר ב‪-‬‬ ‫‪)stop codon(TAA/TAG/TGA‬‬ ‫(אין ‪ end codon‬בדרך)‪.‬‬ ‫‪o‬שיטת חיפוש‬ ‫היא פשוטה‪:‬‬ ‫חיפוש ה‪ORF-‬‬ ‫בכל ‪6‬‬ ‫מסגרות‬ ‫הקריאה‬

‫האפשריות (‪3‬‬ ‫קדימה‪3 ,‬‬ ‫ברוורס)‪.‬‬ ‫‪o‬סינון ע"פ‬ ‫קריטריונים‬ ‫נוספים‪:‬‬ ‫‪‬א‬ ‫ו‬ ‫ר‬ ‫ך‬ ‫ה‬ ‫‬‫‪O‬‬ ‫‪R‬‬ ‫‪F‬‬ ‫צ‬ ‫ר‬ ‫י‬ ‫ך‬ ‫ל‬ ‫ה‬ ‫י‬ ‫ו‬ ‫ת‬ ‫ל‬ ‫פ‬ ‫ח‬ ‫ו‬ ‫ת‬ ‫‪3‬‬ ‫‪0‬‬ ‫‪0‬‬ ‫‪b‬‬ ‫‪p‬‬ ‫ע‬ ‫"‬ ‫מ‬ ‫ש‬ ‫י‬ ‫כ‬ ‫י‬ ‫ל‬ ‫ג‬

‫ן‬ ‫‪,‬‬ ‫צ‬ ‫ר‬ ‫י‬ ‫ך‬ ‫ל‬ ‫ה‬ ‫כ‬ ‫י‬ ‫ל‬ ‫ה‬ ‫ר‬ ‫כ‬ ‫ב‬ ‫ח‬ ‫‪.‬‬ ‫א‬ ‫‪.‬‬ ‫ע‬ ‫"‬ ‫פ‬ ‫ה‬ ‫מ‬ ‫ק‬ ‫ו‬ ‫ב‬ ‫ל‬ ‫ב‬ ‫א‬ ‫ו‬ ‫ר‬ ‫ג‬ ‫נ‬ ‫י‬ ‫ז‬ ‫ם‬ ‫ה‬ ‫ס‬ ‫פ‬ ‫צ‬

‫י‬ ‫פ‬ ‫י‬ ‫‪,‬‬ ‫צ‬ ‫ר‬ ‫י‬ ‫ך‬ ‫מ‬ ‫ב‬ ‫נ‬ ‫ה‬ ‫‪/‬‬ ‫צ‬ ‫י‬ ‫ר‬ ‫ו‬ ‫ף‬ ‫‪c‬‬ ‫‪o‬‬ ‫‪d‬‬ ‫‪o‬‬ ‫‪n‬‬ ‫‬‫י‬ ‫ם‬ ‫ש‬ ‫מ‬ ‫ו‬ ‫פ‬ ‫י‬ ‫ע‬ ‫ס‬ ‫פ‬ ‫צ‬ ‫י‬ ‫פ‬ ‫י‬ ‫ת‬ ‫ב‬ ‫א‬ ‫ו‬ ‫ר‬ ‫ג‬

‫נ‬ ‫י‬ ‫ז‬ ‫י‬ ‫ם‬ ‫ה‬ ‫ז‬ ‫ה‬ ‫‪.‬‬ ‫‪o‬בעיות‪ :‬טעות‬ ‫קטנה‪ ,‬של‬ ‫בסיס אחד ב‪-‬‬ ‫‪ start/stop‬קודון‬ ‫יכולה‬ ‫להשפיע על‬ ‫זיהוי של גנים‪,‬‬ ‫מקטעים‬ ‫קצרים מאוד‬ ‫(למשל קטנים‬ ‫מ‪)300b-‬‬ ‫שבכ"ז‬ ‫מכילים גנים‬ ‫יפוספסו‪.‬‬ ‫•אאוקריוטים – פרומוטורים‪,‬‬ ‫‪ ,PolyA‬אתרי שחבור‬ ‫אלטרנטיבי ו‪Start/Stop-‬‬ ‫‪ -Codons‬גנומים גדולים‬ ‫מאוד‪ ,‬צפיפות המידע‬ ‫המקודד קטנה‪ ,‬מבנה של‬ ‫אינטרונים‪/‬אקסונים‪ ,‬באופן‬ ‫כללי זיהוי גנים קשה‪.‬‬ ‫‪o‬שלב ‪ : I‬הקלט הינו‬ ‫רצף ‪ ,DNA‬הפלט‬ ‫הינו אנוטציה של‬ ‫הרצף שמראה‬ ‫עבור כל נוק' האם‬ ‫הוא מקודד או לא‬ ‫וזיהוי ע"ס זה של‬ ‫האקסונים בגנים‬ ‫המקודדים‬ ‫לחלבונים‬ ‫(מתעלמים מאיזורי‬ ‫‪.)UTR 5/3‬‬ ‫‪o‬שימוש בכלים‬ ‫סטטיסטיים ע"מ‬ ‫לבחון האם רצף‬ ‫דנ"א מקודד‬ ‫לחלבון‪ .‬הנחת‬

‫הבסיס היא שישנו‬ ‫שוני באופן‬ ‫השימוש בקודונים‬ ‫בין מקטעים‬ ‫מקודדים ללא‬ ‫מקודדים וזוהי‬ ‫תכונה בסיסית של‬ ‫הגנום שבאה לידי‬ ‫ביטוי‪ ,‬לדוגמא‪,‬‬ ‫בכך שבמקטע‬ ‫מקודד באופן‬ ‫סטטיסטי ישנו שוני‬ ‫בכמות הקידוד‬ ‫לח‪.‬א‪ .‬באיזורים‬ ‫מקודדים ‪ /‬לא‬ ‫מקודדים וכמו כן‬ ‫ישנו הבדל בכמות‬ ‫השימוש בקודונים‬ ‫מקבילים לאותה‬ ‫ח‪.‬א‪. .‬‬ ‫‪o‬בדרך כלל חישוב‬ ‫הניקוד הסטטיסטי‬ ‫עבור רצף מסויים‬ ‫מתבצע בשיטת‬ ‫‪,Sliding Window‬‬ ‫כאשר נדרש חלקון‬ ‫גדול ‪ 50-200bp‬ע"מ‬ ‫לאתר סיגנל‪.‬‬ ‫‪o‬סיגנל – רצף ‪DNA‬‬ ‫שמזוהה ע"י מנגנון‬ ‫בתא לצורך פעילות‬ ‫כלשהיא‪ ,‬כגון‬ ‫שיעתוק‪.‬‬ ‫‪– CPG Islandso‬‬ ‫איזורים בגנום‬ ‫בעלי שכיחות‬ ‫גבוהה יותר של ה‪-‬‬ ‫דינוקליאוטיד ‪,CG‬‬ ‫בדרך כלל נמצאים‬ ‫סמוך לאזור בו‬ ‫נמצא גן – ז"א‬ ‫סיגנל לכך‬ ‫שבאיזור יש גן‪.‬‬ ‫‪o‬דוגמא נוספת‬ ‫לסיגנל היא אתר‬ ‫שיחבור אלטרנטיבי‬ ‫– אינטרון מתחיל‬ ‫ב‪ GU, A-‬באמצע‪,‬‬ ‫וחזרות של ‪.AG‬‬

‫‪o‬אתר קישור‬ ‫לפקטור שיעתוק‬ ‫הוא בעייתי –‬ ‫האתרים קטנים (‬ ‫‪ ,)6bp‬יש בעיותיות‬ ‫בזיהוי הפרומוטור‬ ‫גם אם מוצאים את‬ ‫אתר הקישור‪ ,‬ישנם‬ ‫מס' פקטורי‬ ‫שיעתוק שנקשרים‬ ‫מבקביל ויש צורך‬ ‫לזהות את‬ ‫הקומבינציה‬ ‫המדוייקת – מאוד‬ ‫קשה‪.‬‬ ‫‪o‬שיטות לזיהוי‬ ‫סיגנלים‪:‬‬ ‫‪‬ר‬ ‫צ‬ ‫פ‬ ‫י‬ ‫ק‬ ‫ו‬ ‫נ‬ ‫צ‬ ‫ז‬ ‫ו‬ ‫ס‬ ‫‪‬מ‬ ‫ט‬ ‫ר‬ ‫י‬ ‫צ‬ ‫ו‬ ‫ת‬ ‫‪/‬‬ ‫מ‬ ‫ע‬ ‫ר‬ ‫כ‬ ‫י‬ ‫מ‬ ‫ש‬ ‫ק‬ ‫ל‬ ‫י‬ ‫ם‬

‫‪‬ע‬ ‫צ‬ ‫י‬ ‫ה‬ ‫ח‬ ‫ל‬ ‫ט‬ ‫ה‬ ‫‪,‬‬ ‫‪H‬‬ ‫‪M‬‬ ‫‪M‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫‪.‬‬ ‫•שילוב של השיטות הנ"ל‪.‬‬ ‫‪‬תוכנות לזיהוי גנים‪:‬‬ ‫•מבוססות חוקים – מערכות‬ ‫החלטה‪ ,‬ישנו סט חוקים‬ ‫שמגדיר האם גן או לא‪.‬‬ ‫‪.GenFinder‬‬ ‫•מבוססות רשת טבעית –‬ ‫משתמשות במידע שמתקבל‬ ‫ממקור חיצוני ע"מ לבנות‬ ‫את החוקים‪.Grail/EXP .‬‬ ‫•‪ – HMM‬שימוש בכלים‬ ‫סטטיסטים – חישוב‬ ‫הסתברויות של מצבים‬ ‫ואפשרויות וקבלת החלטות‬ ‫ע"ס התוצאות החישוביות‪.‬‬ ‫‪.Gen/Genome Scan‬‬ ‫•‪ – GenScan‬זיהוי של מבנה גן‬ ‫שלם בגנום אדם‪ ,‬מדוייק!‪,‬‬ ‫משמש רק לגנים שמקודדים‬ ‫לחלבונים‪ .‬פרמטרים‬ ‫סטטיסטיים שרלוונטים‬ ‫לחישוב ההסתברותי‬ ‫(באורינטציה של מידע‬ ‫שהצטבר כבר על הגנום)‪:‬‬ ‫מס' אקסונים ממוצע לגן‪,‬‬ ‫אורך אקסון ממוצע‪ ,‬מבנה‬ ‫ההקסמרים‪ . ...‬בשלב‬ ‫הראשון ע"מ להתכוונן באופן‬ ‫גס למקום הגן משתמש‬ ‫בשיטות המבוססות על תוכן‬ ‫הרצף ‪-‬זיהוי פרומוטורים‪,‬‬

‫אקסונים‪/‬אינטרונים‪ ...‬וזאת‬ ‫ע"י זיהוי סיגנלים‪ .‬כמו כן‬ ‫מתבצעת בדיקה שהם‬ ‫מופעים בסדר הגיוני‪ .‬לאחר‬ ‫מכן ע"מ לשפר ולדייק הוא‬ ‫משתמש בהשוואה ע"ס‬ ‫‪-Pattern‬ים‪.‬‬ ‫•ישנו סט של ערכי סף – ‪Sn‬‬ ‫‪Sensitivity, Sp - Specifity‬‬ ‫עבור כל רמה – רמת‬ ‫הנוקליאוטיד‪ ,‬רמת האקסון‪,‬‬ ‫רמת הגן‪ .‬התוצאה נחשבת‬ ‫אמינה מעבר לערכי הסף‬ ‫שנקבעו‪.‬‬ ‫•קשיים בתהליכי חיזוי גנים‪:‬‬ ‫‪o‬בין גנים‬ ‫מפרידים‬ ‫מרווחים‬ ‫גדולים‬ ‫‪o‬חלוקת הגן‬ ‫למקטעים‪:‬‬ ‫אקסונים‪/‬אינט‬ ‫רונים‬ ‫‪o‬באדם‪ ,‬החלק‬ ‫המקודד‬ ‫בגנום קטן‬ ‫מאוד יחסית‬ ‫לגודל הגנום‪.‬‬ ‫‪o‬מגוון רחב של‬ ‫סיגנלים‪.‬‬ ‫‪o‬שחבור‬ ‫אלטרנטיבי‬ ‫ורצפים‬ ‫חוזרים‪.‬‬ ‫‪o‬בעיה בזיהוי‬ ‫מדוייק של‬ ‫אקסונים‬ ‫ראשון ואחרון‬ ‫–בגלל נוכחות‬ ‫של ‪-UTR‬ים‪.‬‬ ‫‪o‬גנים קטנים –‬ ‫לא נופלים‬ ‫בחתכים‬ ‫הסטטיסטיים‬ ‫ולא מזוהים‪.‬‬ ‫‪o‬המידע‬ ‫שמשמש‬ ‫לבניית‬

‫אלגוריתמי‬ ‫החיפוש‬ ‫מבוסס על‬ ‫מידע שנרכש‬ ‫מגנים אחרים‬ ‫– קיבעון‬ ‫תכנותי – יתכן‬ ‫שיש דברים‬ ‫שלא נזהה‪...‬‬ ‫‪o‬לא תמיד יש‬ ‫סימוך ביולוגי‬ ‫לתוצאות‬ ‫הריצה‪.‬‬ ‫‪o‬קושי באימות‬ ‫הנתונים –‬ ‫תוצאות‬ ‫שגויות חיוביות‬ ‫(זוהה גן אבל‬ ‫בפועל אין גן)‪.‬‬ ‫‪o‬יכולת הדיוק‬ ‫בחיזוי גבוהה‬ ‫– לא מספיק‪.‬‬ ‫•אחת הדרכים לאמת המידע‬ ‫היא להצליב הרצות של מס'‬ ‫שיטות חיזוי גנים‪ ,‬ולהשתמש‬ ‫בחיתוך של התוצאות‬ ‫שהתקבלו‪.‬‬ ‫•דרך נוספת היא להשתמש‬ ‫בתוכנות שונות‪ ,‬שכ"א‬ ‫מתמקדת בחיזוי דרך‬ ‫אלמנטים שונים בגן ע"מ‬ ‫להשלים את התמונה‪.‬‬ ‫•שיטת העבודה המקובלת‪:‬‬ ‫‪o‬מיסוך רצפים‬ ‫חוזרים ‪-‬‬ ‫‪RepeatMasker‬‬ ‫‪o‬הרצת הרצף‬ ‫דרך מס'‬ ‫תוכניות חיזוי‬ ‫‪o‬ביצוע בדיקת‬ ‫תוצאות‬ ‫שהתקבלו על‬ ‫גנים חזויים‬ ‫אל מול ‪DB‬‬ ‫של ‪,EST‬‬ ‫וגנים‬ ‫באורגניזמים‬ ‫אחרים‪ ,‬כנ"ך‬ ‫ביצוע חיפוש‬

‫דומה של‬ ‫הרצפים‬ ‫שהתקבלו‬ ‫כלא‬ ‫מקודדים‪.‬‬

Related Documents

Analiza
May 2020 62
Analiza
May 2020 55
Analiza
May 2020 35
Analiza
May 2020 52
Analiza
November 2019 70
Analiza
December 2019 67