סיכום אנאליזה: אנוטציה – פירוט מקטעים ברצף שיש עליהם מידע יחודי. מצגת :1 •ביואינפורמטיקה – המקום בו טכנולוגית מידע וביולוגיה נפגשים לתורה משותפת .טכנלוגית המידע מספק אלגוריתמים ואילו החלק הביולוגי מכוונן אותם ומשתמש בהם לטובת מחקר ביולוגי. •שאלות ביולוגיות שניתן לענות בעזרת אלגוריתמים לחיפוש רצפים: oהאם הרצף שמצאתי כבר נמצא ע"י מישהו אחר oבנית מקטע דנ"א ארוך ע"ס מידע על מקטעם קצרים יותר oחיפוש תבניות oמציאת האזורים המקודדים לחלבון בגנום oהשוואת רצפי ח.אמינו של חלבונים לצורך קביעת זהות / שונות oמחקר (משפחות חלבונים) oמדידת מרחק אבולוציוני בין מינים oחיזוי תכונות של חלבונים •החלק המחשבי – DNAהוא Stringאנחנו יודעים לשחק עם -stirngים. •החלק הביולוגי – חשוב לזכור שפתרון שמתמטית הוא הנכון ביותר לא תמיד נכון ביותר מבחינה ביולוגית. מצגת :2 •הצורך בבסיסי נתונים ביולוגיים: oגידול בכמות המידע oדרך פרסום מועדפת של מידע חדש oכלי טוב לשימוש מחקרי •סוגי :DB oביביליוגרפיים -לדוגמא Medlineאו – PubMedמכיל Abstractשל מאמרים ,כניסות של עיתונים חשובים, ספרים (טקסט חלקי /מלא).... oרצפים (דנ"א ,חלבונים) – מידע חשוב שצריך להכיל: •רצף •AC •Refrences •מידע טקסונומי (קבוצות אורגניזמים) •אנוטציות ,מילות מפתח ו- Cross Reference DBשונים משתמשים בפורמטים שונים להצגת המידע – אין רגולציה דוגמאות לפורמטים . Fasta, GenBank, EMBL :ישנם כלים ( )ReadSeqלהחלפה בין פורמטים. DBמרכזיים ל:DNA-
• – GeneBank – USAמחולק לתת :DB oמולקולרים – דנ"א, חלבונים oרצפים: m/Rna, Gene, ...EST oקבוצות אורגניזמים: – Humאדם...
oסימונים: G e n e = 1 . . 1 2 5 6 7 / g e n e = ” x x x ” – ג ן
x x x ה ח ל מ נ ו ק ' 1 ו ע ד 1 2 5 6 7 . m R N A : j o i n ( 1 . . 6 4 , 2 1 4 0 2 2 7
4 … ) – א ק ס ו נ י ם + U T R י ם C D S : j o i n ( 2 6 . 6 4 , 2 1 4 0 . . 2 2 7 4 … )
– ה מ י ד ע ה מ ק ו ד ד ב ל ב ד – ל ל א U T R י ם , ה S t o p C o d o n מ ו פ י
ע ב מ ק ט ע ה א ח ר ו ן . כ א ש ר מ ד ו ב ר ב מ ק ט ע ק ו מ פ ל י מ נ ט ר י א ז י :
oיתרונות/חסרו נות: נ פ ח מ י ד ע ג ד ו ל , C R ע ם D B א ח ר י ם ב N C B I , ת ת D B ’ s ב N C
B I נ פ ח מ י ד ע ג ד ו ל , א י ן ב ק ר ה , מ י ד ע ל א י ו צ א ה ח ו צ ה – א
נ ו ט צ י ו ת ל א ע י ק ב י ו ת – מ ב ו צ ע ע " י ה מ ש ג ר י ם . oתת db: dbEST מ כ י ל ר צ פ
י E S T ש נ ו צ ר ו מ ר י צ ו ף ש ל c D N A . א ו ת ם י ת ר ו נ ו ת / ח ס ר ו נ ו ת
ש ל G e n B a n k – RefSeqo בסיס נותנים מבוקר ,כל רצף / מולקולה מופיע פעם אחת בלבד. oישנו פורמט אחר ל AC-ב- RefSeq שמתאר אותו, למשל: – NM_1111 RNA, – NP_1111 חלבון.. oסטטוס: G e n o m e A n n o t a t i o n – ה ר ש
ו מ ה ה ת ק ב ל ה א ו ט ו מ ט י ת , ו א י נ ה נ ת ו נ ה ל ב ד י ק ה . I n f r r e d –
ה ת ק ב ל ה מ ח י פ ו ש ר צ ף , ע ד י ן ל א ב ו צ ע ו נ י ס ו י י ם ל א י מ ו ת P r
e d i c t e d ה ר ש ו מ ה ע ו ד ל א ע ב ר ה ב י ק ו ר ת , ח ל ק מ ה מ י ד ע ב ר ש
ו מ ה ח ז ו י ו ל א א ו מ ת . P r o v i s i o n a l – ע ד י ן ל א נ ב ח ן , ה מ י ד
ע ה ת ק ב ל מ מ ק ו ר ש נ ח ש ב א מ י ן . R e v i e w d – נ ב ח ן . V a l i d a t e d –
א ו ש ר . •EMBL – EBI - England •DDBJ – Japan •כל השלושה מעודכנים ברמה שבועית ,מחליפים מידע בינהם ,אורך מקסימלי לכניסה של רצף 300Kbp מינימום.10bp : •מקור המידע :קבוצות מחקר ,מכונים לחקר הגנום, פטנטים (שיגור ישיר – אין בקרה). oגנומים -מכילים מידע כל גנים ,מיפוי ,קישורים לרצפים.... קיימים לכל המינים החשובים– GDB :אדם, – MGDעכבר... – Ensemblמכיל את כל רצפי הDNA- (אדם) ברמה גנומית. ע"י שימוש בכלי תוכנה ,ניתן לבצע אנאליזות: •גנים ,SNP ,חזרות, הומולוגיות. •שייך ל.EBI- oחלבונים (משפחות/אתרים) oמוטציות /פולימורפיזם – מכיל מידע על וריאיות של רצפים – כאשר ישנו קישור (או לא) למחלות גנטיות. כלליים: • – OMIMקטלוג למידע הגנטי ופגמים גנטיים – מכיל סיכומי ספרות, תמונות ,קישורים למידע נוסף ומאמרים. • – dbSNPמכיל את המידע על SNPומוטציות מחיקה קטנות. •ספציפיים למחלותp53, : ...Astma D3oמבני oמטבולי /רגולטורי • DBלחלבונים: – SwissProtoמספק :רמת דיוק/בקרה טובה ,אנוטציות: פונקציה ,מבנה ,דומיינים ,שינויים לאחר תרגום.
– trEMBLoמכיל רצפי mRNAמתורגמים – מיוצר אוטומטית ע"ס CDSמ ,EMBL-מכיל את כל המידע שעדיין לא נכנס ל.Swiss Prot - – GenPeptoתרגום אוטומטי של CDSמ– GenBank - מלוכלך. Pir – CRoבין... EMBL/ GenBannk / PDB/ GDB / OMIM : DBoלמשפחות חלבונים -Domain /ים: זיהוי אתרים ע"י MSA ניתנים להגדרה ע"פ :תבנית (לנפוצים מאוד) ,פרופיל (מטריצות השוואה) ,מודל מרקוב – מודל הסתברותי. מכיל מידע /כלי אנאליזה לאיתור מהיר של משפחת החלבונים אליה רצף חדש שייך ,ואלי גם לאבחן באופן כללי פונקציה של רצף חדש. נקראים Secondery DBשכן מבוססים על המידע שהושג ב( Primary-גנים / גנומים ,)..נוצרים ידנית או מופקים אוטומטית. – Prositeמכיל מידע על דומיינים פונקציונלים. מצגת מס' :3 •מדוע כדאי להשוות רצפים :קבלת מידע על יחסים אבולוציונים ,חיזוי של מבנה ותפקיד של חלבון. •הומולוגיה – דימיון הנובע מאב קדמון משותף. • - Alignmentהיפותזה הנוגעת לדימיון פיזי בין רצפים ,השוואה בין שני רצפים ,תוך חיפוש מקטעים באותו סדר בין שניהם. • – DotPlotsהשוואה ויזואלית ,משווים שני רצפים בנק' התחלה שונות של שניהם ,שמים נק' במיקום של שתי ח.א זהות. •איכות ההשואה :אחוזים – לא טוב ,כאשר ניקח רצף גודל נקבל התאמה של xאבל תת רצף שלו יכול להראות ....100% • - Global Alignment Scoreסה"כ החלקים היחסיים של תרומת תת רצך לניקוד הכולל .ניתן לתת ניקוד שונה לזהות ,החלפה ,מחיקות/כניסות... •נהוג לבנות מטריצות חישוב ,אשר יורדות לרזולוציה מלאה של השוואה בין נוק' ,ובעלות ערכי חישוב עבור -GAPים כאשר נתן לפצל ערכים גם ל-תחילת /GAPהמשך ...GAP • Kimurasנתן משקל במטריצה שלו לעובדה שבהחלפת ח.א .בוצע החלפה בין C/T A/Gאו A/Cו – – T/Gטנסורסיה.. •באופן דומה ,ניתן לבנות מטריצות להשוואת חלבונים ,כאשר – ניתן גם לרדת לרזולוציה של החלפה בין חומצות אמינו דומות... •מטריצות חלבונים מכילות מידע להסברות ההחלפה של ח.א .אחת באחרת.
מטריצת הסתברויות של חלבונים (בחירתPAMo המטריצה /הרזולוציה הנכונה משפיעה על התוצאה) נבנה ע"ס משפחות חלבונים ,ערכי המטריצה מחושבים ע"ס עצים פילוגנטיים של רצפים מאוד קרובים ,אשר נוטים להחליף ח.א .בודדות .הכפלת מטריצות לעליה במרחק האבולוציוני. – 1PAMמטריצות המחושבות ע"ס דימיון בין רצפים. יחידות PAMמודדות מרחק אבולוציוני – 1 יחידת = PAMההסתברות למוטציה נקודתית ב 100-ח.א. ערך כל עמודה במטריצה מסוכם ל- ,10,000תמיד האלכסון -הערכים הגדולים. מטריצת החישוב הסופית מחושבת כ:Lod- )S(a,b) = 10log(Mab / Pb – Mabההסתברות למוטצית החלפה בין aל.b- - Pbשכיחות של bבחלבון. – )S(a/bיחס ההחלפה בין aל.b- כפל מטריצות PAM1בעצמו נותן אפשרות לרדת לרזולוציה נמוכה יותר – ז"א מרחק אבולוציוני רחוק יותר .לדוגמא כמו שב- PAM1ניתן למצוא מוטציה 1כל ,100אזי ב PAM250-ניתן למצוא 80מ' כל 100ח.א. – ז"א חלבונים מאוד רחוקים.... – BLOSUMxxoה-Block-ים מכונסים ל-Cluster-ים, כאשר לפחות %xxמהח.א ב Cluster-זהות .ערכי המטריצה משוערכים מביצוע Alignmenyללא מרווחים למשפחות חלבונים. oמחשבים את שכיחות ההתאמה בפועל עבור כל ח.א ברצף ,למשל ב 40%-מהמקרים Aמוצמד ל A-ב 20%-ל- ....C מחשבים את שכיחות ההתאמה הצפויה (ז"א כאשר Aמול Aב- C ,100%מול .)...C מחלקים את הערך הראשון בערך השני ומקבלים את ההסתברות. הוצאת LOGע"מ לנרמל מעניקה את הערך להכפלה במטריצה (חיובי = ח.א דומות – ככל שיותר קרובות – ערך יותר גבוה ,שלילי = שונות). oמטריצות – HARDמיועדות להתאמה בין רצפים בעלי מרחק אבולוציוני קצר PAMערך נמוך – BLOSUMערך גבוה oמטריצת - SOFTמרחק אבולוציוני גדול, PAMערך גבוה – BLOSUMערך נמוך Optimal Score = Optimal Alignmento – Globalביצוע Alignmentבאורך מלא של שני הרצפים
• – Needelman-Wunschמציאת ה Alignment-המקסימלי, ביצוע אנאליזה וסכימה לכל אורך הרצף – .השיטה אינה מסוגלת לזהות בעצמה -Domainים-Motif/ים והומולוגיה בינהם. •אופן חישוב סה"כ האפשרויות השונות ע"מ למצוא את את הAlignment- האופטימלי הוא בעייתי ,שכן מדובר בהמון אפשרויות שיש להשוות בינהם .פותחה שיטה שנקראת: “– "Dynamic Programming Computation of scores השיטה פועלת ע"פ עקרון הרקורסיה ,כאשר למעשה בכל צעד מחושבת ההתאמה הטובה ביותר בהתייחס לצעדים הקודמים. דוגמא: נק' התחלה A C G T A 1 -1 -1 -1 C -1 1 -1 -1 G -1 -1 1 -1 T -1 -1 -1 1 Gap = -2
– Localמציאת מקטע ההתאמה הטוב ביותר בין שני הרצפים • – Smith – Watermanמחפש את ההתאמה הטובה ביותר בין שני מקטעים ,ללא קשר ישיר לאורכם ,או לנק' ההתחלה .בשיטה זו לא מבוצע בהכרח Alignmentלכל הרצף. •אופן החישוב דומה לחישוב בשיטה הגלובלית: oבמקום ערכים שלילים מציבים 0 oחישוב המסלול האופטימלי מבוצע מהערך הגבוה
GAP = -2 באופן עקרוני: תזוזה לאחד הצדדים = GAP תזוזה באלכסון = ערך במטריצה (זהות/החלפה)
ביותר ולא מהפינה הימנית התחתונה.
נקודות חשובות: •המסלול האופטימלי הוא תוצאה של מניפולציה חישובית ואינה בהכרח אומרת שזוהי ההתאמה הביולוגית הנכונה. •שכיחות החלפות של ח.א. אינה שווה בכל עמדה ברצף •הכנסת -GAPים אינה דומה למוטציות הכנסה/מחיקה. •מתוכנית המחשב תמיד מתקבלת תוצאה – גם כאשר לא הגיוני בכלל לבצע .Alignment •כלים: EMBOSSo programs & (global local) - SRS NCBI Blasto )(local מצגת :4 •מדוע מבצעים ?MSA oזיהוי משפחת של חלבונים ע"ס איזורים הומולוגיים. oעזרה בזיהוי מבנה שניוני ושלישוני של רצפים חדשים oסיוע בחקר אבולוציוני ,ובניית עצים פילוגניטים.
oמהנחות ה - Alignment-אורגניזמים קרובים בעלי DNA ורצף חלבונים דומה. חלבונים דומים ,לעיתים קרובות בעלי אותה פונק'. שני גנים נקראים Paralogousאם עברו - Paralogouso דופליקציה. – Orthologusoשני גנים נקראים Orthologusאם עברו ספציאציה (היו זהים והפכו להיות שונים). - :MSAoלקבוצת רצפים אין התאמה יחידה נכונה ,אלא רק ה Alignmnet-שנחשב אופטימלי ע"ס החישובים. קביעת ה Alignment-הטוב ביותר עבור ההשפעה נתונה לשיקול דעתו של החוקר.
oשיטות ה MSA-מבוססות על ביצוע PWAרקורסיבי בשלב הראשון בין שני רצפים ,ובשלבים הבאים בין תוצאת הPWA- הקודם לבין רצף נוסף. : Progressive Alignment •ביצוע PWAבין כל זוגות הרצפים האפשריים •חישוב "מרחק" והכנת מטריצת מרחקים בין כל זוג רצפים ע"פ ה .PWA Human 86.3 122.6 80.8 3.3 0.0
Monkey 90.8 122.4 84.7 0.0 3.3
Mosquito 105.6 117.8 0.0 84.7 80.8
Rice 84.9 0.0 117.8 122.4 122.6
Spinach 0.0 84.9 105.6 90.8 86.3
Spinach Rice Mosquito Monkey Human
מטריצה המתארת השוואה של חלבון דומה במס' אורגניזמים
•בנית – Guide Treeע"ס מטריצת מרחקים באמצעות שיטת Neighbor , joiningבונים עץ שמראה את יחסי הקרבה בין הרצפים .העץ מכתיב למעשה את סדר הרצפים שעליהם יבוצע .Progressive Alignment • – NJאיחוד בכל צעד ,את שני תתי העצים הקרובים ביותר שעדיין לא אוחדו. לדוגמא :במטריצה שהוצגה ערכי המינימום – ז"א ה- Alignmentהקרוב ביותר הוא בין האדם לקוף ,ולכן בשלב ראשון מתבצע איחוד של הרצפים הנ"ל.
לאחר האיחוד יש לחשב מחדש את המרחק של כל הנותרים מהרצף המאוחד ,וזאת ע"י ביצוע ממוצע חשבוני של כל רצף שנותר מול המרחק המקורי שלו מהאדם והקוף לפני האיחוד. לדוגמא :הרצף של התרד נמצא 90.8מהקוף ו 86.3-מהאדם ולכן מרחקו מהרצף המאוחד אדם-קוף יהיה90.8+86.3/2 : = 88.55 במטריצה החדשה במקום עמודות אדם וקוף ,תופיע עמודה אחת בלבד – אדם-קוף ,כאשר כל המרחקים בטבלה מייצגים את המרחקים מן הרצף המאוחד. ** יש לשים לב :בעל שלב מחברים את העמודות בעלות הערך הנמוך ביותר ,ולא את הרצף המאוחד מול זה שקרוב אליו!!! בשלב האחרון :שתי העמודות/שורות שנותרו הופכות להיות הענפים המרכזיים בעץ שנוצר. •ביצוע alignmentסידרתי ע"פ תוצאות ה.Guide Tree- •שיטת Clustal Wמבצעת MSAע"ס העקרונות שנלמדו ,ביצוע MSA תוך שימוש במשקלים (– Weights מבוסס על המרחק של כל רצף משורש העץ) .כאשר מחשבים MSAהניקוד עבור GAPשונה מהניקוד בPWA- • – Clustalעובד רק עם רצפים ב- ,)FASTA (multiFASTAניתן למצוא אותו ב.SRS, EMBL/EBI- • – Clustalxמוצר תוכנה המאפשר לקבל ממשק windowsהמציגות ויזואלית את תוצאות ה.ClustalW- •ניתן לבצע באמצעות כלי תוכנה שונים "שיפורים" לתוצאות הממוחשבות ע"מ להתאימם יותר למציאות ביולוגית.
מצגת :5 •המטרה :מציאת התאמות של רצף מבוקש אל מול בסיסי נתונים. •אלגוריתם מדויק :ביצוע PWAלכל רצץ ב ,DB-החיסרון :בDB- יש מליוני רצפים – מאוד איטי.
•אלגוריתם מקורב :שימוש באלגוריתם Heuristicע"מ להוציא את הרצפים הלא רלוונטים בטרם ביצוע ( PWAהאלגוריתם המדויק) אל מול קבוצה מצומצמת יותר של רצפים. •הנחות האלגוריתם המקורב :רצפים הומולוגים מכילים מקטעים דומים (מותר החלפות ח.א .אך אסורים מרווחים). •ל DB-מבוצע Pre Processשממפתח אותו מראש (פעם אחת בחיי ה)DB- ומאפשר גישה מהירה למקטעים קצרים. המפתוח מבוצע ע"י בניית טבלה המכילה רצפים קצרים (אורך מילה עבור חלבונים 1-2ח.א .עבור נוקליאודוטידים ,4-6בדנ"א בדרך כלל משתמשים באורך מילה של )3ושרשור ע"ס רצף המפתח את כל הרצפיםב DB-המכילים את הרצף הקצר הזה + המיקומים המדויקים בתוך הרצף. באופן דומה נבנית טבלה כזו לרצף עליו אנו מבצעים את השאילתה. ככל שאורך המילה המשמשת כמפתח אורך יותר :חיפוש מהיר יותר ,מדויק פחות. •:FastaA oשלב – Iעבור כל רצף ב DB-מתבצע חיפוש לאיתור כל המקטעים התואמים לפי טבלאות המפתח. oשלב - IIזיהוי 10ההתאמות (האלכסוניות) הטובות מבוצע ע"ס PAM250של כל ההתאמות II+IIIלמשל ביותר (ניקוד רצף. לכל ובחירת ה 10-הטובות ביותר) .התוצאה הטובה ביותר נקראת ( init1בתרשים מסומן ב)*- oשלב – IIIחיבור המקטעים האלכסוניים שהתקבלו ,תוך "הורדת ניקוד" בשל החיבור .הניקוד של הרצף המחובר נקרא.initn : oשלב – IVהרצפים בעלי ערך ה initn-הגבוה ביותר, עוברים חישוב של ,local AlignmentהLocal Alignment- מבוצע בתוך רצועה שרוחבה בד"כ 32ח.א( .ז"א שלא יבוצע Local Alignmentבאמצע אחד הרצפים למשל וינטרל את כל מה שביצענו עד עכשיו) .הניקוד של ה- Local Alignmentנקרא.opt : oבדיקת מותאמות סטטיסטית לשיטה: חישוב ממוצע של ניקודים אקראים והשוואת הניקוד Alignmentספציפי אל מול הערך הממוצע וחישוב סטיית התקן מהערך הממוצע – .Z-Score ככל שה Z-Score-יותר גבוה יותר טוב ,שכן ככל שהתוצאה שלנו רחוקה מן הממוצע (ע"ס ערכי סטיית התקן) ,היא יותר מדויקת. – E Valueמייצג את כמות הרצפים בעלי Z- Scoreמסויים שיתקבלו כתוצאה מסריקת ה DB-עבור רצף רנדומלי. הגדרה מקבילה :מס' ה-Alignmnet-ים השונים ,בעלי ניקוד מקביל או גבוה יותר אשר צפוי שיופיעו כאשר יבוצע חיפוש רנדומלי ב.DB-
E Valueמחושב לכל רשומה שהתקבלה בתוצאות ,הערך משקף בין השאר את גודל ה DB-ושיטת ביצוע הניקוד. •כאשר Zעולה )תוצאה שמצאנו מדויקת יותר)E , יורד (פחות התאמות מדויקות שכאלו) ולהפך. – FastaAגם שם של פורמט לרצפים ,וגם משפחה של תוכניות מחשב כמו שתואר לעיל.
– BLASToסט של אלגוריתמים שנועדו לחיפוש רצף ב- Local Alignment מול ה .DB-העיקרון מבוסס על שבירת רצף השאילתה והרצפים ב DB-למקטעים וחיפוש התאמות ,כאשר בניגוד ל- FastaAמילות חיפוש יכולות להיות גם דומות ולא רק זהות. oשלב – Iשבירת רצף השאילתה למילים באורך ( Wעבור חלבונים )W=3וחיפוש כל המילים שניקוד שלהן הוא לפחות .T oשלב – IIהשוואת המילים אלו מול ה DB-וחיפוש התאמות. oבחירת תוצאות בהן על אותו אלכסון ישנן שתי פגיעות שהמרחק בינהן הוא עד ( Aבד"כ .)40 oהרחבת החיפוש ספציפית מול רצפים אלו שנבחרו. oהתוצאה -HSPs – High Scoring Segment Pairs :קבלת התאמות של רצפים בעלי ניקוד התאמתי גבוה. oמובהקות סטטיסטית - E Valueמס' התוצאות השגויות (רעש) שצפוי שיופיעו עבור חיפוש ב DB-בגודל מסויים. כאשר – E=1ז"א צפוי שתהייה התאמה אחת שקרית/שגויה בחיפוש – E=0 ,צפוי שלא יהיו תוצאות שגויות – התאמה מדוייקת. -Filteroים Blast :באופן אוטומטי מורידה /מפלטרת גם ברצף השאילתה וגם ברצפים ב DB-איזורים של חזרות קטנות ( .)Low Complexity Regionsבמידה ומנוטרלים הפילטרים ,אזי הסבירות לקבלת תוצאות שגויות עולה. oסוגי :Blast – Nרצף DNAמול DBשל DNA – Pרצף חלבון מול DBשל חלבון – Xרצף DNAמתורגם לחלבון אל מול DBשל חלבונים – tNרצף של חלבון אל מול DBשמכיל רצפי DNAמתורגמים. – TXרצף DNAמתורגם אל מול DB שמכיל רצפי DNAמתורגמים.
oחיפוש לפי רצף DNAיותר אמין מאשר חיפוש לפי חלבון, שכן אותה ח.א .בחלבון יכולה להיות מקודדת ע"י יותר מקודון אחד (שונות ברמת הרצף) כמו כן ישנם רק ארבעה וריאנטים לחיפוש ,לעומת זאת חיפוש דרך חלבונים מועדף במקרים מסויימים שכן מבנה החלבונים נשמר יותר טוב לאורך האבולוציה ,ישנם 22ח.א. לחיפוש DB ,של DNAיותר גדולים בד"כ – ז"א יותר תוצאות אקראיות וכמו כן מטריצות השוואה של חלבונים יותר רגישות ממטריצות DNA oמתי לחפש לפי ?DNA לא נמצא חלבון דומה הרצף לא מקודד אין וראיציות ברמת החלבון – חלבון חדש, אין ריחוק אבולוציוני. הרחבת המידע על הרצף. מצגת :6 •ראינו חיפוש ב DB-ע"י כלים שמבצעים ,PWAכגון FastA, ...Blastאך בכלים אלו יש פספוס של 10-20%של תוצאות אמיתיות .אחוז הפספוס נעשה גבוה יותר כאשר מבצעים חיפושים מול חלבונים המורכבים ממס' -Domainים .ניתן לבצע גם MSAאל מול .DB’s • – Motifמס' מבנים שיניונים אשר מסודרים בסדר קבוע ,כגון ...helix -> loop -> helixלחלק מן ה-Motif-ים יש גם תפקיד ביולוגי. • – Domainהיחידה הבסיסית של מבנה המסוגלת לעבור קיפול D3עצמאי ,מורכב מאוסף של -motifים אשר ארוזים כחלק ממבנה ה .Domain-ל Domain-יש תפקוד ביולוגי ספציפי. •משפחות -Domainים :חלבונים בעלי אותו .Domain •משפחות חלבונים :חלבונים בעלי אותה קומבינציה של -Domain ים. •בסיסי נתונים של -Domainים נקראים Secondary DBהיות ותוכנם נגזר (ידנית/אוטומטית) ממידע שנמצא בPrimary DB- ולא מתוצאות ניסיוניות. •ייצוג -Domainים: – Patternoמשמש עבור -Domainים קטנים ,שמורים היטב לאורך האבולוציה ,דימיון גבוה ברמת הרצף בין ה- -Domainים מאותו הסוג .דוגמא: < – }A[ST](2)-x(1,2)-{Vמתחיל באלנין ,אחריו סרין או טראונין פעמיים ,לאחר מכן כל חומצת אמינו (בכמות 1או )2 ולאחר מכן כל ח.א .מלבד .Valin – ]Regular Exp: ^A.[ST]{2}.?[^Vכנ"ל.
– Profileoמשמש לתאור -Domainים קצת פחות שמורים בעיקר בחתך של משפחת חלבונים .ניתן לבדוק מידת דימיון לרצף שחשוד כ Domain-ששיך למשפחה.
– Hidden Markov Model oשיטה אחרת ליצור -Profileים
oבעיות באיתור -domainים: הגדרה ראשונית של המשפחות ,זיהוי ה- -Domainים השייכים למשפחה. בניית MSAלחברים במשפחות. מציאת גבולות ה Domain-באספקט של כלל הרצף. oסוגי :DB’s Cruated: DB’sשנבחנים ע"י מומחים בטרם הכנסת מידע (.)Prosite :Automatedנבנים אוטומטית מPrimary- .)DB’s (ProDom Prosite – DBoלמשפחות חלבונים ו-Domain-ים ,מכיל גם מידע לגבי אתרים בעלי חשיבות ביולוגיתPatterns & , Profilesלסיוע במציאת השייכות המשפחתית של רצף חדש שנבחן .ישנם שני סוגי קבצים בProsite:- Pattern/Profilesעם רשימת כל ההתאמות שנמצאו ב- ,SwissProtוקבצי תיעוד. oשיטות לביצוע אנאליזה על משפחות חלבונים: – RegExזיהוי אתר קטן יחסית ששמור מאוד בין כל החלבונים במשפחה .נוכחות של כזה או מס' בודד של כאלה = רצף חדש שייך למשפחה. – PrintSזיהוי ע"פ מס' -Motifים מרחקים והסדר בו הם יושבים ולאחר מכן ביצוע Blocksשמחשבת את מובהקות התוצאה ע"ס מטריצות משקלים.
– Profilesקביעת שייכות למשפחה ע"י מידת הקרבה ל .Profile-ולאחר מכן ביצוע ...HMM – Profilesבדיקת מידת ההתאמה של רצף חדש – RegEx oמופקים מאזורים בודדים שנתגלו כשמורים היטב ב .Alignmnet-המידע המוצג ע"י RegExהוא מינימלי ,ז"א מידע על הרצף הולך לאיבוד (למשל אם כותבים – Xז"א כל חומצה אמינית ,אבל בפועל לא בטוח שכל ח.א .יכולה לבוא אלה שלא נמצאה חוקיות לאיזו כן ואיזו לא ,)...ככל שהרצף סוטיה יותר מן הרצף השמור כך ייצוגו יצא יותר "מטושטש" ולא ברור .בשיטת ה- RegExאין משמעות לדימיון או שיש התמה או שאין (למשל אם שתי ח.א .זהות תכתב הח.א .אחרת יכתבו שתי החומצות – אגב ,מטעה כי ניתן לבנות כך גם רצפים שלא קיימים. :PrintS oתקצירים של אנאליזה " "FingerPrintעל חלבונים ,ניתן לקבל מידע לגבי ה-Domain-ים ,אורכם, מרחקם זה מזה ,וסדר ההופעה. – FingerPrintקבוצה של -Motifים שמורים היטב ,אשר משמשים לתיאור משפחה של חלבונים .ע"ס תוצאות FingerPrintsניתן לקבוע את אופן קיפול החלבון ואת תפקידו. ה Diagnostic Signture -של משפחות החלבונים מורכבת בד"כ ביותר מMotif 1- ולמעשה לוקחים הרבה ככל האפשר. באמצעות תבנית ה-Motif-ים ,ולמעשה הקונטקס שבו הם נמצאים (-Motifים שכנים) ניתן לקבל תוצאה שמראה גם שייכות ביולוגית מעבר לדימיון בין רצפים. – Blocksoהשוואת סגמנטים שעבר Alignmentללא מרווחים ,אל מול החלקים השמורים ביותר של החלבון. ההשוואה נעשית אל מול כל משפחות החלבונים ב- Cruated DB’s חישוב ניקוד הבלוק ע"י .Blosum62 :HMMoדומים ל-Profile-ים בכך שטווח הפעולה הוא על כל הDomain- זוהי למעשה שיטה הסתברותית ,כל עמדה מקבלת סימון מצב " :זהות ,מחיקה ,הכנסה" ,וע"ס זה מתבצע החישוב באמצעות מטריצות )PSSM (Position Specific Score Matrix – Psi-BLASToחישוב ה PSSM-מבוצע בכל פעם ע"ס תוצאות סבב הריצה הקודם .אופן עבודת התוכנה: רצפי השאילתה נסרקים ומתבצע חיפוש של איזורים "לא מורכבים". התוכנה מבצעת ( Blastעם מרווחים) על רצף שאילתה ראשוני.
התוכנה לוקחת תוצאות משמעותיות מה- Alignmnetשהתקבל( ,מייצרת ,)Profileמבצעת MSAובונה PSSMע"ס התוצאות. חיפוש מחדש ב DB-באמצעות הProfile- באופן מעגלי ע"מ למצוא הומולוגים נוספים. לולאת החיפוש ממשיכה עד למשתמש נמאס והוא מחליט להפסיק או שאין יותר תוצאות. מידע נוסף: כ 25-45%-מהתאמות למשפחות חלבונים שלא נמצאו ע"י Blast/FastAניתן לזהות באמצעות השיטה הזו. לאחר מס' איטרציות ,המרחק בין הרצפים עלול לגרום לטעויות בתוצאות (Profile .)Drift – PHI-Blastביצוע חיפוש דומה ,כאשר ה- Inputהוא Patternבמקום רצף והתוצאה יכולה להיות Inputל PSI BLAST-וע"י כך ניתן למקד קצת יותר את החיפוש.
מצגת :7 •כל שני יצורים חולקים איזשהו אב קדמון בעבר. • – CladoGenesisהתפצלות לשני מסלולי התפתחות עצמאיים מבחינה גנטית. • – Anagenesisהתפתחות אבולוציונית לאורך מסלול גנטי אחד. •ניתן לחשב את המרחק הגנטי בין כל שני אורגניזמים בעץ מינים ,מתרגמים את תוצאת החישוב למידות של זמן התפתחותי. •????? - MonoPhyletic Group •מטרות פילוגניזה: oקשירת הקשרים הביולוגים הנכונים בין אורגניזמים. oחישוב זמן ,וסדר כרונולוגי של תהליכי התפתחות של אורגניזמים שונים. •מושגים.ROOT, Internal Node, Braches, Newick Format : •סוגי מידע :מולקולרי (דנ"א ,רנ"א / )...מורפולוגי (רקמות רכות /קשות.)... •יתרונות מידע מולקולרי :יחידות מולקולריות הינן תורשתיות, תיאור היחידה אינו פשטני – יחסית מדוייק ,ניתן להעביר את המידע מניפולציות מתמטיות ,יותר קל לזהות הומולוגיות מאשר בצורה המורפולגית ,זמינות גבוהה למידע מולקולרי. •עץ מינים -מייצג את היחסים האבולוציונים בין מינים.
•עץ גנים לגנים שונים יתכנו מסלולים אבולוציונים שונים בתוך אותו אוטובוס. • – Orthologousשני גנים הם אורתולוגים אם הם עברו ספציאציה לשני גנים שונים. • – Paralogousגן שעבר הכפלה ,וכעת מיצג למשל שני גנים הוא פרלוגי. •שלבים בבנית עץ פילוגניטי: oבחירת רצף שאילתה וחיפוש של רצפים דומים oביצוע MSA oתרגום מס' אי ההתאמות למס' שינויים שהתרחשו. oבניית מטריצת מרחקים – משתמשים ביחידות המיצגות את מס' ההחלפות של נוק בודדים מתוך 1000נוק'. oבניית העץ הפילוגנטי – נעשה ע"ס שימוש במטריצת המרחקים :בוחרים את שתי התוצאות הנמוכות ביותר ,אלו הם האורגניזמים הסמוכים ,בונים מטריצת מרחקים חדשה המייצגת את המרחק בין כ"א משאר האורגניזמים אל מול האורגניזם המאוחד (ע"ס ממוצע המרחקים המקורי) .וחוזר חלילה .בכל שלב נבחרים אלו בעלי הערך הנמוך ביותר ללא קשר לשלב הקודם. בשלב האחרון נשארים שני ענפים (מטריצה )4X4ואז פשוט שמים אותם בשני צידי השורש. – Cladogramsoמייצג את סדר הענפים, לאורך הענפים אין משמעות. – Phylogramsoמייצג את סדר הענפים ,כמו כן אורך הענפים מייצג מרחק אבולוציוני. – Unrooted Treeoעץ שלא ידוע איפה מתחיל השורש שלו .קביעת השורש נקראת ,Rootingובד"כ נעשית ע"ס מידע נוסף שיש לנו ממקורות נוספים (כמות העצים האפשריים מכל עץ גדולה מאוד ותלויה בגודל העץ – 4אורגניזמים – 3 צורות ללא שורש ,מכ"א מהן ניתן להפיק 5 צורות עם שורש – סה"כ 15אפשרויות). !)NRooted = (2n-3)!/2^n-2(n-2 !)NUnRooted = (2n-5)!/2^n-3(n-3 -oדימיון בין שני אורגניזמים -Relatedקישור גנטי ממשי. שני מינים יכולים להיות דומים בלי להיות ....Related
oעבור 20אורגנימיזם ישנן – 8,200,794,532,637,891,559,375אפשרויות ,ורק אחת מהן יכולה להיות נכונה ...אין שיטה בדוקה לבחור מה הנכונה ,בד"כ מסתייעים במידע נוסף :למשל שימוש בקבוצה חיצונית ,שיודעים שהיא אינה שייכת לקבוצה המונופילטית שלנו. oפילוגניזה מולקולרית – שיטות :הקונספט כאן הוא שימוש במטריצת מרחקים כאשר הסברה היא שרצפים ששונים ב 5%-יותר קרובים מכאלו ששנים אחד מהשני ב- .10%ישנם מס' אלגוריתמים: UPGMA – Unwaited Pair Group method – Avarageסידור העץ ע"ס ממוצע מתמטי??? – Min Evolution שימוש במטריצת מרחקים ,ע"מ למצוא את העץ שיתן את אורך הענפים הכולל הקצר ביותר ,זהו העץ שמתקבל כפלט. – Neighbot Joiningקלט ,MSA :שני אלגוריתמים לביצוע הפעילות: •– Maximum Parsimony הנחת בסיס :העץ הנכון הוא זה שנדרש המס' המועט ביותר של שינויים ע"מ להסביר מה שהתקבל ב- .MSAעבור כל Siteנבנים כל העצים האפשריים ע"מ להגיע למצב המתואר ב- .siteבסיום נבחר סט העצים שבו סה"כ השינויים במועט ביותר.
• – Maximu Liklihoodלא דיברנו. טעויות בבנית עצים פילוגנטיים :טעויות בסידור הטופולוגיה /טעויות בחישוב המרחקים (אורך הענפים).
– BootStrap Testע"מ לבדוק את אמינות התוצאה ,ולוודא שכל החברים בעץ שייכים ,מבוצעת הבדיקה הזו ,שבה באופן רנדומלי מוחלפות עמודות בAlignment- ויוצרות .Pseudo Alignmentsהוא כ"א מה- Pseudoנבנים העצים ונבחר העץ הנכון, ומידת ההגעה לעץ הנכון מגדירה את מובהקות התוצאה ( 95%נחשב.)...
מצגת :8 •אילו מאפיינים של DNAניתצן למצוא ע"ס אנאליזה של הרצף oחזרות – הגנום האנושי מכיל המון חזרות ( Interspersedמשובצות/מפוזרות) – בגנום של רוב האורגניזמים האאוקריוטים ישנה כמות רבה של רצפים חוזרים מסוג זה (באדם כרבע מהגנם). – Short Interspresedמקטעים קצרים של חזרות אלו(פחות מ 500-בסיסים בכל מקטע ופחות מ5^10- חזרות). – Long Interspresedמקטעים ארוכים של חזרות אלו(יותר מ 5Kb-בכל מקטע חזרות רצף פשוטות – בדרך עד 12 בסיסים ליחידה במס' חזרות Mini/MicroSatellits בלוקי חזרות מסוג – tandemחזרות בטלומרים ובצנטרומר .אורך החזרות יכול להמשך ע"פ מיליוני בסיסים והתוכן בד"כ ספציפי למין. oמציאת גנים oמציאת פרומוטורים. •כלי תוכנה שנועדו לסייע בידנו לזיהוי חזרות: RepBase – DBoשמכיל מידע לגבי רצפי חזרות ידועים, ואזורי .Low Complexity – RepeatMaskeroכלי לאיתור חזרות ומיסוך חזרות ע"פ רצפי ,DNAהשימוש ב DB-הוא הבסיס לאיתור החזרות. בד"כ מריצים על רצף לפני שמבצעים .Gene Prediction oסוגי חזרותSINE, LINE, LTR,DNA, SIMPLE, Low : …Complex, Satellite,tRna oגן :סה"כ מקטעי ה DNA-שאחראים ליצירת תוצר פונקציונלי :חלבונים...rRNA, RNAi , oתופעות שיש לקחת בחשבון :פרוקריוטי/אאוקריוטי, אינטרונים/אקסונים ,שיחבור אלנטרנטיבי ,ביטוי דיפרנציאלי... oזיהוי גנים:
הומולוגיה -ע"ס חלבון ,CDNA ,או מקטעי )RNA (EST). (Extrinsic שימוש בכלי ( Local Alignmentכגון)Smith-Waterman : ע"מ למצוא התאמות בבסיסי נתונים של חלבונים, – ...cDNA, ESTהבעיות כאן הן :חוסר יכולת לזהות גנים שהחלבונים שלהם למשל עדיין לא ב ...DB-ועדיין אין הגדרה טובה לגבולות הדימיון בהומולוגיה. סיכום יתרונות/חסרונות: יתרונות :מסתמך על נתונים קיימים ,מיד ביולוגי קודם. חסרונות :מסתמך על מידע קודם ,חלקי ,חשוף לטעויות ב ,DB-וישנו קושי להגדיר היטב את גבולות הדימיון. באמצעות שימוש ב :EST-אם ישנה התאמה ז"א זהמקטע שבא לידי ביטוי – ולכן בסבירות גבוהה זהו גן ,כמו כן ניתן בעזרתו לקבל מידע מדוייק על גבולות אקסונים/אינטרונים. כלים.sim4, BLAT : השוואה בין גנומים של מינים שונים – מבוסס על ההנחה מידע מקודד שמור יותר ממידע שאינו מקודד .שתי גישות: • – Intra-Genomicע"י משפחות גנים • – Inter Genomicבין מינים. •בעת ביצוע ה Alignment-יש חשיבות למרחק האבולוציוני :קרוב מידי – כל האיזורים יראו דימיון לא רק גנים ,רחוק מידי – תיתכן מידה רבה של אי דימיון שתוביל לאיבוד מידע /מידע שגוי. חיזוי גנים ע"פ סמנים ()intrinsic): (ab initio •פרוקריוטים – זיהוי – ORF סדר גודל של גנום קטן ,ג- 90%מהמידע בגנום מקודד, זיהוי גנים קל יחסית – אחוז הצלחה גבוה מאוד .מבנה של אופרונים – יחידת שיעתוק אחת למס' גנים ,אין אינטרונים ,גן = 1חלבון ,1 לכל גן יש ORFשמתחיל ב- )start codon(ATGונגמר ב- )stop codon(TAA/TAG/TGA (אין end codonבדרך). oשיטת חיפוש היא פשוטה: חיפוש הORF- בכל 6 מסגרות הקריאה
האפשריות (3 קדימה3 , ברוורס). oסינון ע"פ קריטריונים נוספים: א ו ר ך ה O R F צ ר י ך ל ה י ו ת ל פ ח ו ת 3 0 0 b p ע " מ ש י כ י ל ג
ן , צ ר י ך ל ה כ י ל ה ר כ ב ח . א . ע " פ ה מ ק ו ב ל ב א ו ר ג נ י ז ם ה ס פ צ
י פ י , צ ר י ך מ ב נ ה / צ י ר ו ף c o d o n י ם ש מ ו פ י ע ס פ צ י פ י ת ב א ו ר ג
נ י ז י ם ה ז ה . oבעיות :טעות קטנה ,של בסיס אחד ב- start/stopקודון יכולה להשפיע על זיהוי של גנים, מקטעים קצרים מאוד (למשל קטנים מ)300b- שבכ"ז מכילים גנים יפוספסו. •אאוקריוטים – פרומוטורים, ,PolyAאתרי שחבור אלטרנטיבי וStart/Stop- -Codonsגנומים גדולים מאוד ,צפיפות המידע המקודד קטנה ,מבנה של אינטרונים/אקסונים ,באופן כללי זיהוי גנים קשה. oשלב : Iהקלט הינו רצף ,DNAהפלט הינו אנוטציה של הרצף שמראה עבור כל נוק' האם הוא מקודד או לא וזיהוי ע"ס זה של האקסונים בגנים המקודדים לחלבונים (מתעלמים מאיזורי .)UTR 5/3 oשימוש בכלים סטטיסטיים ע"מ לבחון האם רצף דנ"א מקודד לחלבון .הנחת
הבסיס היא שישנו שוני באופן השימוש בקודונים בין מקטעים מקודדים ללא מקודדים וזוהי תכונה בסיסית של הגנום שבאה לידי ביטוי ,לדוגמא, בכך שבמקטע מקודד באופן סטטיסטי ישנו שוני בכמות הקידוד לח.א .באיזורים מקודדים /לא מקודדים וכמו כן ישנו הבדל בכמות השימוש בקודונים מקבילים לאותה ח.א. . oבדרך כלל חישוב הניקוד הסטטיסטי עבור רצף מסויים מתבצע בשיטת ,Sliding Window כאשר נדרש חלקון גדול 50-200bpע"מ לאתר סיגנל. oסיגנל – רצף DNA שמזוהה ע"י מנגנון בתא לצורך פעילות כלשהיא ,כגון שיעתוק. – CPG Islandso איזורים בגנום בעלי שכיחות גבוהה יותר של ה- דינוקליאוטיד ,CG בדרך כלל נמצאים סמוך לאזור בו נמצא גן – ז"א סיגנל לכך שבאיזור יש גן. oדוגמא נוספת לסיגנל היא אתר שיחבור אלטרנטיבי – אינטרון מתחיל ב GU, A-באמצע, וחזרות של .AG
oאתר קישור לפקטור שיעתוק הוא בעייתי – האתרים קטנים ( ,)6bpיש בעיותיות בזיהוי הפרומוטור גם אם מוצאים את אתר הקישור ,ישנם מס' פקטורי שיעתוק שנקשרים מבקביל ויש צורך לזהות את הקומבינציה המדוייקת – מאוד קשה. oשיטות לזיהוי סיגנלים: ר צ פ י ק ו נ צ ז ו ס מ ט ר י צ ו ת / מ ע ר כ י מ ש ק ל י ם
ע צ י ה ח ל ט ה , H M M . . . •שילוב של השיטות הנ"ל. תוכנות לזיהוי גנים: •מבוססות חוקים – מערכות החלטה ,ישנו סט חוקים שמגדיר האם גן או לא. .GenFinder •מבוססות רשת טבעית – משתמשות במידע שמתקבל ממקור חיצוני ע"מ לבנות את החוקים.Grail/EXP . • – HMMשימוש בכלים סטטיסטים – חישוב הסתברויות של מצבים ואפשרויות וקבלת החלטות ע"ס התוצאות החישוביות. .Gen/Genome Scan • – GenScanזיהוי של מבנה גן שלם בגנום אדם ,מדוייק!, משמש רק לגנים שמקודדים לחלבונים .פרמטרים סטטיסטיים שרלוונטים לחישוב ההסתברותי (באורינטציה של מידע שהצטבר כבר על הגנום): מס' אקסונים ממוצע לגן, אורך אקסון ממוצע ,מבנה ההקסמרים . ...בשלב הראשון ע"מ להתכוונן באופן גס למקום הגן משתמש בשיטות המבוססות על תוכן הרצף -זיהוי פרומוטורים,
אקסונים/אינטרונים ...וזאת ע"י זיהוי סיגנלים .כמו כן מתבצעת בדיקה שהם מופעים בסדר הגיוני .לאחר מכן ע"מ לשפר ולדייק הוא משתמש בהשוואה ע"ס -Patternים. •ישנו סט של ערכי סף – Sn Sensitivity, Sp - Specifity עבור כל רמה – רמת הנוקליאוטיד ,רמת האקסון, רמת הגן .התוצאה נחשבת אמינה מעבר לערכי הסף שנקבעו. •קשיים בתהליכי חיזוי גנים: oבין גנים מפרידים מרווחים גדולים oחלוקת הגן למקטעים: אקסונים/אינט רונים oבאדם ,החלק המקודד בגנום קטן מאוד יחסית לגודל הגנום. oמגוון רחב של סיגנלים. oשחבור אלטרנטיבי ורצפים חוזרים. oבעיה בזיהוי מדוייק של אקסונים ראשון ואחרון –בגלל נוכחות של -UTRים. oגנים קטנים – לא נופלים בחתכים הסטטיסטיים ולא מזוהים. oהמידע שמשמש לבניית
אלגוריתמי החיפוש מבוסס על מידע שנרכש מגנים אחרים – קיבעון תכנותי – יתכן שיש דברים שלא נזהה... oלא תמיד יש סימוך ביולוגי לתוצאות הריצה. oקושי באימות הנתונים – תוצאות שגויות חיוביות (זוהה גן אבל בפועל אין גן). oיכולת הדיוק בחיזוי גבוהה – לא מספיק. •אחת הדרכים לאמת המידע היא להצליב הרצות של מס' שיטות חיזוי גנים ,ולהשתמש בחיתוך של התוצאות שהתקבלו. •דרך נוספת היא להשתמש בתוכנות שונות ,שכ"א מתמקדת בחיזוי דרך אלמנטים שונים בגן ע"מ להשלים את התמונה. •שיטת העבודה המקובלת: oמיסוך רצפים חוזרים - RepeatMasker oהרצת הרצף דרך מס' תוכניות חיזוי oביצוע בדיקת תוצאות שהתקבלו על גנים חזויים אל מול DB של ,EST וגנים באורגניזמים אחרים ,כנ"ך ביצוע חיפוש
דומה של הרצפים שהתקבלו כלא מקודדים.