Comp 1

  • Uploaded by: anon-927344
  • 0
  • 0
  • November 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Comp 1 as PDF for free.

More details

  • Words: 1,053
  • Pages: 15
What is comparative genomics? • Analyzing & comparing genetic material  from different species to study evolution,  gene function, and inherited disease • Understand the uniqueness between  different species

 

 

What is compared? • Gene location • Gene structure – – – –

Exon number Exon lengths Intron lengths Sequence similarity

• Gene characteristics – Splice sites – Codon usage – Conserved synteny

 

 

 

Figure 1   Regions of the human and mouse homologous genes: Coding exons (white), noncoding exons (gray}, introns (dark gray), and intergenic regions (black). Corresponding strong (white) and weak (gray) alignment regions of GLASS are shown connected with arrows. Dark lines connecting the alignment regions denote very weak or no alignment. The predicted coding regions of ROSETTA in human, and the corresponding regins in mouse, are shown (white) between the genes and the alignment regions.  

Comparison of mouse  chromosome 16 and the  human genome • Mural et al., Science, 2002, 296:1661 • Celera group • Synteny with human chr.’s 3,8,12,16,21,22  and rat chr.’s 10,11 Q: Why more breakpoints in mouse­human  than in mouse­rat? Q: Why more conserved genes in human than  in rat?  

 

•This also can occur between chromosomes •The longer the divergence time between 2 species,  the more recombination has occurred •100 million years since human­mouse divergence •40 million years since rat­mouse divergence  

 

Whole­genome shotgun sequencing: 3. 4. 5. 6. 7.

Genome is cut into small sections Each section is hundreds or a few  thousand bp of DNA Each section is sequenced and put in a  database A computer aligns all sequences  together (millions of them from each  chromosome) to form contigs Contigs are arranged (using markers,  etc) to form scaffolds

Q: What are the advantages of this over the  traditional method? Q: What are the potential sources of error?

 

 

1. Assembly of Mmu16 • 2. 3. 4. 5. 6. 7.

Total size: 99Mbp Not one contiguous sequence (contig) 8,635 contigs on 20 “scaffolds” Average scaffold size: 10Mbp Number of gaps: 8615 Total size of gaps: ~6Mbp Total coverage: ~93Mbp

Q: Why are there so many gaps? Q: Is there a great danger of missing genes that  might be in the gaps?  

 

2. Identify genes in Mmu16 1.

Scaffolds of >10kbp were examined (scaffolds larger than 1Mbp were  chopped) Regions with repeat motifs were ignored using RepeatMasker Several gene prediction engines use (GenScan, Grail, Fgenes) Amino acid sequences from open reading frames searched against nr  protein db (NCBI) Nucleotide searchers (using DNA from across scaffolds) performed  against:

2. 3. 4. 5.

1. 2. 3. 4. 5.

Celera’s gene clusters Mmu, Rno, & Hsa EST db’s NCBI’s RefSeq mRNA db Celera’s dog genomic db Public pufferfish genomic db

Q: Why dog and pufferfish? Why not just rat/mouse/human? Q: Why not just use DNA from the predicted genes for the db searches? Q: Why were only regions >10kbp used?  

 

2. Identify genes in Mmu16 1. 2. 3. 4.

1055 genes with high & medium confidence were predicted Other efforts have identified 1142 genes After visual annotation inspection, psuedogenes and annotation  errors removed, leaving 731 homologues genes The genes found were mostly orthologues because they were  reciprocal best matches by BLAST searches.

Q: Why did they find fewer than 1142 genes? Q: Why did they visually inspect the results? Q: Does their “reciprocal best match” test ensure they they are dealing  with orthologues? How else can they provide evidence for  orthology?

 

 

3. Identify regions of conserved synteny  between Mmu16 and Hsa

Regions of conserved synteny predicted by sequence similarity and by  protein comparisons Synteny based on sequence comparisons: Syntenic anchors were located ­ regions with high (80%) similarity over  short distances (~200bp or more). Average distance between anchors is 8kbp, but there are gaps as large as  707kbp in the mouse and 3.4Mbp in the human

• • 3. 4.

Q: Why look at anchors – why not just look at known gene locations? Q: Why are the anchors not uniformly distributed?

 

 

1. 2. 3.

3. Identify regions of conserved synteny  between Mmu16 and Hsa

56% of anchors were in mouse genes ­ exons mostly 44% in intergenic regions Relatively density is independent of coding/noncoding ­ making the anchors  an important marker of synteny (in addition to genes)

Human chr. 16 8 12 22 3q27-29 3q11.1-13.3 21

Mmu len. 10,461 1,284 363 2,081 13,557 41,660 22,327

Hsa len. 12,329 1,491 306 2,273 16,461 46,493 28,421

No. anchors 1,429 121 31 418 1,714 5,485 2,127

bad anch. (% incon.) 21 (1.5) 1 (0.8) 3 (9.7) 8 (1.9) 18 (1.0) 63 (1.1) 27 (1.3)

Orthologues 87 6 3 30 107 165 111

Q: Why were most of the anchors in genetic regions? Q: Why were some of the anchors not in or near genes? Q: Why is there not a clean correlation between the number of  orthologues and the length of the syntenous regions?     

3. Identify regions of conserved synteny  between Mmu 16 and Hsa • 2. 3. 4. 5. 6. 7.

Synteny based on gene comparisons: Search for matches b/n human and mouse proteins with mutually best  BLAST scores Syntenic blocks found ­ each block composed of dozens of genes (of the  731 genes) 99% of Mmu16 can be mapped to single, unique human chromosome  segments Of the 731 genes, 509 paired with a homologue that is most likely  orthologous For 164 genes, this assertion is weaker ­ low similarity, not best reciprocal  match For 14 genes ­ no homologue could be identified

Q: Why predict synteny with gene comparisons? Q: Why do genes occur in “blocks”? Q: What are the genes for which no homologue could be found?  

 

•Large regions conserved (1/3 of  Mmu16 on Hsa16 & Hsa21; the rest  in 5 other regions) •Content of genes in regions  preserved •Order of genes preserved (only a  couple exceptions) •99% of anchors conserved in order  and orientation •All 509 putative orthologues are  consistent in their location and order •About 2% of Mmu genes are unique  to mouse (relative to human) – no  homologue found for 14 of 731  genes Q: Why is the order of genes and  anchors preserved? Q: If no homologue is found in  human for those 14 genes, where    should we look?

 

Q: Why do gene pairs in syntenic regions have more significant E scores?  

 

Q: What general patterns can be seen? Q: Why do some of the factors correlate w/ gene density?  

 

Related Documents

Comp 1
November 2019 4
Comp
April 2020 26
Comp
December 2019 44
Comp
November 2019 42
Comp
November 2019 44
Comp
April 2020 25