IL PROGETTO GENOMA UMANO Nature 431, 931 945 (21 October 2004); doi:10.1038/nature03001 Finishing the euchromatic sequence of the human genome INTERNATIONAL HUMAN GENOME SEQUENCING CONSORTIUM A list of authors and their affiliations appears in the Supplementary Information Correspondence and requests for materials should be addressed to F .S. Collins (
[email protected]), E. S. Lander (
[email protected]), J. Rogers (
[email protected]) or R. H. Waterston (
[email protected]). The sequence described here has been deposited in public databases, with the 24 human chromosomes having accession numbers NC000001 to NC000024. The sequence of the human genome encodes the genetic instructions for human physiology, as well as rich information about human evolution. In 2001, the International Human Genome Sequencing Consortium reported a draft sequence of the euchromatic portion of the human genome. Since then, the international collaboration has worked to convert this draft into a genome sequence with high accuracy and nearly complete coverage. Here, we report the result of this finishing process. The current genome sequence (Build 35) contains 2.85 billion nucleotides interrupted by only 341 gaps. It covers 99% of the euchromatic genome and is accurate to an error rate of 1 event per 100,000 bases. Many of the remaining euchromatic gaps are associated with segmental duplications and will require focused work with new methods. The near complete sequence, the first for a vertebrate, greatly improves the precision of biological analyses of the human genome including studies of gene number, birth and death. Notably, the human genome seems to encode only 20,000–25,000 proteincoding genes. The genome sequence reported here should serve as a firm foundation for biomedical research in the decades ahead.
LA MAPPA FISICA DEL GENOMA Si usano vettori ad inserti lunghi (es. Library in YAC)
Per prima cosa, si determinano i CONTIG, cioè set di cloni che si sovrappongono parzialmente. Via via che l’assemblaggio va avanti, i contig diventano equivalenti ad un unico cromosoma
Il processo è agevolato se, invece di digerire tutto il DNA genomico, si digerisce il DNA di uno specifico tipo di cromosoma, separato mediante FACS
Fluoroforo 1: AT Fluoroforo 2: GC
Come si assemblano i contig? DETERMINAZIONE DELL’ORDINE ATTRAVERSO Sequence-Tagged Sites (STS) E EST STS: corta sequenza di DNA UNICA che viene ottenuta da inserti clonati più lunghi (es: genoteca in fago λ).
Si disegnano coppie di primers per PCR in grado di amplificare ciascuna TAG
La presenza di un amplificato indica che nel clone da YAC è presente la TAG
Se uno stesso amplificato compare in due diversi cloni da YAC vuol dire che si sovrappongono e si costituisce il contig
IL SEQUENZIAMENTO AUTOMATIZZATO DEL DNA
Un esempio: il clonaggio e la mappatura del cromosoma
Y
Purificazione di cromosomi Y mediante FACS
Digestione
Genoteca in cloni di fago λ
Sequenziamento parziale e disegno di coppie di primers per STS (160 paia di primers)
Ulteriore suddivisione dei pool positivi fino ad assegnare una STS ad uno YAC Sequenziamento dei cloni= sequenziamento del cromosoma
Digestione più incompleta
Genoteca in cloni di YAC (10368 cloni; inserti ≈650 kb Ogni regione rappresentata in media 4 volte)
Suddivisione in 18 pool e amplificazione con le coppie di primers
L’attribuzione del contenuto totale Di STS di ogni YAC permette La sovrapposizione e l’allineamento nei contig
La tecnica della PCR, unitamente alle recenti acquisizioni sulla sequenza del genoma umano, consente di clonare direttamente un gene specifico, senza bisogno di costruire delle genoteche
-Devono essere note le sequenze che fiancheggiano la regione da clonare -La regione da clonare non deve essere troppo lunga
I VETTORI DI ESPRESSIONE
L’ESPRESSIONE DI UN GENE CLONATO
Produzione di proteine di Interesse commerciale, (farmacologico, terapeutico, Industriale, ecc.)
Studio della funzione di una proteina
VETTORE DI ESPRESSIONE E’ un vettore di clonazione Deve permettere, sia la TRASCRIZIONE (=PROMOTORI trascrizionali), sia la TRADUZIONE (=SITO DI ATTACCO DEL RIBOSOMA) del gene
-GLI OSPITI FINALI PIÙ COMODI PER LA PRODUZIONE COMMERCIALE SONO I BATTERI, IN PARTICOLARE E.coli.
PROTEINE RICOMBINANTI IMPORTANTI PER L’USO TERAPEUTICO UMANO PRODOTTE IN E. coli E APPROVATE DALL’FDA
Categoria terapeutica
Prodotto
Indicazioni in breve
Ormone di interesse terapeutico
Insulina umana
Trattamento del diabete
Insulina glargine Insulina lispro Insulina glucolisine
Derivati dell’insulina mutagenizzati
Somatotropina
Trattamento delle deficienze della crescita
Fattori di crescita ematopoietici
Filgrastim
Derivato del G-CSF Riduzione della durata della neutropenia e dell’incidenza della neutropenia febbrile in pazienti neoplastici trattati con chemioterapici citotossici
Agenti trombolitici
Reteplase Saruplase
Interferoni umani
Interleuchine umane
Derivati dell’attivatore del plasminogeno. Infarto miocardico acuto
Interferone alfa-2b
Trattamento di: leucemia a hairy cells; epatite cronica B e C; AIDS; cancro
Interferone beta 1-b
Trattamento della sclerosi multipla
Interferone gamma
Trattamento della granulomatosi cronica
IL-2
Carcinoma renale
IL-11
Trattamento della trombocitopenia
COME SI CONVINCE UN BATTERIO A PRODURRE UNA PROTEINA DI ORIGiNE EUCARIOTA??
1) Il gene deve essere sotto forma di cDNA 2) Bisogna adattare l’accoppiata cDNA/vettore in modo da consentire al batterio di effettuare la trascrizione e la traduzione -Promotore -Inizio della trascrizione -Terminazione della trascrizione -Inizio della traduzione proteina
RNAm
L’inizio e la fine della trascrizione sono molto diversi nei batteri e negli eucarioti I batteri hanno un’unica RNA polimerasi
NUCLEO (β,β , 2α) Fattore σ
Il nucleo dell’RNA pol ha bassa processività
RNA polimerasi = Nucleo pol + fattore σ
L’RNA pol trova un segnale di termine e si stacca dal DNA stampo
Il fattore σ riconosce il promotore e induce l’assocoazione del nucleo dell’RNA pol con il DNA
L’RNA pol inizia a svolgere il DNA…..
L’RNA pol polimerizza l’RNA rapidamente (50 NTP/sec) con alta processività
…e comincia a trascrivere (inizio abortivo)
5’
3’
Il fattore si stacca. L’RNA pol cambia conformazione
Segnali di inizio della trascrizione (promotori) nei batteri
Sequenza di consenso
-E’ ad essi (DNA a doppio filamento) che si lega il fattore σ
-Le regioni più conservate (che interagiscono con il fattore σ) sono nelle regioni -10 e -35 -Le alternative nucleotidiche nelle posizioni -10 e -35 determinano la forza con cui il fattore σ si lega al promotore e quindi la frequenza con cui il gene verrà trascritto. E’ un meccanismo regolativo
I promotori sono asimmetrici: l’orientamento del promotore indica quale dei due filamenti di DNA verrà trascritto
La terminazione della trascrizione nei batteri
Segnale di termine (TERMINATORE) del DNA: E’ costituito da una sequenza simmetrica di DNA seguita da una fila di coppie A-T
Legame debole DNA/RNAm
Forza la pinna ad aprirsi
L’inizio della trascrizione negli eucarioti TYPE OF POLYMERASE
GENES TRANSCRIBED
RNA polymerase I
5.8S, 18S, and 28S rRNA genes
RNA polymerase II
all proteincoding genes, plus snoRNA genes and some snRNA genes
RNA polymerase III
tRNA genes, 5S rRNA genes, some snRNA genes and genes for other small RNAs
-La RNA-polimerasi II, anche in vitro, non può iniziare a trascrivere senza l’aiuto dei FATTORI GENERALI DI TRASCRIZIONE
-In vivo, bisogna anche tenere conto del compattamento del DNA nei nucleosomi e in forme di ordine di struttura superiore
Ingredienti per la trascrizione in vitro in una cellula eucariota
Ingredienti per la trascrizione in vivo in una cellula eucariota
Più di cento singole subunità!!!
L’allungamento della trascrizione negli eucarioti è strettamente accoppiata alla modificazione dell’RNAm
La terminazione della trascrizione negli eucarioti è completamente diversa da quella dei procarioti
La RNA-polII continua a polimerizzare anche dopo il taglio dell’RNAm. Come perde la processività? BOH?!?
Anche l’inizio della traduzione è diverso tra batteri ed eucarioti
Negli eucarioti il ribosoma riconosce l’AUG in prossimità del cap presente in 5’ dell’RNAm
Lega direttamente Il Cap
Il complesso si sposta in 5’ 3’ per cercare il 1° AUG
I° RNAt
Il sito di attacco del ribosoma nei batteri: le sequenze Shine Dalgarno
5’-AGGAGGU-3’
Segnala al ribosoma la posizione dell’AUG giusto da cui iniziare la traduzione. E’ posta a poche basi a monte dell’AUG Forma coppie di basi con l’rRNA 16S della subunità 30S del ribosoma Permette l’inizio della traduzione da siti AUG Interni all’RNAm
Riassumendo: i batteri 3) 4) 5) 6)
Non fanno splicing Hanno promotori diversi (riconosciuti dal fattore σ) Hanno una terminazione della trascrizione diversa Hanno un inizio della traduzione diverso (sequenze ShineDalgarno)
terminatore
Si inganna il batterio utilizzando il cDNA ed inserendo opportunamente le sequenze regolatrici nel vettore di espressione
pro = promotore batterico SD = sequenza Shine-Dalgarno T
T= terminatore batterico
COME SI REGOLA L’ESPRESSIONE GENICA NEI PROCARIOTI? 1)
La scelta del PROMOTORE
FORTE
REGOLABILE
Per produrre tanta proteina
Per produrla al momento giusto
Sigma Factor Promoters Recognized
Promoter Consensus −35 Region −10 Region σ70 Most genes TTGACAT TATAAT σ32 Genes induced by heat shock TCTCNCCCTTGA CCCCATNTA σ28 Genes for motility and chemotaxis CTAAA CCGATAT σ38 Genes for stationary phase and stress response ? ? −24 Region −12 Region σ54 Genes for nitrogen metabolism and other functions CTGGNA TTGCA
Si usano promotori riconosciuti dal fattore σ 70
Alcuni promotori utilizzati nei vettori di espressione per batteri
plac
IPTG (isopropil-b-D-tiogalattopiranoside): induttore gratuito di plac
placUV5:
derivato di plac: ha mutazioni in -10 che lo rendono più forte del wild-type
ptrp
Il fago ha un controllo genetico operone-simile che regola i due stati vitali
PL
cI: repressore di cro, PL e PR
Impedisce la produzione delle proteine della fase litica
cIts:
PLinattivo
mutante temperatura-sensibile del repressore cI
28°C
cIts
42°C
PL attivo
Come si regola l’espressione genica nei procarioti? 2) IL NUMERO DI COPIE DEL PLASMIDE ORI1
Sostituzione dell’ORI
ORI2
Plasmide con ORI efficiente
Plasmide efficiente nella regolazione della trascrizione e traduzione ma con ORI poco efficiente
Ulteriore incremento dell’espressione
L’INTEGRAZIONE DEL DNA NEL CROMOSOMA BATTERICO 1) Le cellule possono perdere il plasmide per SOVRACCARICO METABOLICO Utilizzare marcatori di selezione può essere costoso per preparazioni su larga scala
Fermentatore con unità di dispersione di microbolle
2) I batteri devono essere rilasciati nell’ambiente
Si effettua per GENE TARGETING Definizione generale GENE TARGETING: pilotare la ricombinazione Del DNA in siti specifici del DNA genomico Si realizza inserendo nel vettore navetta delle regioni di omologia con il sito del cromosoma in cui si vuole avere ricombinazione
≈50bp
-Il gene scelto come sito di ricombinazione non deve essere essenziale per E. coli Gene non essenziale
-Il plasmide non si deve poter propagare in E. Coli (es. ORI di B. subtilis) -Il promotore deve essere inducibile (controllo dall’esterno)
Gene non essenziale
Le PROTEINE DI FUSIONE
1) Diminuire la suscettibilità proteolitica
2) Agevolare la purificazione
3) Aumentare la solubilità
1) DIMINUZIONE DELLA SUSCETTIBILITA’ PROTEOLITICA
linker Gene E.coli
Gene estraneo
RNAm
p. di fusione
Proteasi specifica
2) AGEVOLARE LA PURIFICAZIONE
Asp-Tyr-Lys-Asp-Asp-Asp-Asp-Lys Viene tagliato dall’enterochinasi bovina
es:flag
3) AUMENTO DELLA SOLUBILITA’
Si ottiene fondendo geni codificanti proteine poco solubili con proteine o peptidi altamente solubili
La MUTAGENESI SITO-SPECIFICA Permette di generare cambiamenti della codificazione degli amminoacidi di una proteina agendo a livello del DNA del gene clonato
Ottenimento di proteine con nuove proprietà
Determinazione di residui importanti per processi quali la regolazione post-traduzionale, il folding proteico, l’interazione con altreproteine, la catalisi enzimatica, ecc.
MUTAGENESI MIRATA AGLI OLIGONUCLEOTIDI: Permette di introdurre mutazioni puntiformi -Si deve sapere esattamente l’esatta sequenza nucleotidica della regione del DNA che codifica il codone dell’RNAm da modificare -Il tipo di cambiamento che si vuole apportare (es: GCA
ACA=ser
ala nello studio della p-Ser)
Si usa un oligonucleotide di sintesi che ha un nucleotide discordante dove si vuole mutagenizzare
LA MUTAGENESI MIRATA AGLI OLIGONUCLEOTIDI CON IL DNA DI M13
Metodo per arricchire il DNA di M13 mutato Il ceppo dut ung
dUTPasi: abbassa il livello di dUTP
Uracile-N-glucosilasi: Rimuove il dUTP Incorporato nel DNA
ATT Ile
CTT Leu
LA MUTAGENESI MIRATA AGLI OLIGONUCLEOTIDI CON DNA PLASMIDICO
In realtà l’efficienza è bassa
50/50?
METODO PER ARRICCHIRE IN PLASMIDI MUTAGENIZZATI
NaOH
Klenow+T4+lig
LA MUTAGENESI CASUALE CON INNESCHI OLIGONUCLEOTIDICI DEGENERATI
Permette di generare tutti i possibili cambiamenti di un amminoacido in un certo sito Si usa quando non sono note le sostituzioni in grado di modificare la proteina bersaglio
VANTAGGI Non è necessario conoscere in dettaglio il ruolo di particolari aminoacidi nel funzionamento di una proteina Si possono ottenere mutanti inattesi dotati di proprietà utili, poiché vengono sostituiti più amminoacidi