Statistica dei valori estremi
Valori massimi e statistica descrittiva Scopo delle misure del lume cellulare in diverse specie e in diverse posizioni è stimare il valore massimo presente nella popolazione, questo parametro sembra essere ben correlato alle caratteristiche idrauliche del legno. La statistica descrittiva affronta il problema dei valori estremi individuandoli come scostamento dalla media della popolazione in unità di deviazione standard.
Valori massimi e statistica descrittiva
Media 68%
99%
-2
-1
+1
+2
Questi metodi sono nati dalla necessità di confrontare le medie di due popolazioni, non di individuarne il valore massimo. Perciò si adattano bene per valori prossimi alla media e male agli estremi. Perciò non verranno usate nelle successive analisi.
Modelli asintotici (MAX) Questi utilizzano di una serie di valori solo i massimi rilevati in unità di campionamento omogenee, ad esempio la portata massima del torrente nell’anno o la cellula più grande per immagine. Questi valori sono ordinati in modo decrescente e ad ognuno viene affidata una probabilità di venir superato così determinata. Area
Posizione
Probabilità di superamento
Probabilità di non superamento
1648.485
1
0.04
0.96
1562.136
2
0.07
0.93
1555.368
3
0.11
0.89
…
…
…
…
1108.887
26
0.96
0.04
p( x) =
n N +1
Dove n è il numero progressivo e N il numero totale di campioni. La probabilità di non supermento è pari ad uno meno la probabilità di superamento
Modelli asintotici (MAX) Possiamo fare un grafico che metta in relazione il valore osservato e la probabilità di non superamento prima determinata. 1800 1600 1400 1200 1000 800 600 400 200 0 0
0.2
0.4
0.6
0.8
1
Ora dobbiamo trovare una funzione che ponga in relazione un valore di area con la sua probabilità di non superamento. Inizialmente ne sono state proposte tre.
Teorica classica dei valori estremi Gumbel o curva del valore massimo di tipo I (MLE EV0) Adatta a serie dove a priori non si immagina un limite superiore, ad esempio una serie idrologica. Valore
p ( x) = e −e
0
Probabilità di non superamento
1
−
x −b a
Teorica classica dei valori estremi Fréchet o curva del valore massimo di tipo II (MLE EVI) Adatta a serie dove a priori si suppone l’esistenza di un limite inferiore. Valore
p( x) = e
Probabilità di non superamento
x −b − a
−α
Teorica classica dei valori estremi Weibull o curva del valore massimo di tipo III (MLE EVII) Adatta a serie dove esista un limite superiore, ed è il caso delle aree dei lumi cellulari che non crescono all’infinito. Valore
p ( x) = e Probabilità di non superamento
x −b α − − a
Teorica classica dei valori estremi Le espressioni servono solo a far vedere che la forma delle curve di distribuzione variano in base a due o tre parametri e sono molto versatili quanto a forma: Valore Probabilità di non superamento
La stima dei parametri viene fatta con un’interpolazione manuale o, con l’avvento del computer, in base al metodo del maximum likelihood. È una versione più raffinata del metodo dei minimi quadrati che ottimizza i parametri per approssimazioni successive.
Generalized extreme value Però disporre di tre curve di distribuzione da scegliere in base a delle considerazioni fatte a priori è una delle principali pecche del metodo. Perciò negli anni ’50 è stata elaborata un’unica curva di distribuzione che comprende, nella sua generalità, tutte le altre. È stata chiamata GEV (o MLE EV), acronimo di Generalized extreme 1 value. − ξ
p ( x) = e
x−µ − 1+ξ σ
In pratica questa funzione è pari a quella di Gumbel se ξ è pari a 0, a Fréchet se ξ vale 1 e Weibull se ξ vale –1. Ciò che conta è che la serie non ha alcun limite per ξ nullo, è limitata superiormente per ξ negativo ed inferiormente per ξ positivo.
Generalized extreme value Perciò è stata scelta quest’ultima funzione e va ad interpolare in questo modo la serie dei dati. Probabilità
0.003
2000 1800
0.0025
1600 1400
1.2
Densità di probabilità
1
Probabilità
0.002
0.8
0.0015
0.6
0.001
0.4
0.0005
0.2
1200 1000 800 600 400 200 0 0
0.2
0.4
0.6
0.8
1
0 1100
1200
1300
1400
1500
0 1600
Quella così ottenuta è la probabilità di superamento entro il campione. In questo caso possiamo dire che ripetendo un analogo campionamento c’è una probabilità del 95% di non trovare una cellula più grande di 1542.62 µm², o altrimenti c’è una probabilità pari a 5% di superare questo stesso valore.
Generalized extreme value Nota l’entità del campionamento, cioè la superficie campionata rispetto a quella totale utile dell’anello, possiamo fare una stima del valore di non superamento per l’intera popolazione. P( x) = p( x)
C c
Dove c è il numero di campioni rilevati e C il numero totale di campioni presenti nella popolazione. Nel nostro caso se stimiamo di aver campionato il 10% della popolazione possiamo stimare che solo il 5% delle cellule abbiano un’area 1561.19 µm². Il valore è analogo al precedente perché la serie di valori estremi è limitata superiormente; altrimenti le differenze possono divenire ingenti. La presenza di un limite superiore è una delle prime cose da valutare in queste analisi statistiche.
Modelli basati sulla soglia (POT) Però con questa tecnica utilizza una sola misura per unità campionaria, disponendo anche di altri dati questo metodo spreca molti informazioni. Nel nostro caso questo può essere l’apice di un fusto dal momento che non si possono ricavare più di tante immagini. Perciò sono stati elaborati modelli statistici basati sulle soglie. In pratica si individua una soglia al di sopra della quale i valori sono definiti estremi. In pratica si utilizzano tutti i valori di area rilevati e si cerca una soglia al di sopra della quale questi valori possono essere considerati estremi.
Modelli basati sulla soglia (POT)
0 50 100150200
Il problema è definire è la soglia. Per individuarla è stato pensato un sistema per tentativi. Si individuano soglie via via crescenti e per i valori che la superano si calcola la media degli scarti rispetto la soglia. Alla fine si costruisce un grafico con in ordinata il valore della soglia ed in ascissa la media degli scarti dalla soglia stessa
1100
1200
1300
1400
1500
1600
Si sceglie come soglia il valore al di sopra del quale la media degli scarti varia in modo lineare e che consenta di avere almeno 10 o 15 valori, in questo caso scegliamo 1.166 µm²
Modelli basati sulla soglia (POT) Fissata la soglia si calcola la probabilità di superamento come fatto in precedenza. Poi si interpolano i valori e le probabilità associate dei punti che superano tale soglia tramite una funzione detta Generalized Pareto Family (GPD o GP).
1800 1600 1400 1200 1000 800 600 400 200 0
Area
Posizione
Probabilità di superamento
Probabilità di non superamento
1648.485
1
0.02
0.98
1562.136
2
0.04
0.96
…
…
…
…
1165.98
34
0.74
0.26
1162.269
35
0.76
0.24
…
…
…
…
1101.573
45
0.98
0.02
ξ x H ( x ) = 1 − 1 + σ 0
0.2
0.4
0.6
0.8
1
−
1 ξ
Modelli basati sulla soglia (POT) L’interpolazione viene fatta tramite il metodo del metodo del maximum likelihood e questo è il risultato, limitato ai valori estremi. 2500
0.008 0.007
2000
1.2 Densità di probabilità
1
Probabilità
0.006
1500
0.8
0.005 0.004
1000
0.6
0.003
0.4
0.002
500
0.2
0.001
0 0.8
0.85
0.9
0.95
1
0 1350
1400
1450
1500
1550
0 1600
In questo caso ad una probabilità di non superamento del 5% entro il campione è associata un’area pari a 1531.67 µm²
Modelli basati sulla soglia (POT) Tramite la stessa funzione di prima possiamo stimare la probabilità di non superamento nell’intera popolazione. L’area associata ad una probabilità di non superamento del 95%, posto un campionamento del 10%, risulta pari a 1583.12 µm².
Confronto tra i due metodi I due metodi danno risultati analoghi, però quello basato sulla soglia richiede una certa accortezza nella definizione di quest’ultima. Metodo Generalized Extreme value
Probabilità 0.95
Valore stimato 1561.19 µm²
Generalized Pareto Family
0.95
1583.12 µm²
In ogni caso è essenziale che le serie risultino limitate, e questo richiede una valutazione delle cellule più grandi. Quest’operazione è più facile da fare utilizzando il GEV; il metodo basato sulle soglie va usato come verifica o qualora non si possa disporre di un numero sufficiente di immagini.
Conclusioni I metodi finora esposti dimostrano ciò che si osserva già dal dato grezzo. Perciò vale la pena di usarli se già ad occhio si osserva qualcosa. I calcoli vengono fatti tutti o da un software di statistica (SPLUS) o da un programmino (XTREMES). Le uniche cose necessarie sono: •Elenco ordinato dei valori e delle immagini a cui si riferiscono •Una stima della frazione campionata sul totale •Fissare un valore di probabilità di non superamento uguale per tutte le popolazioni in modo da poter fare dei confronti omogenei. Noto questo il programma restituisce l’area associata a questa probabilità.