Statistica Dei Valori Estremi

  • Uploaded by: Claudio Fior
  • 0
  • 0
  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Statistica Dei Valori Estremi as PDF for free.

More details

  • Words: 1,182
  • Pages: 14
Dottorato in Ecologia Forestale Università degli Studi di Padova Supervisore: Tommaso Anfodillo Dottorando: Claudio Fior

Statistica dei valori estremi

Area massima del lume cellulare Scopo delle misure del lume cellulare in diverse specie e in diverse posizioni è stimare il valore massimo presente nella popolazione, questo parametro sembra essere ben correlato alle caratteristiche idrauliche del legno. Il problema sono le misure sono fatte su un campione della popolazione e quindi è necessario associare ad ogni valore massimo proposto una probabilità di superamento, ossia che con ulteriori rilievi si possa trovare un elemento di conduzione più ampio.

Area massima del lume cellulare Non è pensabile utilizzare comuni modelli statistici, come la distribuzione normale o log-normale, per due ragioni: •Le serie di misure sono troncate, le cellule più piccole di una sezione sono, nelle conifere, sezioni terminali delle trachiedi e perciò non vengono considerate nelle analisi. •La distribuzione di frequenza delle misure è la più disparata nei vari campioni. Perciò si sono considerati i valori massimi rilevati in 15-20 campioni della popolazione.

Valori massimi e probabilità di superamento Così ad ognuno dei 20 valori massimi è stata associata una probabilità di superamento. Per fare ciò si sono ordinati in modo decrescente i valori, la probabilità di ciascuno è: n p ( x) = N +1 Dove n è il numero progressivo e N il numero totale di campioni.

Valori massimi e probabilità di superamento x

n

p(x)

1031.3811

1

0.038461538

1151.4614

2

0.076923077

Area massima del lume e probabilità di supermaneto

4000 3500

…..

3000

2469.6162

17

0.653846154

2509.3519

18

0.692307692

2611.6385

19

0.730769231

1500

2631.943

20

0.769230769

1000

2665.893

21

0.807692308

2836.298

22

0.846153846

3336.2689

23

0.884615385

3353.9534

24

0.923076923

3632.649

25

0.961538462

x

2500 2000

500 0 0

0.2

0.4

p(x)

0.6

0.8

1

Il problema è trovare una funzione che interpoli valori e probabilità associate in modo da poter fare delle previsioni ed estrapolazioni.

Curva di distribuzione normale La curva di distribuzione normale è una delle soluzioni possibili però presenta forti limiti. Non sapendo nulla dell’ipotetica distribuzione dei massimi è abbastanza improbabile che sia simmetrica come quella normale.

Perciò verso l’inizio del secolo scorso sono state elaborate tre curve di distribuzione molto flessibili e duttili, in grado di adattarsi alle più disparate distribuzioni.

Teorica classica dei valori estremi Gumbel o curva del valore massimo di tipo I Adatta a serie dove a priori non si immagina un limite superiore, ad esempio una serie idrologica.

p ( x) = e −e



x −b a

Fréchet o curva del valore massimo di tipo II Adatta a serie dove a priori si suppone l’esistenza di un limite inferiore.

p( x) = e

 x −b  −   a 

−α

Weibull o curva del valore massimo di tipo III Adatta a serie dove esista un limite superiore, ed è il caso delle aree dei lumi cellulari che non crescono all’infinito.

p ( x) = e

  x −b α  −  −     a  

Teorica classica dei valori estremi L’espressione un po’ complessa serve solo a far vedere che la forma della curva di distribuzione varia in base a due o tre parametri. Ciò le rendono molto versatile quanto a forma:

La stima dei parametri veniva fatta con un’interpolazione manuale o, con l’avvento del computer, in base al metodo del maximum likelihood. È una versione più raffinata del metodo dei minimi quadrati che ottimizza i parametri per approssimazioni successive.

Generalized extreme value Però disporre di tre curve di distribuzione da scegliere in base a delle considerazioni fatte a priori è una delle principali pecche del metodo. Perciò negli anni ’50 è stata elaborata un’unica curva di distribuzione che comprende, nella sua generalità, tutte le altre. È stata chiamata GEV, acronimo di Generalized extreme value.

p ( x) = e

1  − ξ  x − µ   − 1+ξ     σ   

     

In pratica questa funzione è pari a quella di Gumbel se ξ è pari a 0, a Fréchet se ξ vale 1 e Weibull se ξ vale –1. Ciò che conta è che la serie non ha alcun limite per ξ nullo, è limitata superiormente per ξ negativo ed inferiormente per ξ positivo.

Generalized extreme value Perciò è stata scelta quest’ultima funzione e va ad interpolare in questo modo la serie dei dati. Area massima del lume e probabilità di superamento

7000 6000 5000 x

4000 3000 2000 1000 0 0

0.2

0.4

p(x)

0.6

0.8

1

Quella così ottenuta è la probabilità di superamento entro il campione, la stima della probabilità di superamento nella C popolazione si ottiene P( x) = p( x) c

Dove c è il numero di campioni rilevati e C il numero totale di campioni presenti nella popolazione.

Modelli basati sulla soglia Però con questa tecnica si una una sola misura delle misure fatte nei campioni, disponendo anche di altri dati questo metodo spreca molti informazioni. Perciò sempre nello stesso periodo sono stati elaborati modelli statistici basati sulle soglie. In pratica si individua una sogli al di sopra della quale i valori sono definiti estremi. Per questi valori si è applicata una versione semplificata della formula precedente, detta Generalized Pareto Family.  ξ x H ( x ) = 1 − 1 +  σ  



1 ξ

In pratica questa funzione associa ad un valore definito estremo la probabilità di venire superato entro la popolazione dei valori estremi. La probabilità di superamento nell’intero campione si ottiene moltiplicando questo valore per la frazione di valori estremi presente nella popolazione.

Modelli basati sulla soglia Il problema è definire qual è la soglia al di sopra della quale i valori considerati sono estremi. Per individuarla è stato pensato un sistema per tentativi. Si individuano soglie via via crescenti e per i valori che la superano si calcola la media degli scarti dalla soglia. Alla fine si costruisce un grafico con in ordinata il valore della soglia ed in ascissa la media degli scarti dalla soglia stessa

Si sceglie come soglia il valore al di sopra del quale la media degli scarti varia in modo lineare, in questo caso sopra i 2000 µm²

Confronto tra i due metodi Alla fine sono stati applicati i due metodi ai dati rilevati e i risultati ottenuti sono. Metodo Generalize Extreme value

Probabilità 0.95

Valore stimato 3889

Generalized Pareto Family

0.95

4274

I valori stimati sono abbastanza diversi tra di loro, probabilmente nel nostro caso è più corretto applicare il primo metodo di stima. Entrambe i metodi richiedono serie di dati indipendenti, nel nostro caso il valore di area di una cellula non deve dipendere da quello dei vasi vicini. Il metodo GEV è meno sensibile a serie di dati tra loro in parte dipendenti e perciò si è optato verso quest’ultimo nelle successive analisi.

Confronto tra i due metodi

Per l’interpretazione dei risultati è utile guida il libro dal titolo “An introduction to statistical modelling of extreme values” Per l’elaborazione è possibile usare un software freeware come: Xtremes

Related Documents


More Documents from ""