Statistica Dei Valori Estremi

  • Uploaded by: Claudio Fior
  • 0
  • 0
  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Statistica Dei Valori Estremi as PDF for free.

More details

  • Words: 1,530
  • Pages: 19
Statistica dei valori estremi

Valori massimi e statistica descrittiva Scopo delle misure del lume cellulare in diverse specie e in diverse posizioni è stimare il valore massimo presente nella popolazione, questo parametro sembra essere ben correlato alle caratteristiche idrauliche del legno. La statistica descrittiva affronta il problema dei valori estremi individuandoli come scostamento dalla media della popolazione in unità di deviazione standard.

Valori massimi e statistica descrittiva

Media 68%

99%

-2

-1

+1

+2

Questi metodi sono nati dalla necessità di confrontare le medie di due popolazioni, non di individuarne il valore massimo. Perciò si adattano bene per valori prossimi alla media e male agli estremi. Perciò non verranno usate nelle successive analisi.

Modelli asintotici (MAX) Questi utilizzano di una serie di valori solo i massimi rilevati in unità di campionamento omogenee, ad esempio la portata massima del torrente nell’anno o la cellula più grande per immagine. Questi valori sono ordinati in modo decrescente e ad ognuno viene affidata una probabilità di venir superato così determinata. Area

Posizione

Probabilità di superamento

Probabilità di non superamento

1648.485

1

0.04

0.96

1562.136

2

0.07

0.93

1555.368

3

0.11

0.89









1108.887

26

0.96

0.04

p( x) =

n N +1

Dove n è il numero progressivo e N il numero totale di campioni. La probabilità di non supermento è pari ad uno meno la probabilità di superamento

Modelli asintotici (MAX) Possiamo fare un grafico che metta in relazione il valore osservato e la probabilità di non superamento prima determinata. 1800 1600 1400 1200 1000 800 600 400 200 0 0

0.2

0.4

0.6

0.8

1

Ora dobbiamo trovare una funzione che ponga in relazione un valore di area con la sua probabilità di non superamento. Inizialmente ne sono state proposte tre.

Teorica classica dei valori estremi Gumbel o curva del valore massimo di tipo I (MLE EV0) Adatta a serie dove a priori non si immagina un limite superiore, ad esempio una serie idrologica. Valore

p ( x) = e −e

0

Probabilità di non superamento

1



x −b a

Teorica classica dei valori estremi Fréchet o curva del valore massimo di tipo II (MLE EVI) Adatta a serie dove a priori si suppone l’esistenza di un limite inferiore. Valore

p( x) = e

Probabilità di non superamento

 x −b  −   a 

−α

Teorica classica dei valori estremi Weibull o curva del valore massimo di tipo III (MLE EVII) Adatta a serie dove esista un limite superiore, ed è il caso delle aree dei lumi cellulari che non crescono all’infinito. Valore

p ( x) = e Probabilità di non superamento

  x −b α  −  −     a  

Teorica classica dei valori estremi Le espressioni servono solo a far vedere che la forma delle curve di distribuzione variano in base a due o tre parametri e sono molto versatili quanto a forma: Valore Probabilità di non superamento

La stima dei parametri viene fatta con un’interpolazione manuale o, con l’avvento del computer, in base al metodo del maximum likelihood. È una versione più raffinata del metodo dei minimi quadrati che ottimizza i parametri per approssimazioni successive.

Generalized extreme value Però disporre di tre curve di distribuzione da scegliere in base a delle considerazioni fatte a priori è una delle principali pecche del metodo. Perciò negli anni ’50 è stata elaborata un’unica curva di distribuzione che comprende, nella sua generalità, tutte le altre. È stata chiamata GEV (o MLE EV), acronimo di Generalized extreme 1  value. −  ξ

p ( x) = e

  x−µ  − 1+ξ     σ   

    

In pratica questa funzione è pari a quella di Gumbel se ξ è pari a 0, a Fréchet se ξ vale 1 e Weibull se ξ vale –1. Ciò che conta è che la serie non ha alcun limite per ξ nullo, è limitata superiormente per ξ negativo ed inferiormente per ξ positivo.

Generalized extreme value Perciò è stata scelta quest’ultima funzione e va ad interpolare in questo modo la serie dei dati. Probabilità

0.003

2000 1800

0.0025

1600 1400

1.2

Densità di probabilità

1

Probabilità

0.002

0.8

0.0015

0.6

0.001

0.4

0.0005

0.2

1200 1000 800 600 400 200 0 0

0.2

0.4

0.6

0.8

1

0 1100

1200

1300

1400

1500

0 1600

Quella così ottenuta è la probabilità di superamento entro il campione. In questo caso possiamo dire che ripetendo un analogo campionamento c’è una probabilità del 95% di non trovare una cellula più grande di 1542.62 µm², o altrimenti c’è una probabilità pari a 5% di superare questo stesso valore.

Generalized extreme value Nota l’entità del campionamento, cioè la superficie campionata rispetto a quella totale utile dell’anello, possiamo fare una stima del valore di non superamento per l’intera popolazione. P( x) = p( x)

C c

Dove c è il numero di campioni rilevati e C il numero totale di campioni presenti nella popolazione. Nel nostro caso se stimiamo di aver campionato il 10% della popolazione possiamo stimare che solo il 5% delle cellule abbiano un’area 1561.19 µm². Il valore è analogo al precedente perché la serie di valori estremi è limitata superiormente; altrimenti le differenze possono divenire ingenti. La presenza di un limite superiore è una delle prime cose da valutare in queste analisi statistiche.

Modelli basati sulla soglia (POT) Però con questa tecnica utilizza una sola misura per unità campionaria, disponendo anche di altri dati questo metodo spreca molti informazioni. Nel nostro caso questo può essere l’apice di un fusto dal momento che non si possono ricavare più di tante immagini. Perciò sono stati elaborati modelli statistici basati sulle soglie. In pratica si individua una soglia al di sopra della quale i valori sono definiti estremi. In pratica si utilizzano tutti i valori di area rilevati e si cerca una soglia al di sopra della quale questi valori possono essere considerati estremi.

Modelli basati sulla soglia (POT)

0 50 100150200

Il problema è definire è la soglia. Per individuarla è stato pensato un sistema per tentativi. Si individuano soglie via via crescenti e per i valori che la superano si calcola la media degli scarti rispetto la soglia. Alla fine si costruisce un grafico con in ordinata il valore della soglia ed in ascissa la media degli scarti dalla soglia stessa

1100

1200

1300

1400

1500

1600

Si sceglie come soglia il valore al di sopra del quale la media degli scarti varia in modo lineare e che consenta di avere almeno 10 o 15 valori, in questo caso scegliamo 1.166 µm²

Modelli basati sulla soglia (POT) Fissata la soglia si calcola la probabilità di superamento come fatto in precedenza. Poi si interpolano i valori e le probabilità associate dei punti che superano tale soglia tramite una funzione detta Generalized Pareto Family (GPD o GP).

1800 1600 1400 1200 1000 800 600 400 200 0

Area

Posizione

Probabilità di superamento

Probabilità di non superamento

1648.485

1

0.02

0.98

1562.136

2

0.04

0.96









1165.98

34

0.74

0.26

1162.269

35

0.76

0.24









1101.573

45

0.98

0.02

 ξ x H ( x ) = 1 − 1 +  σ   0

0.2

0.4

0.6

0.8

1



1 ξ

Modelli basati sulla soglia (POT) L’interpolazione viene fatta tramite il metodo del metodo del maximum likelihood e questo è il risultato, limitato ai valori estremi. 2500

0.008 0.007

2000

1.2 Densità di probabilità

1

Probabilità

0.006

1500

0.8

0.005 0.004

1000

0.6

0.003

0.4

0.002

500

0.2

0.001

0 0.8

0.85

0.9

0.95

1

0 1350

1400

1450

1500

1550

0 1600

In questo caso ad una probabilità di non superamento del 5% entro il campione è associata un’area pari a 1531.67 µm²

Modelli basati sulla soglia (POT) Tramite la stessa funzione di prima possiamo stimare la probabilità di non superamento nell’intera popolazione. L’area associata ad una probabilità di non superamento del 95%, posto un campionamento del 10%, risulta pari a 1583.12 µm².

Confronto tra i due metodi I due metodi danno risultati analoghi, però quello basato sulla soglia richiede una certa accortezza nella definizione di quest’ultima. Metodo Generalized Extreme value

Probabilità 0.95

Valore stimato 1561.19 µm²

Generalized Pareto Family

0.95

1583.12 µm²

In ogni caso è essenziale che le serie risultino limitate, e questo richiede una valutazione delle cellule più grandi. Quest’operazione è più facile da fare utilizzando il GEV; il metodo basato sulle soglie va usato come verifica o qualora non si possa disporre di un numero sufficiente di immagini.

Conclusioni I metodi finora esposti dimostrano ciò che si osserva già dal dato grezzo. Perciò vale la pena di usarli se già ad occhio si osserva qualcosa. I calcoli vengono fatti tutti o da un software di statistica (SPLUS) o da un programmino (XTREMES). Le uniche cose necessarie sono: •Elenco ordinato dei valori e delle immagini a cui si riferiscono •Una stima della frazione campionata sul totale •Fissare un valore di probabilità di non superamento uguale per tutte le popolazioni in modo da poter fare dei confronti omogenei. Noto questo il programma restituisce l’area associata a questa probabilità.

Related Documents


More Documents from ""