Istatistik Ders

  • Uploaded by: api-3830341
  • 0
  • 0
  • November 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Istatistik Ders as PDF for free.

More details

  • Words: 1,231
  • Pages: 75
İleri İstatistik Teknikleri ? Neden “ileri” teknikler? ⇒Amaç: Eldeki “veriyi” “bilgiye” dönüştürebilmek - Veri vs. Bilgi

İstatistiksel Yöntemler • Betimleyici (Descriptive) Yöntemler ⇒Verili herhangi bir dağılımı bir ya da birden çok katsayıda anlatabilmek - Örn: şirkettekilerin yaş ortalaması

• Açıklayıcı (Explanatory) Yöntemler ⇒Bir veri setinde olası ilişkileri sergilemek - Örn: Şirkettekilerin ayakkabı numaralarıyla aldıkları maaş arasındaki ilişki

Betimleyici Yöntemler • Amaç: Eldeki dağılımı en iyi şekilde temsil etmek • Araçlar: – Ortalama: – Medyan: – Mod:

X

Betimleyici Yöntemler • Veeee.... • Varyans/Standart Sapma: s2

( x −x ) 2 =∑ n

• Neden:

İki Dağılımın Hikayesi Dağılım: 6,6,6 Ortalama: 6 Medyan: 6 Mod: 6

Dağılım: 0,6,12 Ortalama: 6 Medyan: 6 Mod: 6 Std: Sapma: 6

Std. Sapma: 0

Amaç: Görünenin Ötesine Bakabilmek

Açıklayıcı Analizler • Amaç: Verili bir sette olası ilişkileri keşfetmek ya da öngörülen hipotezleri test etmek

Görünen.... Genel 70

60

50

40 Genel 30

20

10

0 10

20

30

40

50

60

70

80

90

100

Görünenin Arkası.... 70

60

50

40

Kadınlar Erkekler Genel

30

20

10

0 10

Genel Kadınlar Erkekler

20

30

40

50

Ortalama: 51, Std. Sapma: 22 Ortalama: 46, Std. Sapma: 23 Ortalama: 46, Std. Sapma: 21

60

70

80

90

100

Örnek: Internet Kullanımı 500

400

300

200

100

Std. Dev = 14,30 Mean = 9,1 N = 761,00

0 2,5

12,5 7,5

22,5 17,5

32,5 27,5

42,5 37,5

52,5 47,5

Total hours spent on line last week-Hours

57,5

Ve Görünenin Arkası... Erkekler

Kadınlar

400

100

80 300

60 200 40

100 Std. Dev = 15,42

20

Std. Dev = 8,36

Mean = 9,8 N = 602,00

0 2,5

12,5 7,5

22,5 17,5

32,5 27,5

42,5 37,5

52,5 47,5

Total hours spent on line last week-Hours

Mean = 6,3 N = 158,00

0 2,5

57,5

12,5 7,5

22,5 17,5

32,5 27,5

42,5 37,5

52,5 47,5

Total hours spent on line last week-Hours

57,5

Açıklayıcı Analizler • Amaç: İlk bakışta görül(e)meyen ilişkileri sergileyip ilişkisel açıklamalar getirmek • Y= f(x) ie: İnternet kullanımı= f(cinsiyet) ie: Yaşam biçimi= f(gelir) ie: Tüketim kalıpları= f(yaşam biçimi)

Örnek: Gelişmişlik ve Yaşam Kalitesi • BM verilerinden elde edilen bir tablo... • Araştırma sorusu: Gelişmişlik ve Yaşam Kalitesi arasındaki ilişki • İşlemleştirme: – Gelişmişlik: Kişi Başına Düşen GSMH – Yaşam Kalitesi: Çocuk ölümleri

Gruplanmış Veri •    GMSH Gruplanmış En düşük Düşük Orta Yüksek En Yüksek

Çocuk ÖlümOranı En düşük Düşük Yüksek En yüksek

3,23 12,90 16,13 67,74

44,44 25,00 33,33 25,00 22,22 50,00

53,85 7,69 30,77 7,69

82,76 6,90 6,90 3,45

Scatterplot 200

Infant Deaths

100

0 0

GNP pc

10000

20000

30000

40000

Sorular • • • •

Grafiği ne kadar temsil ediyor? Ne gibi çıkarımlar yapabiliyoruz? “Forecasting” yapılabiliyor mu? İlişkinin “boyutu” ve “yönü” ölçülebiliyor mu?

Ne Kadar Yeterli?

Amaç: Daha iyi analiz, daha iyi veri • Covariance (kovaryans) 1 cov( x, y ) = ∑ ( xi − x )( yi − y ) n

• Correlation Coefficient (korelasyon) corr ( x, y ) =

cov( x, y )

σxσy

1 ( xi −x ) 2 ∑ n 1 σy2 = ∑( yi − y ) 2 n

σx2 =

Sonuçlar • Covariance: 2115,318 • Correlation: -0,60165 Çıkarılacak Sonuç Ne?

Amaç: Nedensel İlişkileri Göstermek • • • •

Y= f(x) X, Y’nin belirleyicisi mi? X, Y’yi ne kadar belirliyor? X, Y’yi ne yönde belirliyor?

Regresyon Analizi • Y= f(x) • Y= a+bx • Regresyon Denklemi:

yi =α + βxi + ui

Scatterplot 200

Infant Deaths

100

0

Rsq = 0,3620 0

GNP pc

10000

20000

30000

40000

Regresyon Katsayılarının Hesaplanması βˆ xy =

cov( x, y )

σx

1 2 σ = ∑( xi − x ) n ˆ = y − βx α 2 x

Regresyon Analizi Sonuçları Coefficients Unstandardized Coefficients B Std. Error

Model

a

1 (Constant) GNP pc Dependent Variable: Infant Deaths

75,04 0,00

Standardized Coefficients Beta

4,79 0,00

yi = 75.04 + −0.0034 xi + ui

t

Sig.

15,67 0,00 -0,60 -7,11 0,00

Regresyon Analizinin Açılımları • Çoklu Regresyon

yi =α + β1 x1i + β2 x2 i + β3 x3i + ui • Kukla Değişkenli Regresyon (Dummy Variable)

yi =α + β1 x1i + β2 Di + β3 Di x3i + ui •Binomial/Multinomial Regression

Regresyon Analizinin dezavantajları • Arkasında çok ciddi üç varsayım vardır. • Regresyon analizi sadece “interval” ya da “ratio” ölçümleme düzeyinde yapılır • “Do not use any mathematical model without understanding it”

Kümeleme ve Birleştirme Analizleri • Bütün olgular birbiriyle ilişkilidir. Aradaki ilişkinin 0 olduğu yerde bile... • Birleştirme analizlerinin amacı olguların birbirleriyle olan ilişkilerinden yola çıkarak işimizi kolaylaştırmaktır • 1. Değişken sayısını azaltabilirler • 2. Vaka sayısını azaltabilirler • 3. Boyut sayısını azaltabilirler

Faktör Analizi: Değişken Sayısını Azaltmak • Analize tabi bütün değişkenler birbiriyle ilişkili. • Bu değişkenlerin bazıları birbirleriyle daha kuvvetli ilişki sahibi. • Kuvvetli ilişki sahibi değişkenleri birleştirerek aza indirmek mümkün. • Değişkenlerarası korelasyon matrisi kullanılarak “faktör”ler inşa ediliyor

Faktör Analizi Total Variance Explaine d Initial Eigenvalues % of Cumulativ Component Total Variance e% 1 4,258 85,166 85,166 2 ,549 10,990 96,156 3 ,121 2,412 98,568 4 5,825E-02 1,165 99,733 5 1,335E-02 ,267 100,000

Extraction Sums of Squared Loadings % of Cumulativ Total Variance e% 4,258 85,166 85,166

Extraction Method: Principal Component Analysis. a Co mp o n e n t M atr ix

F Life Expectancy M Life Expectancy Infant Deaths Lýve Birth Rate Death Rate

Compone nt 1 -,988 -,985 ,962 ,900 ,759

Extraction Method: Principal Component Analysis. a. 1 components extracted.

“Case” Sayısı Azaltmak: Clustering • Verili değişkenler bazında analize alınan “case”ler birbirlerine benzerler • Bu benzerlik bir ya da daha fazla boyutta olabilir • Benzerliklerden yola çıkarak “clusters” oluşturmak mümkün • Benzerlikler metric mesafelerle ölçülüyor

Cluster Analysis I Final Cluste r Ce nte rs Cluster Lýve Birth Rate Death Rate Infant Deaths M Life Expectancy F Life Expectancy

1 45,47 19,24 140,78 44,22 46,57

2 43,21 13,53 102,85 51,75 54,63

3 36,20 9,33 61,40 60,49 64,39

4 16,58 8,76 14,17 69,52 75,80

Cluster Analysis II Case Number Name Cluster Distance 1 Albania 4 18,8 2 Bulgaria 4 5,4 3 Czechoslovakia 4 6,0 4 Former_E,_Germany4 8,8 5 Hungary 4 8,2 6 Poland 4 4,0 7 Romania 4 14,0 8 Y ugoslavia 4 6,8 9 USSR 4 10,4 10 Byelorussian_SSR 4 3,7 11 Ukrainian_SSR 4 5,5 12 Argentina 4 13,3 13 Bolivia 2 10,0 14 Brazil 3 8,7 15 Chile 4 8,1 16 Columbia 3 24,0 17 Ecuador 3 6,0 18 Guyana 3 9,9 19 Paraguay 3 20,4 20 Peru 2 18,7

Cluster Analysis III Numbe r of Case s in e ach Cluste r Cluster

Valid Missing

1 2 3 4

11,000 15,000 26,000 45,000 97,000 ,000

Boyut Sayısını Azaltmak: MDS • Analizde gözönünde tuttuğumuz her değişken bir “boyut” sayılabilir. • İki-üç boyuttan fazlasını “visualize” etmek kolay değil. • Değişkenler arasındaki uzaklıktan yola çıkılarak bu boyut sayısı azaltılabilir. • Değişkenler arasındaki uzaklıklar metric olarak ölçülebilir

MDS MDS 0,5 Peru 0,4

0,3 Romania 0,2

Bulgaria Y ugoslavia Czechoslovakia Former_E,_Germany Ukrainian_SSR Poland

Y

Brazil 0,1

USSR Guyana

-2

-1,5 Bolivia

-1

-0,5

Hungary

0 Ecuador0

Byelorussian_SSR

Argentina 0,5

Albania

1

1,5

Columbia -0,1

Chile

-0,2 Paraguay -0,3 X

2

• “İstatistiksel araçlarınız ne kadar güçlü, ne kadar gelişmiş olursa olsun, unutmamanız gereken tek şey var: • Bu verileri okuma yazması olmayan demiryolu bekçileri topladı” Sir John Maynard Keynes

Kaynaklar:

İrfan Yolcubal – 1. İstatistik ve Olasılık Ders Notları, Kocaeli Üniversitesi, Jeoloji Müh. Bölümü mf.kou.edu.tr/jeoloji/yolcubal/ istatistik/istatistik_giris.pdf

İrfan Erdoğan - Ampirik tasarım ve istatistik yöntem semineri www.anatoliajournal.com/akademik/birinciseminer.ppt

Related Documents

Istatistik Ders
November 2019 26
Istatistik
November 2019 17
Istatistik
May 2020 11
Ders
November 2019 25
Temel Istatistik
June 2020 21
Istatistik-ders01
June 2020 13