Istatistik-ders01

  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Istatistik-ders01 as PDF for free.

More details

  • Words: 1,710
  • Pages: 36
ĐSTATĐSTĐK DERSĐ Doç.Dr. Nuri AZBAR EBĐLTEM Binası 2.kat E-mail: [email protected] Tel:3880378/138

Kaynak Kitap     

BĐYOĐSTATĐSTĐK

Prof.Dr. Kadir Sümbüloğlu Doç.Dr. Vildan Sümbüloğlu Hatiboğlu Yayınları Tel: 0312-2234801

1

Ders değerlendirmesi   

Devam zorunlu (%70) Ara sınav+final Kanaat (ödev, devam, derste katılım)

Ders Đçeriği 

Tanımlar           

Đstatistik tanımı Biyoistatisitik Evren (populasyon veya ana kitle) Örneklem Örnekleme Parametre Veri Karakter Faktör Değişken Veri tipleri (sürekli keiskli, niteliksel)

2

Ders Đçeriği  

Frekans dağılımları Tanımlayıcı ölçüler 







Merkezi ölçüler (ortalamalar, mod, medyan, çeyreklik ve yüzdelikler) Yaygınlık Ölçüleri (std sapma ve varyans, varyasyon katsayısı) Evren Ortalaması güven sınırları

Đstatistik verilerinin sunum şekilleri 

Tablo ve grafik sunumlar

Ders Đçeriği 

Olasılık Dağılımları   

 

Önemlilik Testleri (Hipotez testi) Varyans Analizi (ANOVA testi) 

 

Binomiyal dağılım Poisson Dağılımı Normal Dağılım

F-testi ve çoklu karşılaştırmalar

Ki-Kare testi Korelasyon ve Regresyon Analizi

3

Tanımlar 

  

Đstatistik: Herhangi bir konuyu incelemek için gerekli verilerin: toplanması, toplanan verilerin değerlendirilmesi ve değerlendirme sonucunun karara bağlanmasını sağlayan bilim olarak tanımlanabilir.

Problemin Tanımı Populasyon (Ana Kitle) Hipotez

Deney -Gözlem Veri Topla

Veri Girisi

Deneyin Tasarımı

Veri Analizi

Netice

Problem çözüldü

Problem çözülmedi, basa dön

Şekil 1 Đstatiksel değerlendirme süreci

4

Tanımlar 

Đstatistik, konu olarak iki ana gruba ayrılır: 



Tanımlayıcı Đstatistik: Elde edilen verilerin sınıflandırılması, frekans dağılımlarının yapılması, bu dağılımların ortalamalar, standard sapmalar, çeyrek ve yüzdeler vb ölçülerle tanımlanması ve bulguların tablo ve grafiklerle sunulmasını kapsar Çıkarımsal Đstatistik: Örneklemden elde edilen bulgularla örneklemin çekildiği evren (populasyon ay da ana kitle) hakkında tahminlerde bulunma, karşılaştırmalar yapma ve kararlara varmayı kapsar.

Tanımlar 









Biyoistatistik: Đstatistiğin, biyoloji, tıp ve diğer sağlık bilimlerindeki uygulamasıdır Evren (Ana kitle ya da populasyon): belirli bir özelliğe sahip bireylerin tümünün oluşturduğu topluluk olarak tanımlanır. Örneğin, üniversite 1. sınınfta okuyan tüm öğrenciler bir populasyon ya da ana kitledir. Başka bir örnek vermek gerekirse, bir ülkede ki sigara içen tüm erkeklerin ve bayanların sayısı ya da oranı da bir populasyondur. Örneklem: Çekildiği ana kitleyi, evreni ya da populasyonu temsil ettiği düşünülen ve evrenden çekilen küçük bir grubun oluşturduğu topluluktur. Parametre: Evreni tanımlamak için kullanılan ölçülere parametre denir.Örneğin; Evren ortalaması (µ ), evren oranı (P), evren varyansı (ơ2 ) Đstatistik: Örneklemi tanımlamak için kullanılan ölçülerdir. Örneğin, Örnek ortalaması (X), örnek oranı (p), evren varyansı (S2 )

5

Tanımlar: Veri tipleri VERĐ TĐPĐ KANTĐTATĐF

KALĐTATĐF

SIRALI

NOMĐNAL

KESĐKLĐ

SÜREKLĐ

Tanımlar 

Veri: Bir olayı aydınlatmak ya da bir gerçeği ortaya çıkarmak için toplanan materyal (ölçüm, bilgi, belge, madde vb) olarak tanımlanabilir. 



Veri tipleri: Genel olarak iki grupta toplanabilir; Kantitatif (Niceliksel) ve Kalitatif (Niteliksel) veriler Kantitatif veriler sayısal veriler olup kendi içinde kesikli ve sürekli olarak iki gruba ayrılırlar. Bir hastanın bir yıl içindeki doktor vizite sayısı (0,1,2,...) kesikli bir veridir. Yeni doğan bir bebeğin kilosu ise (2.545 gr, 3.125 gr,....) sürekli bir veri tipidir. Çünkü belli bir aralık içinde sonsuz değer alabilir. Başka örnek vermek gerekirse, herhangi bir üretimin birim maliyeti, yaş ve kilo gibi sayısal değerler niceliksel veri gurubuna girer

6

Tanımlar 





Kalitatif veriler ise nitelik içerikli olup cinsiyet, meslek, renk vb.veriler bu grupta incelenebilir. Diğer örnekler; Đyileşti, iyileşmedi, sarı saçlı, erkek-kadın, uygun, uygun deil, hasta, sağlam. Kalitatif veri tipi kendi içinde sayısal (nominal), sıralı (ordinal) iki alt gurupta incelenebilir. i) Sayısal (nominal) veri tipi: Bu tip veriler rast gele kodları temsil eden sayısal verilerdir. Örneğin bir üniversitedeki değişik bölümlerin bilgisayarda farklı kodlarla temsil edilmesi (Đnşaat Müh. Böl.:1 ; Çevre Müh. Böl.: 2; Makine Müh. Böl.: 3 ;......) ii) Sıralı (ordinal ) veri tipi: Önem derecesine göre ya da şiddetine göre sıralamanın yapıldığı veri tipleri bu guruba girer. Örneğin bir yörede meydana gelen depremin şiddetinin 1 ile 10 arasında bir rakamla ya da kasırgaların 1 ile 5 arasında değişen şiddetlere göre sınıflandırılması bu veri tipine girer.

Tanımlar 



Faktör: Đstatistiki çalışmanın sonuçları üzerine etki eden etmenlerdir. Örneğin, pH, sıcaklık, basınç, yaş, cinsiyet vb. Değişken: Đstatistiki çalışma için toplanan verilerin değerleridir. Örneğin, kandaki bir biyokimyasal değer, boy uzunluğu, saç rengi, hava sıcaklığı.

7

8

9

10

11





“Đstatistiksel araçlarınız ne kadar güçlü, ne kadar gelişmiş olursa olsun, unutmamanız gereken tek şey var: Bu verileri okuma yazması olmayan demiryolu bekçileri topladı” Sir John Maynard Keynes

12

13

14

Örnekleme Hatası 

Bir populasyona ait parametrelerin örnekleme sonucu tahmininden söz edildiğinde, genellikle bu tahminin doğruluğunu test etmek isteriz. Çünkü, örneklemedeki değişkenlikten kaynaklanan nedenlere bağlı olmak üzere bu tahmin genellikle gerçek değerinden belli oranda uzaktadır. Parametre (gerçek değer) ile tahmin (ölçülene değer) arasındaki bu farklılık “örnekleme hatası” olarak bilinir.

Örnekleme Hatası 



 

Yapılan bir ölçüm tekrar tekrar yapıldığında yapılan her ölçümün alacağı değerler, ölçümü yapan kişi tarafından ölçüm şartları ne kadar sabit ya da aynı tutulmaya çalışılsa da farklı olacaktır. Gözlemlenen (ölçülen) değerler ile gerçek değer arasındaki ilişki aşağıdaki gibi verilebilir ;

Xi = µ + ei Xi : gözlemlenen (ölçülen değer) , µ : gerçek değer ; ei : hata payı

15

Örnekleme Hatası 



Đstatiksel anlamda hata, yanlış anlamına gelmemektedir. Bu yapılan deneyin ya da ölçümün doğasında olan ve kontrol edilemeyen etkenlerden kaynaklanan bir değişkenlik terimidir. Bu tür varyasyonlar her zaman mevcuttur, önemli olan bunu mümkün olduğu kadar minimumda tutmaktır. Örnekleme hatası temel olarak sistematik hatalar (farklı deney birimlerinin ya da ünitelerinin kullanılmasından kaynaklanan hatalar), ratsgele hatalar (doğal hatalar) ve ölçüm hataları (hassas olmaya ölçüm enstrümanlarının kullanılmasından kaynaklanan hatalar) bileşenlerinden oluşur. Örnekleme sayısının artırılması genellikle bu tür hataların oranını düşürür.

Diğer Hata Tipleri 



Örnekleme hatası dışında da bazı hata tipleri vardır, bu tür hatalara “örnekleme dışı hatalar” ya da “taraflı hatalar (bias)” şeklinde tanımlanabilir. Bu tür hatalar örnekleme sayısı ne kadar arttırılırsa arttırılsın olumsuz etkileri giderilemezler. Örneğin, seçimde hangi partinin galip çıkacağının tahmini için örnekleme gurubunun telefon rehberinden yada otomobil sahipleri listesinden bulunduğunu kabul edelim. Bu tür bir liste ekonomik gücü telefon yada otomobil almaya yeterli olmayan düşük gelirli kesimi dikkate almayacaktır. Dolayısıyla değerlendirme de bir taraflılığa neden olacaktır.

16

17

18

19

Frekans Dağılımı (Görülme sıklığı) 

Özellikle denek sayısı çok fazla olduğunda verilerin sınıflandırılması ile verile üzerinde yapılacak hesapları kolaylaştırdığı gibi hem de kullanıcı tarafından kolay anlaşılmasını sağlar.

Frekans dağılımı 

Sınıflandırma da kullanılan bazı terimler Sınıf sınırı: Her sınıfın bir alt ve bir üst değeri vardır. Bunlara o sınıfın alt ve üst sınırı denir. Örneğin, 10-14 sınıfının alt sınırı 10, üst sınırı 14’tür  Sınıfı aralığı: Her sınıfın alt sınırı ile üst sınırı arasındaki aralıktır. Örneğin; 10-14 15-19 20-24 Sınıflamasında aralık 5’tir. Sınıf sayısı ise 3’tür. Sınıf üst ve alt değerleri çakıştırılmamalıdır. 

20

Frekans dağılımı 

Sınıflandırma Kuralları:  

 

1-Sınıflar birbirine karışmamalıdır 2-Sınıflama bütün değerleri içine almalıdır, hiçbir değer dışarıda kalmamalıdır. 3-Sınıf aralıkları eşit olmalıdır 4-Sınıf sayısı 8-15 arasında olması önerilir

Frekans Dağılımı   

Sturgess kuralı Sınıf sayısı: K=1 + 3.3 log N N: Gözlem sayısı

21

Frekans Dağılımı  

En büyük değer



Sınıflandırma nasıl yapılır? 75 çocuğun boy uzunlukları ölçülmüş ve aşağıdaki gibi bulunmuş olsun. Bu verileri kullanarak sınıflandırmanın nasıl yapılacağını inceleyelim. 115, 94, 110, 103, 92, 104,106 ……………. 90, 100, 103 114……. En küçük değer

Frekans dağılımı 

Sınıflandırma nasıl yapılır? 



1.Dağılımdaki en büyük ve en küçük değer bulunur. Örneğimizde en büyük 115 ve en küçük değer 90’dır. 2.En büyük değerden en küçük değer çıkartılarak sınıf aralığı bulunur.

Sınıf aralığı= En büyük değer - En küçük değer 

 

Sınıf aralığı bir kez 8’e ve bir kez 15’e bölünerek sınıf aralığı saptanmaya çalışılır. 25/8= 3.1 ve 25/15= 1.7 17 ile 3.1 arasındaki herhangi bir değer sınıf aralığı olarak seçilebilir. Eğer sınıf aralığını 3 alırsak yaklaşık 8 – 9 sınıf elde ederiz, 2 alırsak sınıf sayımız 13-13 arasında olur.

22

Frekans dağılımı Sınıflandırma nasıl yapılır? Sınıflar Çetele Frekans 90-92 /// 3 93-95 ///// 5 96-98 //////// 8 99-101 //////////// 12 102-104 /////////////// 14 105-107 /////////// / 11 108-110 ///////// 9 111-113 //////// 8 114-116 ///// 5 

Çan eğrisine dikkat !!!

Frekans dağılımı 

Başka Bir Örnek

23

24

Hata var mı?

Çan Eğrisine dikkat!!!

25

26

Nisbi frekans= n/N

27

Çan Eğrisine dikkat!!

28

29

30

31

Gövde-yaprak Grafiği 

Veriyi özet halinde sunmanın diğer alternatif yolu ise gövde-yaprak grafikleridir. Bu tür grafikler orta büyüklükte ki veriler için daha uygundur (n = 20 - 50). Gövde-yaprak grafiğinde ilk adım, verileri gövde ve yaprak olarak iki kısma bölmektir (ondalıklı kısım burada ihmal edilebilir). Gövde de eğer sayı iki dijitten oluşuyorsa ilk dijiti, 3 dijitten oluşuyorsa ilk iki dijiti alıp, son rakamları yaprak kısmında gösterilebilir.

Örnek:          

Tablo . Bir nehir suyunda yapılan AKM (mg/L) sonuçları ________________________________________________________________________ 18 20 35 37 38 30 37 38 39 47 49 49 46 46 45 47 42 42 43 49 46 43 49 48 48 43 49 48 48 43 45 49 47 46 45 46 49 51 50 58 55 53 56 56 54 55 50 56 50 52 53 51 52 57 50 55 52 54 53 51 59 52 58 55 60 68 68 69 62 60 62 66 62 61 69 60 65 63 69 68 63 66 66 60 76 70 72 75 80 ________________________________________________________________________ ___

32

Örnek Yaprak (Đkinci dijit)

Gövde (1 inci dijit) 1 2 3 4 5 6 7 8

       

8 0 5 7 1 0 6 0

7 9 0 8 0

8 9 8 8 2

0 6 5 9 5

7 6 3 2

8 5 6 0

9 72239696398835976569 645060231270524319285 26219053983660

Gövde-yaprak grafiğinin en önemli avantajı, betimleyici istatistik değerlerin (medyan, mode gibi) bu grafik üzerinden süratle bulanabilmesidir

Đki Dağılımın Hikayesi Dağılım: 6,6,6 Ortalama: 6 Medyan: 6 Mod: 6

Dağılım: 0,6,12 Ortalama: 6 Medyan: 6 Mod: 6 Std: Sapma: 6

Std. Sapma: 0

Amaç: Görünenin Ötesine Bakabilmek

33

Açıklayıcı Analizler 

Amaç: Verili bir sette olası ilişkileri keşfetmek ya da öngörülen hipotezleri test etmek

Görünen.... Genel

70

60

50

40 Genel 30

20

10

0 10

20

30

40

50

60

70

80

90

100

34

Görünenin Arkası.... 70

60

50

40 Kadınlar Erkekler Genel 30

20

10

0 10

20

30

40

50

60

70

80

90

100

Genel Ortalama: 51, Std. Sapma: 22 Kadınlar Ortalama: 46, Std. Sapma: 23 Erkekler Ortalama: 46, Std. Sapma: 21

35

36