ĐSTATĐSTĐK DERSĐ Doç.Dr. Nuri AZBAR EBĐLTEM Binası 2.kat E-mail:
[email protected] Tel:3880378/138
Kaynak Kitap
BĐYOĐSTATĐSTĐK
Prof.Dr. Kadir Sümbüloğlu Doç.Dr. Vildan Sümbüloğlu Hatiboğlu Yayınları Tel: 0312-2234801
1
Ders değerlendirmesi
Devam zorunlu (%70) Ara sınav+final Kanaat (ödev, devam, derste katılım)
Ders Đçeriği
Tanımlar
Đstatistik tanımı Biyoistatisitik Evren (populasyon veya ana kitle) Örneklem Örnekleme Parametre Veri Karakter Faktör Değişken Veri tipleri (sürekli keiskli, niteliksel)
2
Ders Đçeriği
Frekans dağılımları Tanımlayıcı ölçüler
Merkezi ölçüler (ortalamalar, mod, medyan, çeyreklik ve yüzdelikler) Yaygınlık Ölçüleri (std sapma ve varyans, varyasyon katsayısı) Evren Ortalaması güven sınırları
Đstatistik verilerinin sunum şekilleri
Tablo ve grafik sunumlar
Ders Đçeriği
Olasılık Dağılımları
Önemlilik Testleri (Hipotez testi) Varyans Analizi (ANOVA testi)
Binomiyal dağılım Poisson Dağılımı Normal Dağılım
F-testi ve çoklu karşılaştırmalar
Ki-Kare testi Korelasyon ve Regresyon Analizi
3
Tanımlar
Đstatistik: Herhangi bir konuyu incelemek için gerekli verilerin: toplanması, toplanan verilerin değerlendirilmesi ve değerlendirme sonucunun karara bağlanmasını sağlayan bilim olarak tanımlanabilir.
Problemin Tanımı Populasyon (Ana Kitle) Hipotez
Deney -Gözlem Veri Topla
Veri Girisi
Deneyin Tasarımı
Veri Analizi
Netice
Problem çözüldü
Problem çözülmedi, basa dön
Şekil 1 Đstatiksel değerlendirme süreci
4
Tanımlar
Đstatistik, konu olarak iki ana gruba ayrılır:
Tanımlayıcı Đstatistik: Elde edilen verilerin sınıflandırılması, frekans dağılımlarının yapılması, bu dağılımların ortalamalar, standard sapmalar, çeyrek ve yüzdeler vb ölçülerle tanımlanması ve bulguların tablo ve grafiklerle sunulmasını kapsar Çıkarımsal Đstatistik: Örneklemden elde edilen bulgularla örneklemin çekildiği evren (populasyon ay da ana kitle) hakkında tahminlerde bulunma, karşılaştırmalar yapma ve kararlara varmayı kapsar.
Tanımlar
Biyoistatistik: Đstatistiğin, biyoloji, tıp ve diğer sağlık bilimlerindeki uygulamasıdır Evren (Ana kitle ya da populasyon): belirli bir özelliğe sahip bireylerin tümünün oluşturduğu topluluk olarak tanımlanır. Örneğin, üniversite 1. sınınfta okuyan tüm öğrenciler bir populasyon ya da ana kitledir. Başka bir örnek vermek gerekirse, bir ülkede ki sigara içen tüm erkeklerin ve bayanların sayısı ya da oranı da bir populasyondur. Örneklem: Çekildiği ana kitleyi, evreni ya da populasyonu temsil ettiği düşünülen ve evrenden çekilen küçük bir grubun oluşturduğu topluluktur. Parametre: Evreni tanımlamak için kullanılan ölçülere parametre denir.Örneğin; Evren ortalaması (µ ), evren oranı (P), evren varyansı (ơ2 ) Đstatistik: Örneklemi tanımlamak için kullanılan ölçülerdir. Örneğin, Örnek ortalaması (X), örnek oranı (p), evren varyansı (S2 )
5
Tanımlar: Veri tipleri VERĐ TĐPĐ KANTĐTATĐF
KALĐTATĐF
SIRALI
NOMĐNAL
KESĐKLĐ
SÜREKLĐ
Tanımlar
Veri: Bir olayı aydınlatmak ya da bir gerçeği ortaya çıkarmak için toplanan materyal (ölçüm, bilgi, belge, madde vb) olarak tanımlanabilir.
Veri tipleri: Genel olarak iki grupta toplanabilir; Kantitatif (Niceliksel) ve Kalitatif (Niteliksel) veriler Kantitatif veriler sayısal veriler olup kendi içinde kesikli ve sürekli olarak iki gruba ayrılırlar. Bir hastanın bir yıl içindeki doktor vizite sayısı (0,1,2,...) kesikli bir veridir. Yeni doğan bir bebeğin kilosu ise (2.545 gr, 3.125 gr,....) sürekli bir veri tipidir. Çünkü belli bir aralık içinde sonsuz değer alabilir. Başka örnek vermek gerekirse, herhangi bir üretimin birim maliyeti, yaş ve kilo gibi sayısal değerler niceliksel veri gurubuna girer
6
Tanımlar
Kalitatif veriler ise nitelik içerikli olup cinsiyet, meslek, renk vb.veriler bu grupta incelenebilir. Diğer örnekler; Đyileşti, iyileşmedi, sarı saçlı, erkek-kadın, uygun, uygun deil, hasta, sağlam. Kalitatif veri tipi kendi içinde sayısal (nominal), sıralı (ordinal) iki alt gurupta incelenebilir. i) Sayısal (nominal) veri tipi: Bu tip veriler rast gele kodları temsil eden sayısal verilerdir. Örneğin bir üniversitedeki değişik bölümlerin bilgisayarda farklı kodlarla temsil edilmesi (Đnşaat Müh. Böl.:1 ; Çevre Müh. Böl.: 2; Makine Müh. Böl.: 3 ;......) ii) Sıralı (ordinal ) veri tipi: Önem derecesine göre ya da şiddetine göre sıralamanın yapıldığı veri tipleri bu guruba girer. Örneğin bir yörede meydana gelen depremin şiddetinin 1 ile 10 arasında bir rakamla ya da kasırgaların 1 ile 5 arasında değişen şiddetlere göre sınıflandırılması bu veri tipine girer.
Tanımlar
Faktör: Đstatistiki çalışmanın sonuçları üzerine etki eden etmenlerdir. Örneğin, pH, sıcaklık, basınç, yaş, cinsiyet vb. Değişken: Đstatistiki çalışma için toplanan verilerin değerleridir. Örneğin, kandaki bir biyokimyasal değer, boy uzunluğu, saç rengi, hava sıcaklığı.
7
8
9
10
11
“Đstatistiksel araçlarınız ne kadar güçlü, ne kadar gelişmiş olursa olsun, unutmamanız gereken tek şey var: Bu verileri okuma yazması olmayan demiryolu bekçileri topladı” Sir John Maynard Keynes
12
13
14
Örnekleme Hatası
Bir populasyona ait parametrelerin örnekleme sonucu tahmininden söz edildiğinde, genellikle bu tahminin doğruluğunu test etmek isteriz. Çünkü, örneklemedeki değişkenlikten kaynaklanan nedenlere bağlı olmak üzere bu tahmin genellikle gerçek değerinden belli oranda uzaktadır. Parametre (gerçek değer) ile tahmin (ölçülene değer) arasındaki bu farklılık “örnekleme hatası” olarak bilinir.
Örnekleme Hatası
Yapılan bir ölçüm tekrar tekrar yapıldığında yapılan her ölçümün alacağı değerler, ölçümü yapan kişi tarafından ölçüm şartları ne kadar sabit ya da aynı tutulmaya çalışılsa da farklı olacaktır. Gözlemlenen (ölçülen) değerler ile gerçek değer arasındaki ilişki aşağıdaki gibi verilebilir ;
Xi = µ + ei Xi : gözlemlenen (ölçülen değer) , µ : gerçek değer ; ei : hata payı
15
Örnekleme Hatası
Đstatiksel anlamda hata, yanlış anlamına gelmemektedir. Bu yapılan deneyin ya da ölçümün doğasında olan ve kontrol edilemeyen etkenlerden kaynaklanan bir değişkenlik terimidir. Bu tür varyasyonlar her zaman mevcuttur, önemli olan bunu mümkün olduğu kadar minimumda tutmaktır. Örnekleme hatası temel olarak sistematik hatalar (farklı deney birimlerinin ya da ünitelerinin kullanılmasından kaynaklanan hatalar), ratsgele hatalar (doğal hatalar) ve ölçüm hataları (hassas olmaya ölçüm enstrümanlarının kullanılmasından kaynaklanan hatalar) bileşenlerinden oluşur. Örnekleme sayısının artırılması genellikle bu tür hataların oranını düşürür.
Diğer Hata Tipleri
Örnekleme hatası dışında da bazı hata tipleri vardır, bu tür hatalara “örnekleme dışı hatalar” ya da “taraflı hatalar (bias)” şeklinde tanımlanabilir. Bu tür hatalar örnekleme sayısı ne kadar arttırılırsa arttırılsın olumsuz etkileri giderilemezler. Örneğin, seçimde hangi partinin galip çıkacağının tahmini için örnekleme gurubunun telefon rehberinden yada otomobil sahipleri listesinden bulunduğunu kabul edelim. Bu tür bir liste ekonomik gücü telefon yada otomobil almaya yeterli olmayan düşük gelirli kesimi dikkate almayacaktır. Dolayısıyla değerlendirme de bir taraflılığa neden olacaktır.
16
17
18
19
Frekans Dağılımı (Görülme sıklığı)
Özellikle denek sayısı çok fazla olduğunda verilerin sınıflandırılması ile verile üzerinde yapılacak hesapları kolaylaştırdığı gibi hem de kullanıcı tarafından kolay anlaşılmasını sağlar.
Frekans dağılımı
Sınıflandırma da kullanılan bazı terimler Sınıf sınırı: Her sınıfın bir alt ve bir üst değeri vardır. Bunlara o sınıfın alt ve üst sınırı denir. Örneğin, 10-14 sınıfının alt sınırı 10, üst sınırı 14’tür Sınıfı aralığı: Her sınıfın alt sınırı ile üst sınırı arasındaki aralıktır. Örneğin; 10-14 15-19 20-24 Sınıflamasında aralık 5’tir. Sınıf sayısı ise 3’tür. Sınıf üst ve alt değerleri çakıştırılmamalıdır.
20
Frekans dağılımı
Sınıflandırma Kuralları:
1-Sınıflar birbirine karışmamalıdır 2-Sınıflama bütün değerleri içine almalıdır, hiçbir değer dışarıda kalmamalıdır. 3-Sınıf aralıkları eşit olmalıdır 4-Sınıf sayısı 8-15 arasında olması önerilir
Frekans Dağılımı
Sturgess kuralı Sınıf sayısı: K=1 + 3.3 log N N: Gözlem sayısı
21
Frekans Dağılımı
En büyük değer
Sınıflandırma nasıl yapılır? 75 çocuğun boy uzunlukları ölçülmüş ve aşağıdaki gibi bulunmuş olsun. Bu verileri kullanarak sınıflandırmanın nasıl yapılacağını inceleyelim. 115, 94, 110, 103, 92, 104,106 ……………. 90, 100, 103 114……. En küçük değer
Frekans dağılımı
Sınıflandırma nasıl yapılır?
1.Dağılımdaki en büyük ve en küçük değer bulunur. Örneğimizde en büyük 115 ve en küçük değer 90’dır. 2.En büyük değerden en küçük değer çıkartılarak sınıf aralığı bulunur.
Sınıf aralığı= En büyük değer - En küçük değer
Sınıf aralığı bir kez 8’e ve bir kez 15’e bölünerek sınıf aralığı saptanmaya çalışılır. 25/8= 3.1 ve 25/15= 1.7 17 ile 3.1 arasındaki herhangi bir değer sınıf aralığı olarak seçilebilir. Eğer sınıf aralığını 3 alırsak yaklaşık 8 – 9 sınıf elde ederiz, 2 alırsak sınıf sayımız 13-13 arasında olur.
22
Frekans dağılımı Sınıflandırma nasıl yapılır? Sınıflar Çetele Frekans 90-92 /// 3 93-95 ///// 5 96-98 //////// 8 99-101 //////////// 12 102-104 /////////////// 14 105-107 /////////// / 11 108-110 ///////// 9 111-113 //////// 8 114-116 ///// 5
Çan eğrisine dikkat !!!
Frekans dağılımı
Başka Bir Örnek
23
24
Hata var mı?
Çan Eğrisine dikkat!!!
25
26
Nisbi frekans= n/N
27
Çan Eğrisine dikkat!!
28
29
30
31
Gövde-yaprak Grafiği
Veriyi özet halinde sunmanın diğer alternatif yolu ise gövde-yaprak grafikleridir. Bu tür grafikler orta büyüklükte ki veriler için daha uygundur (n = 20 - 50). Gövde-yaprak grafiğinde ilk adım, verileri gövde ve yaprak olarak iki kısma bölmektir (ondalıklı kısım burada ihmal edilebilir). Gövde de eğer sayı iki dijitten oluşuyorsa ilk dijiti, 3 dijitten oluşuyorsa ilk iki dijiti alıp, son rakamları yaprak kısmında gösterilebilir.
Örnek:
Tablo . Bir nehir suyunda yapılan AKM (mg/L) sonuçları ________________________________________________________________________ 18 20 35 37 38 30 37 38 39 47 49 49 46 46 45 47 42 42 43 49 46 43 49 48 48 43 49 48 48 43 45 49 47 46 45 46 49 51 50 58 55 53 56 56 54 55 50 56 50 52 53 51 52 57 50 55 52 54 53 51 59 52 58 55 60 68 68 69 62 60 62 66 62 61 69 60 65 63 69 68 63 66 66 60 76 70 72 75 80 ________________________________________________________________________ ___
32
Örnek Yaprak (Đkinci dijit)
Gövde (1 inci dijit) 1 2 3 4 5 6 7 8
8 0 5 7 1 0 6 0
7 9 0 8 0
8 9 8 8 2
0 6 5 9 5
7 6 3 2
8 5 6 0
9 72239696398835976569 645060231270524319285 26219053983660
Gövde-yaprak grafiğinin en önemli avantajı, betimleyici istatistik değerlerin (medyan, mode gibi) bu grafik üzerinden süratle bulanabilmesidir
Đki Dağılımın Hikayesi Dağılım: 6,6,6 Ortalama: 6 Medyan: 6 Mod: 6
Dağılım: 0,6,12 Ortalama: 6 Medyan: 6 Mod: 6 Std: Sapma: 6
Std. Sapma: 0
Amaç: Görünenin Ötesine Bakabilmek
33
Açıklayıcı Analizler
Amaç: Verili bir sette olası ilişkileri keşfetmek ya da öngörülen hipotezleri test etmek
Görünen.... Genel
70
60
50
40 Genel 30
20
10
0 10
20
30
40
50
60
70
80
90
100
34
Görünenin Arkası.... 70
60
50
40 Kadınlar Erkekler Genel 30
20
10
0 10
20
30
40
50
60
70
80
90
100
Genel Ortalama: 51, Std. Sapma: 22 Kadınlar Ortalama: 46, Std. Sapma: 23 Erkekler Ortalama: 46, Std. Sapma: 21
35
36