STATISTIKA - skripta
(gradivo sa retikuluma, školske 2015-2016)
IB
01 Osnovni statistički pojmovi Statistika je nauka o prikupljanju, prikazivanju, analizi i interpretaciji podataka. Statistika je opšti intelektualni metod koji se primenjuje kad god postoje podaci sa osobinama variranja i slučajnošću pojavljivanja. U statističkom metodu istraživanja uvek se polazi od jedinice posmatranja, a to je u medicini najčešće pojedinačna osoba (ispitanik, pacijent), ali može biti i drugo npr. laboratorijska životinja, bakterijska kolonija ili bolnica. Jedinica posmatranja može biti i grupa individua, npr. učenici jedne škole. Jedinice posmatranja su nosioci brojnih obeležja (karakteristika, osobina). Obeležje može imati konstantne vrednosti (konstanta) ili promenljive vrednosti (varijabla). Predmet ispitivanja u statistici jesu upravo varijable, odnosno obeležja kojasu podložna varijabilitetu – variranju vrednosti od jedinice do jedinice posmatranja. Konstantne osobine nisu predmet ispitivanja statistike već omogućavaju definisanje osnovnog skupa.
Pitanje: U etiološkoj studiji istraživani su faktori koji doprinose nastanku osteoporoze kod žena. Osim postojanja same bolesti, beleženi su podaci o drugim obeležjima ispitanica koja su od interesa u istraživanju: starost, fizička aktivnost i konzumiranje alkohola. Obeležje “ pol ” , u ovom istraživanju je: 1. Konstanta 2. Varijabla
Obeležje starost, u ovom istraživanju je: 1. Konstanta 2. Varijabla Vaš odgovor : Pol = Konstanta Starost = Varijabla Objašnjenje: Na osnovu postavljenih ciljeva, da se istraživanja sprovede samo sa osobama ženskog pola, eliminisan je varijabilitet obeležja pol. Starost ima promenljive vrednosti od ispitanice do ispitanice Osnovni skup (populacija) je kompletan skup jedinica posmatranja od interesa u istraživanju, npr. svi oboleli od osteoporoze, svi učenici osnovnih škola itd. To je stvaran i konačan skup. Isti naziv se takođe odnosi i na beskonačan skup svih mogućih rezultata posmatranog obeležja, npr. u teorijskom smislu beskonačan broj merenja koncentracije hemoglobina u krvi. Istraživači retko donose zaključke na osnovu ispitivanja kompletnog osnovnog skupa. To se uglavnom čini na osnovu uzorka, koji predstavlja podskup osnovnog skupa biran na određen način. Zaključke, dobijene analizom podataka na osnovu uzorka, istraživač zatim generalizuje na čitav osnovni skup. Da bi takva generalizacija zaključka bila valjana, uzorak mora biti reprezentativan za osnovni skup, odnosno uzorak morabiti sličan osnovnom skupu u odnosu na ispitivano obeležje. Na slici 1 prikazani su odnosi nekih ključnih termina u medicinskoj statistici: osnovnog skupa i uzorka, jedinica opservacije, merenja, varijabli i podataka.
Slika 1. Odnos ključnih elemenata u statistici U istraživanju uvek treba definisati osnovni skup, jer su na osnovu toga određeni (1) kriterijumi za biranje jedinica u uzorak, i (2) na koji osnovni skup se mogu generalizovati zaključci. Na primer, cilj u jednom istraživanju bio je ocena efektivnosti jednog antihipertenziva na definisanom osnovnom skupu hipertoničara starijih od 55 godina. Istraživanje je sprovedeno na uzorku 70 ispitanika, a dobijeni zaključak, da lek ima efektivno antihipertenzivno delovanje, generalizovan je zatim je na čitav osnovni skup hipertoničarastarijih od 55 godina. Pitanje: U istraživanju je cilj bio ispitivanje odnosa konzumiranja alkohola i patoloških promena na jetri. Iz opšte populacije odabran je reprezentativan uzorak od 500 ispitanika koji su praćeni određeni period, posle čega je ispitano postojanje patoloških promena na jetri. Za isti period praćenja dobijeni su podaci o konzumiranju alkohola za svakog ispitanika. Nađena je veća učestalost patoloških promena na jetri kod konzumenata alkohola u odnosu na grupu ispitanika koji nisu konzumirali alkohol (31% prema 5%). Zaključeno je konzumiranje alkohola povećava rizik od pojave patoloških promena jetri.
Osnovni skup (populacija) je kompletan skup jedinica posmatranja od interesa u istraživanju, npr. svi oboleli odosteoporoze, svi učenici osnovnih škola itd. To je stvaran i konačan skup. Isti naziv se takođe odnosi i na beskonačan skup svih mogućih rezultata posmatranog obeležja, npr. u teorijskom smislu beskonačan broj merenja koncentracije hemoglobina u krvi. Istraživači retko donose zaključke na osnovu ispitivanja kompletnog osnovnog skupa. To se uglavnom čini na osnovu uzorka, koji predstavlja podskup osnovnog skupa biran na određen način. Zaključke, dobijene analizom podataka na osnovu uzorka, istraživač zatim generealizuje na čitav osnovni skup. Da bi takva generalizacija zaključka bila valjana, uzorak mora biti reprezentativan za osnovni skup, odnosno uzorak morabiti sličan osnovnom skupu u odnosu na ispitivano obeležje. U istraživanju uvek treba definisati osnovni skup, jer su na osnovu toga određeni (1) kriterijumi za biranje jedinica u uzorak, i (2) na koji osnovni skup se mogu generalizovati zaključci. Na primer, cilj u jednom istraživanju bio je ocena efektivnosti jednog antihipertenziva na definisaom osnovnom skupu hipertoničara starijih od 55 godina. Istraživanje je sprovedeno na uzorku 70 ispitanika, a dobijeni zaključak, da lek ima efektivno antihipertenzivno delovanje, generalizovan je zatim je na čitav osnovni skup hipertoničarastarijih od 55 godina. Pitanje: U istraživanju je cilj bio ispitivanje odnosa konzumiranja alkohola i patoloških promena na jetri. Iz opšte populacije odabran je reprezentativan uzorak od 500 ispitanika koji su praćeni određeni period, posle čega je ispitano postojanje patoloških promena na jetri. Za isti period praćenja dobijeni su podaci o konzumiranju alkohola za svakog ispitanika. Nađena je veća učestalost patoloških promena na jetri kod konzumenata alkohola u odnosu na grupu ispitanika koji nisu konzumirali alkohol (31% prema 5%). Zaključeno je konzumiranje alkohola povećava rizik od pojave patoloških promena jetri
Merenje Statistika je kvantitativna osnova za istraživanja varijabilnih pojava umedicini. Ona to čini kroz prikupljanje, analizu i interpretaciju podataka. U uslovima nesigurnosti, koja postoji zbog varijabiliteta ispitivanih pojava, statistika omogućava da se donese najpouzdaniji zaključak o ispitivanoj pojavi. U prethodnom pitanju, nisu svi ispitanici koji su konzumirali alkohol imali patološke promene na jetri, a bilo je i ispitanika koji nisu bili konzumenti alkohola a ipak su imali takve promene. U navedenom primeru dve pojave (konzumiranje alkohola i patološke promene na jetri) nisu jednoznačno povezane tj. konzumiranje alkohola neće obavezno prouzrokovati patološke promene jetre, kao što ni nekonzumiranje alkohola ne znači potpunu zaštitu od patoloških promenana jetri. Primenom statističkih metoda pokazana je zakonomernost i povezanost dve pojave, odnosno da konzumiranje alkohola pored drugih faktora, koji u ovom istraživanju nisu identifikovani, spada u uzroke pojave patoloških promena najetri. Podaci se u istraživanjima prikupljaju od statističkih jedinica. Nastaju procesom merenja. Merenje je proces pri kojem se brojevi ili drugi simboli dodeljuju onim karakteristikama jedinica opservacije koje su predmet istraživanja, i to na takav način da odnosi između brojeva ili simbola reflektuju odnose između karakteristika različitih jedinica opservacije. Npr., ako izmerene telesne mase dve osobe iznose 60 kg i 72 kg, te dve izmerene veličine reflektuju odnos telesnih masa te dve osobe, od kojih jedna ima telesnu masu za 20% veću od druge. Podaci se mogu generisati u mernom procesu na različite načine:
Direktnim merenjem primenom instrumenta, npr. merenje telesne mase ili koncentracije holesterola uplazmi Opservacijom, npr. zapažanja o patološkim promenama na koži Intervjuom u kojem ispitanik odgovarajući na pitanja ispitivača daje tražene podatke, npr. da li je ispitanik pušač Upitnikom, na kojem ispitanik sam daje odgovore na postavljena pitanja.
Podaci, i varijable, po tipu mogu biti kategorijalni ili numerički: 1. Kategorijalni (kvalitativni) podaci postoje kada se svaka jedinica posmatranja može svrstati u samo jednu od više kategorija varijable. Mogu biti: a) Nominalni podaci – kategorije su označene imenima i nemaju poredak. Primeri su:
Pol (ženski, muški) Krvna grupa (A, B, AB, O) Ishod lečenja (izlečen, neizlečen) Navika pušenja (nepušač, pušač) Lokalizacija patoloških promena na koži (glava, trup, ekstremiteti)
b) Ordinalni podaci – kategorije su uređene ili rangirane na neki način (od manjeg ka većem ili obrnuto). Primeri su:
Zadovoljstvo pacijenata zdravstvenom zaštitom (vrlo nezadovoljan, nezadovoljan, neutralan, zadovoljan, vrlo zadovoljan) Stadijum bolesti (bez bolesti, početni stadijum, uznapredovali stadijum) Navika pušenja (nepušač, umereni pušač, prekomerni pušač) Uhranjenost (pothranjenost, normalna uhranjenost, gojaznost)
Kategorijalni podaci koji imaju samo dve kategorije, jesu binarni odnosno dihotomni. Primeri su pol (ženski, muški) i ishod lečenja (izlečen, neizlečen). 2. Numerički (kvantitativni) podaci –nastaju merenjem na numeričkoj skali ili prebrojavanjem. Mogu biti: a) Diskretni (diskontinuirani, prekidni) numerički podaci – nastaju kada varijabla uzima samo određene celobrojne vrednosti. Primeri su:
Broj dece u porodici Broj porođaja Broj poseta lekaru Broj obolelih
b) Kontinuirani (neprekidni) numerički podaci – nastaju kada varijabla može uzeti bilo koju vrednost iz intervala variranja. Primeri su:
Telesna masa Indeks telesne mase (kg/m ) Telesna visina Starost Telesna temperatura 2
Kod numerički neprekidnih podataka, broj numeričkih mesta zavisi od preciznosti merenja i potreba samog istraživanja. Na primer, ako instrument za merenje telesne mase omogućava dobijanje podataka sa dva decimalna mesta, istraživač ih može zabeležiti u takvom obliku ili zavisno od potreba istraživanja smanjiti broj decimalnih mesta (umesto 67,27kg beležiti 67,3kg). Nekada se, zbog pojednostavljivanja, kvantitativne varijable beleže po tipu kategorijalnih podataka (nominalnih ili ordinalnih). Tada dolazi do gubitka jednog dela informacija. Na primer, podaci o uhranjenosti mogu biti beleženi kao indeks telesne mase (kg/m ), što predstavlja tip kontinuiranih numeričkih podataka. Ti podaci mogu biti beleženi i po tipu kategorijalnih podataka, sa kategorijama pothranjenost, normalna uhranjenost i gojaznost. Tada je došlo do gubitka jednog dela informacija, jer se više ne zna u kojoj meri se jedinice posmatranja unutar kategorija, npr. unutar kategorije pothranjenih, razlikuju prema indeksu telesne mase. 2
Dva su osnovna razloga da se kontinuirane varijable beleže po tipu kategorijalnih podataka: 1. 2.
sa kategorijalnim podacima je lakše opisivanje osnovnog skupa (npr. koliki je procenat gojaznih u populaciji), i donošenje odluka o nekoj intervenciji je olakšano kada su podaci grupisani na neki način, npr. da se gojazni podvrgnu preventivnom delovanju.
Dodatno gradivo Druge definicije statistike Statistika je nauka o donošenju odluka i generisanju znanja i informacija u uslovima nesigurnosti usled varijabilnosti izučavane pojave.
Adekvatnost merenja U svakom merenju postoji izvestan stepen neizvesnosti, koji može biti iskazan kao greška u merenju. Greške u merenju mogu se klasifikovati u dve kategorije: sistematske i slučajne greške. Sistematske greške daju predvidive precenjene ili potcenjene vrednosti (npr. loše kalibrisani instrument koji daje uvek precenjene ili uvek potcenjene). Za razliku od sistematskih grešaka, slučajne greške nisu predvidive, i u datom mernom procesu mogu dati i precenjene i potcenjene vrednosti. Greške u merenju nastaju delovanjem različitih faktora kao što je to loša kalibracija instrumenta, neodgovarajuće vreme odziva instrumenta u odnosu na promene merene varijable, uticaj samog instrumenta namerenu veličinu, delovanje okoline, humani faktori – međuposmatrački i unutarposmatrački varijabilitet (npr. kako lekar ocenjuje depresivnost pacijenta na nekoj skali). Slučajne greške nastaju i usled “ šuma ” - malih i brzih promena u okolini ili u samom instrumentu koje moguuticati na izmerenu vrednost. Identifikacijom i smanjenjem grešaka merenje se može učiniti višeadekvatnim. Adekvatnost merenja podrazumeva koncepte kao što su: 1. 2. 3.
Tačnost – odnosi se nabliskost izmerene vrednosti i tačne/korektne vrednosti (označena kao referentna, kriterijumska, ili vrednost zlatnog standarda) Slaganje – odnosi se na bliskost izmerenih vrednosti različitim metodama, pri čemu se niti jedan odnjih ne može proglasiti zlatnim standardom, pa se i ne može primeniti ocena tačnosti Preciznost – odnosi se nabliskost više ponovljenih merenja iste veličine pod istim uslovima
Monoga merenja u medicini zasnivaju se na primeni “papirnih instrumenata” - upitnika i skala. Izmerena vrednost (skor) dobija se putem odgovaranja na pitanja (stavke, ajteme) na upitniku ili skali. Adekvatnost takvog mernog procesa opisana je konceptima valjanosti tj. validnosti (srodan je konceptu tačnosti) i pouzdanosti tj. relijabilnosti (srodan je konceptu preciznosti).
R, R Commander, EZR R R je programski jezik i okruženje za statističku analizu i prezentaciju podataka. To je programski jezik koji je nastao implementacijom S programskog jezika. R programsko okruženje je najsveobuhvatniji statistički alat, u koji su ugrađene klasične i moderne statističke tehnike. Struktura R-a je modularna, jedan deo statističkih tehnika je ugrađen u osnovu R okruženja, dok se dodatne statističke tehnike dodaju preko paketa, koje rade različiti korisnici za specifične funkcije i oblasti istraživanja. R ima izuzetnu podršku za grafički prikaz rezultata i izradu najraznovrsnijih grafikona, koje je moguće izvesti u više grafičkih formata, kvaliteta dovoljno dobrog za publikovanje. R i dodatni paketi su sofver otvorenog koda i besplatno su dostupni za preuzimanje, instalaciju i korišćenje. Mreža ftp i veb servera sa koje se besplatno mogu preuzeti R i dodatni paketi je CRAN (The Comprehensive R Archive Network) i pristupa joj se preko sledeće adrese: https://cran.r-project.org U osnovnoj verziji R nema grafički korisnički interfejs (GUI), već poseduje interfejs komandne linije koji se prikazuje u konzoli. Postoje dodatni grafički korisnički interfejsi za R: RStudio, R Commander, Deducer.
R Commander
R Commander je grafički korisnički interfejs za R. Instalira se kao dodatni paket nakon instaliranog R programskog okruženja. R Commander koristi niz dodatnih paketa, pored paketa koji su deo standardne distribucije R-a. Jedan od dodatnih paketa R Commandera je EZR paket.
EZR
EZR je statistički softver koji se bazira na R-u i R commander-u i dodaje različite statističke funkcije iz oblasti medicinske statistike. Funkcijama se pristupa kroz grafički interfejs preko menija. EZR je skraćenica od engleskih reči “Easy R“. Zbog sveobuhvatnosti i jednostavnosti korišćenja EZR paket će se koristiti tokom praktične nastave iz Medicinska statistike i informatike.
Startovanje EZR-a EZR se može startovati dvostrukim klikom miša na ikonu ili preko menija: Start→All Programs→EZR→EZR (32bit). Zavisno od verzije operativnog sistema studenti mogu koristiti 32-bitnu ili 64-bitnu verziju EZR-a. Korisnički interfejs EZR-a Nakon startovanja R programskog okruženja otvoriće se dva prozora: R Console i R Commander sa ERZ dodatkom. R Konzola je osnovni prozor R programskog okruženja i omogućava unošenje komandi i uvid u odgovore R-a. R Commander prozor sa EZR dodatkom se razlikuje od originalnog R Commander prozora u strukturi i izgledu trake sa komandama. Pošto se korisnički interfejs razlikuje, u daljem tekstu koristiće se termin EZR, koji podrazumeva R Commander sa EZR dodatkom. Početni prozor EZR-a sastoji se iz linije menija, trake sa alatima i tri prozora: za skripte, za rezultate i za poruke.
.
Linija menija sadrži pune liste komandi koje podržava EZR. Klikom na grupu komandi (npr. File) otvara se padajući meni preko koga se pristupa ostalim komandama iz te grupe.
.
EZR preko R Commandera dodaje svoj grafički interfejs i liste komandi. Originalni meni R Commandera sa listama komandi nalazi se kao poslednja stavka u okviru linije menija pod nazivnom Original menu. Lista dostupnih komandi i redosled za EZR i R Commander se neznatno razlikuju. Najveći deo zadataka u okviru kursa radiće se u okviru EZR-a, a nekoliko analiza će se raditi iz originalnog menija R Commandera.
.
Traka sa alatima prikazuje aktivne podatke i statističke modele. Deo za podatke sadrži i prečice za menjanje, pregledanje ili čuvanje seta aktivnih podataka. R Skripta je niz izvršnih instrukcija. Prozor za skripte prikazuje R komande koje je generisao EZR. U ovom prozoru moguće je menjati ili dodavati svoje komande. Prozor sa rezultatima prikazuje rezultate i primenjene komande:
plavom bojom obojeni su rezultati, crvenom bojom obojene su izvršene komande.
Prozor za poruke prikazuje poruke od strane aplikacije namenjene korisniku. Zavisno od namene, poruke su označene različitim bojama:
crvenom bojom poruke o greškama, zelenom bojom upozorenja, plavom bojom ostale informacije.
Izlazak iz r programskog okruženja Po završetku rada izlazak iz R programskog okruženja podrazumeva zatvaranje EZR prozora i R Konzole. EZR prozor se može zatvoriti klikom na liniji sa komandama: File→Exit→From Commander and R ili klikom na dugme
u gornjem desnom uglu prozora.
Prilikom izlaska iz EZR-a korisniku će se sukcesivno otvoriti četiri prozora sa odgovarajućim pitanjima zavisno od toga koje funkcije je koristio. Prvi prozor traži potvrdu da korisnik želi da izađe iz EZR-a. Kliknuti na dugme OK. Drugi prozor postavlja pitanje da li korisnik želi da sačuva skripte kao posebne datoteke. R Skripta je jednostavna tekstualna datoteka koja sadrži komande koje koristi R. Ako se radi duga analiza koju je potrebno ponoviti R Skripta omogućava da se sačuvaju setovi komandi za kasnije korišćenje. Zavisno od potreba korisnika kliknuti na odgovarajuće dugme. Treći prozor sadrži pitanje da li korisnik želi da sačuva R Markdown datoteke. R Markdown format omogućava lako kreiranje dinamičkih dokumenata, prezentacija i izveštaja iz R programskog okruženja. EZR sadrži R Markdown karticu iza R Script kartice u srednjem prozoru, u okviru koje se može videti i menjati sadržaj izlazne datoteke. Četvrti prozor omogućava korisniku da sačuva izlaznu datoteku sa rezultatima i izvršenim komandama. Ova datoteka sadrži kompletan sadržaj koji se pojavio u prozoru sa rezultatima. .
Prozor R Konzole zatvara se klikom na klikom na dugme
Otvara se dijalog prozor sa pitanjem da li korisnik želi da sačuva sliku radnog prostora, kliknuti na dugme No.
Razvoj i dokumentovanje baze podataka Baza podataka, bez obzira da li je u papirnoj ili elektronskoj formi, konfigurisana je kao matrični zapis, gde se svaki red odnosi na jedinicu opservacije a svaka kolona na varijablu. Na taj način dimenzije takve matrice definisane su brojem jedinica opservacija (a to je najčešće broj ispitanika /pacijenata) što odgovara broju redova u bazi podataka, i brojem karakteristika koje su predmet ispitivanja što odgovara broju kolona. Istraživačka baza podataka praćena je kodeksom (šafranikom) koji sadrži informacije o nazivu i poretku varijabli, opisu varijabli, mernim jedinicama, i skali merenja (nominalni, ordinalni, numerički). Osim toga u kodeks su, za kategorijalne varijable, uključene informacija o broju kategorija i kodovima tih kategorija. Kreiranje baze podataka za analizu obuhvata više koraka. Prvo se kreira nova prazna datoteka, zatim se definišu varijable prema šafraniku i na kraju se u datoteku unesu podaci dobijeni u istraživanju.
.Formiranje baze podataka u tabelarnim kalkulatorima Postoji nekoliko načina da se uz pomoć odgovarajućeg softvera formira baza podataka i učita u R programsko okruženje. Ovde će biti prikazano formiranje baze u tabelarnim kalkulatorima (″spreadsheet″) kao što je MS Office Excel, OpenOffice Calc i LibreOffice Calc. 1. U tabelarnim kalkulatorima nazivi varijabli unose se u prvi red i preporuka je da budu u formi jedne reči. Ukoliko je potrebno da naziv varijable ima više reči nazive varijabli treba pisati ili spojenim rečima (npr. navikapusenja) ili ih razdvajati donjom crtom (npr. navika_pusenja) ili tačkom. U slučaju da se reči ukucaju odvojeno, prilikom učitavanja EZR automatski svaki razmak zamenjuje tačkom (npr. ako u nazivu varijable ukucamo navika pusenja EZR će učitati kao navika.pusenja). .
2. U prvu kolonu unose se oznake identifikacije jedinica posmatranja, što će najčešće biti redni broj u bazi počev od 1. .
3. Numeričke podatke (prekidne i neprekidne) treba unositi kao brojčane vrednosti bez naziva jedinica (npr. podatak o telesnoj masi uneti kao broj bez oznake kg). .
4. Nominalni i ordinalni podaci mogu se uneti kao tekstualni nazivi kategorija ili kao numerički kodovi. Nominalni podaci se unose kao tekstualni nazivi kategorija (npr. za pol: muski, zenski). Ukoliko postoji više od dve kategorije nominalnih podataka preporučuje se dodavanje rednog broja pre naziva kategorije da bi se u rezultatima prikazivali po željenom redosledu (npr. varijabla mesto boravka tokom studiranja: 1.kod_roditelja, 2.privatan_smestaj, 3.studentski_dom). Ordinalni podaci se unose kao numerički kodovi koji odražavaju poredak kategorija. Npr. za podatke o zadovoljstvu zdravstvenom zaštitom (vrlo nezadovoljan, nezadovoljan, neutralan, zadovoljan i vrlo zadovoljan) upotrebiti kodove za taj uređeni niz počev od najmanjeg do najvećeg nivoa što mora biti zabeleženo u šafraniku zbog jednostavnije interpretacije podataka i rezultata statističke analize.
Uređeni niz kategorija
Kod (šifra)
vrlo nezadovoljan
1
nezadovoljan
2
neutralan
3
zadovoljan
4
vrlo zadovoljan
5
.
Nakon formiranja baze i unošenja podataka, datoteku sačuvati na računaru klikom na File→Save As… 5.
MS Office Excel 2007-2016 svoje datoteke čuva sa ekstenzijom .xlsx. MS Office Excel 2003 svoje datoteke čuvaju sa ekstenzijom .xls. Obratiti pažnju na ekstenziju datoteke prilikom učitavanja baze u R programsko okruženje. . Primer formirane baze podataka u MS Office Excel 2007 programu.
NAPOMENA: R programsko okruženje nema podršku za naša slova (č, ć, š, ž, đ) pa ih ne treba koristiti za nazive varijabli i unos podataka. Obratiti pažnju da R pravi razliku između malih i velikih slova, što treba uzeti u obzir prilikom upotrebe naziva datoteka i varijabli u komandama.
Učitavanje baze podataka EZR ima mogućnost učitavanja baza podataka iz više formata, kreiranih u različitim programima. U okviru kursa iz Medicinske statistike i informatike studenti će baze podataka praviti u MS Excel programu. 1. Kliknuti na liniji sa komandama: File→Import data→from Excel data set. Otvoriće se prozor u kome treba ukucati naziv za aktivnu bazu podataka i kliknuti na dugme OK.
Program nudi naziv Dataset, koji se može promeniti. To je privremeni naziv objekta koji formira EZR i na kome se izvršavaju komande. . 2.Locirati na računaru Excel bazu podataka, označiti je i kliknuti na dugme Open. . 3. Ukoliko Excel baza sadrži više listova (Sheet), označiti iz kojeg se preuzima baza (najčešće Sheet1) pa kliknuti na dugmeOK.
. 4. Ako je baza učitana dobiće se poruka (u prozoru za poruke) sa informacijom koliko baza ima redova i kolona.
. 5. EZR može da radi sa jednim aktivnim objektom (učitanom bazom). Ukoliko se učitava druga baza podataka, EZR će pitati da se učita preko prethodne. Preporuka je da se pre rada uvek proveri koja je baza aktivna i vidi struktura baze. To se postiže klikom na dugme View na traci sa alatima, nakon čega će se u novom prozoru otvoriti aktivna baza podataka.
02 Sređivanje podataka Sređivanje podataka obuhvata njihovo grupisanje i tabelarno i grafičko prikazivanje. . Grupisanje je proces razvrstavanja (organizovanja, klasifikovanja) jedinica posmatranja prema vrednostima posmatranih varijabli. • za nominalne i ordinalne podatake grupisanje se obavlja po kategorijama • za numeričke diskontinuirane podatke grupisanje se obavlja po grupama koje odgovaraju diskretnim vrednostima, a ako je raspon veliki onda po klasnim intervalima • za numeričke kontinuirane podatke grupisanje se obavlja po klasnim intervalima . Prebrojavanjem jedinica posmatranja po grupama nastaju apsolutne učestalosti (frekvencije). Deljenjem apsolutnih učestalosti ukupnim brojem jedinica posmatranja nastaju relativne učestalosti (frekvencije), koje mogu biti iskazane u vidu proporcija ili procentualno. Tabelarnim prikazivanjem učestalosti nastaju empirijske raspodele učestalosti (empirijske distribucije frekvencija). . Statističke tabele se koriste se za pregledno prikazivanje grupisanih podataka. Dobijaju su ukrštanjem vertikalnih i horizontalnih linija pri čemu nastaju: • redovi – nizovi horizontalnih površina • kolone – nizovi vertikalnih površina. . Grafičko prikazivanje je metod prikazivanja grupisanih i tabeliranih podataka u vizuelnoj formi. Grafikon samo ilustruje tabelu, a ne zamenjuje je. Grafikoni se mogu uraditi u više programa. U skladu sa materijalima na kursu, prikazaće se neki tipovi grafikona urađeni u MS Word programu i način izrade u EZR-u. R programsko okruženje ima moćne pakete za grafičko prikazivanje podataka (npr. ggplot2, lattice), međutim, rad sa dodatnim paketima prevazilazi obim nastave, pa se zainteresovanim studentima preporučuje da samostalno istražuju grafičke mogućnosti R-a.
Tabelarno i grafičko prikazivanje nominanih podataka Grupisanje kategorijalnih ( nominalnih i ordinalnih) podataka obavlja se prema kategorijama. U tabeli 1 prikazan je primer empirijske raspodele učestalosti nominalnih podataka, u ovom slučaju navike pušenja. U prvoj koloni date su kategorije ispitivane varijable (pušač, nepušač), u drugoj koloni apsolutne učestalosti, a u trećoj koloni relativne učestalostiiskazane u procentima. Na primer, apsolutnoj učestalosti od 23 pušača, odgovara relativna učestalost od (23/50) x 100 = 46%.
Tabela 1. Raspodela ispitanika prema navici pušenja
Ista raspodela učestalosti može se prikazati i grafički kružnim (torta) dijagramom ili stubičastim dijagramom. Na kružnom dijagramu ugao kružnog isečka koji odgovara nekoj kategoriji dobija se množenjem relativne učestalosti (iskazanih kao proporcije) sa 360°. Na primer, apsolutnoj učestalosti od 23 pušača, odgovara ugao kružnog isečka od (23/50)x360°=166° (grafikon 1). Stubičasti dijagram je sastavljen je od razdvojenih vertikalnih pravougaonika (ili horizontalnih), od kojih svaki reprezentuje jednu kategoriju, a čije visine (dužine) odgovaraju učestalostima (grafikon 2).
Grafikon 1. Raspodela ispitanika prema navici pušenja .
Grafikon 2. Raspodela ispitanika prema navici pušenja .
Procedura u EZR-u: U ovoj lekciji, u primerima, biće upotrebljeni podaci iz baze podataka pod nazivom zadovoljstvo zdravstvenom zaštitom.xlsx koja se može preuzeti sa naslovne stranice kursa. Podaci se unose u EZR po proceduri navedenoj u prethodnoj lekciji a koja podrazumeva sledeće korake: 1. Kliknuti na liniji sa komandama: File→Import data→from Excel data set. 2. Locirati na računaru Excel bazu podataka zadovoljstvo zdravstvenom zaštitom.xlsx, označiti je i kliknuti na dugme Open. 3. Pošto Excel baza sadrži više listova (Sheet), označiti Sheet1 iz kojeg se preuzima baza, pa kliknuti na dugme OK. . Za prikaz učestalosti nominalnih podataka varijable pol: 1) Kliknuti na liniji sa komandama: Statistical analysis→Discrete variables→Frequency distributions. 2) U dijalog prozoru označiti varijablu pol. 3) Čekirati polja Show percent (za prikaz procenata) i Show graph (za prikaz dijagrama), a odčekirati polje Show missing data. 4) Kliknuti na dugme OK.
U prozoru za skripte prikazuje se niz komandi koji je izvršen. Posle bilo koje statističke procedure u EZR-u, u prozoru za skripte prikazaće se komande koje koristi primenjena procedura. U okviru tog prozora, komande je moguće menjati, i tako izmenjene startovati ponovo. EZR omogućava da se skripte sačuvaju u spoljašnju datoteku i kasnije ponovo učitaju i koriste. Rad sa skriptama prevazilazi nivo potrebnog znanja za studente i neće biti detaljnije obrađivan.
U prozoru za rezultate prikazuju se rezultati primenjenih statističkih procedura. U našem primeru prikazane su apsolutne i relativne učestalosti varijable pol.
Apsolutne i relativne učestalosti, mogu se prikazati zajedno u vidu sledeće prezentacione tabele: . Tabela 2. Raspodela ispitanika prema polu
. Grafički prikaz varijable pol u vidu stubičastog dijagrama prikazan je u posebnom prozoru. EZR po podrazumevanim podešavanjima učestalosti nominalnih varijabli prikazuje kroz stubičasti dijagram. .
Grafikon 3. Raspodela ispitanika prema polu .
Grafikoni se u EZR-u prikazuju u posebnom prozoru, iz koga se mogu izvesti u neki drugi format ili prekopirati u MS Word program. 1) Grafikone je moguće sačuvati u više formata (PDF, Png, Bmp, TIFF ili Jpeg), što se postiže se preko komandi iz prozora grafikona: File→Save as→Jpeg→100% quality… nakon čega treba ukucati naziv grafikona i odabrati mesto gde se čuva grafikon.
2) Grafikone je moguće i direktno prekopirati u MS Word program, što se postiže preko komandi File→Copy to the clipboard→as a Metafile
U MS Word programu kliknuti desnim tasterom miša na mesto gde se kopira grafikon, pa u padajućem meniju koji se otvorio, kliknuti levim tasterom miša na dugme Paste
.
.
Zadatak 1. Za 20 ispitanika dati su podaci o lokalizaciji infarkta miokarda. Podaci su kodirani na sledeći način:
P – prednji infarkt DZ – donji/zadnji AD – kombinovnianteroseptalni i dijafragmalni
Podaci: DZ, P, DZ, DZ, AD, P, DZ, DZ, P, P, DZ, P, P, DZ, DZ, DZ, P, P, DZ, DZ . Grupisati podatke i prikazati tabelarno i grafički.
Rešenje zadatka 1 Tabela 1. Raspodela ispitanika prema lokalizaciji infarkta miokarda
.
Grafikon 1. Raspodela ispitanika prema lokalizaciji infarkta miokarda (MS Word) .
Grafikon 2. Raspodela ispitanika prema lokalizaciji infarkta miokarda (EZR)
NAPOMENA Obratiti pažnju da prilikom prikazivanja rezultata, tekstualnom ili grafičkom, EZR varijable slaže po abecednom redu. Ukoliko je potreban određeni redosled nominalnih varijabli preporučuje se da se ispred naziva kategorija doda redni broj (npr. 1P, 2DZ, 3AD).
Grupisanje i prikazivanje ordinalnih podataka Empirijska raspodela učestalosti ordinalnih podataka, na primeru zadovoljstva zaposlenih uslovima rada u Domu zdravlja, prikazana je u tabeli 3. Kategorije ispitivane varijable date su odozgo nadole po uređenom redosledu, u ovom slučaju od “nezadovoljan”, preko “neutralan”, do “zadovoljan”.
Tabela 3. Raspodela ispitanika prema zadovoljstvu uslovima rada u Domu zdravlja
Za grafičko prikazivanje empirijskih raspodela učestalosti ordinalnih podataka koriste se, kao i u slučaju nominalnih podataka, kružni ili stubičasti dijagram (grafikoni 4 i 5).
Grafikon 4.Raspodela ispitanika prema zadovoljstvu uslovima rada u Domu zdravlja .
Grafikon 5. Raspodela ispitanika prema zadovoljstvu uslovima rada u Domu zdravlja .
Procedura u EZR-u: Prikaz učestalosti ordinalnih podataka se izvodi na identičan način kao kod nominalnih podataka. Za prikaz učestalosti ordinalnih podataka varijable zadovoljstvo zdravstvenom zaštitom: 1) Kliknuti na liniji sa komandama: Statistical analysis→Discrete variables→Frequency distributions. 2) U dijalog prozoru označiti varijablu zadovoljstvo_zz. 3) Čekirati polja Show percent (za prikaz procenata) i Show graph (za prikaz dijagrama), a odčekirati polje Show missing data. 4) Kliknuti na dugme OK.
.
Apsolutne i relativne učestalosti mogu se prikazati zajedno u vidu sledeće tabele gde se umesto numeričkih kodova unose originalni nazivi kategorija. . Tabela 4. Raspodela ispitanika prema zadovoljstvu zdravstvenom zaštitom
. Grafički prikaz varijable zadovoljstvo_zz u vidu stubičastog dijagrama prikazan je u posebnom prozoru.
Grafikon 6. Raspodela ispitanika prema zadovoljstvu zdravstvenom zaštitom . Zadatak 2: Za 20 ispitanika dati su podaci o navici pušenja. Podaci su ordinalni i kodirani su na sledeći način:
0 – nepušač 1 – umereno pušenje 2 – prekomerno pušenje
Podaci: nepusac, prekomerno pusenje, umereno pusenje, umereno pusenje, prekomerno pusenje, nepusac, nepusac, umereno pusenje, umereno pusenje, prekomerno pusenje, umereno pusenje, nepusac, prekomerno pusenje, umereno pusenje, nepusac, nepusac, umereno pusenje, prekomerno pusenje, umereno pusenje, prekomerno pusenje. Grupisati podatke i prikazati ih tabelarno i grafički.
Rešenje zadatka 2 Tabela 1. Raspodela ispitanika prema navici pušenja
Grafikon 1. Raspodela ispitanika prema navici pušenja (MS Word) .
Grafikon 2. Raspodela ispitanika prema navici pušenja (EZR)
Grupisanje i prikazivanje učestalosti numeričkih podataka Za numeričke diskretne podatke empirijska raspodela učestalosti prikazuje se po grupama koje odgovaraju diskretnim vrednostima. Na primer, empirijska raspodela učestalosti broja respiratornih infekcija u toku jedne godine prikazana je u tabeli 5, a grafički prikazana štapićatim dijagramom (grafikon 7).
Tabela 5. Raspodela ispitanika prema broju respiratornih infekcija
.
Grafikon 7. Raspodela ispitanika prema broju respiratornih infekcija .
Procedura u EZR-u: Za prikaz učestalosti numeričkih diskontinuiranih podataka varijable broj_cigareta: 1) Kliknuti na liniji sa komandama: Statistical analysis→Discrete variables→Frequency distributions. 2) U dijalog prozoru označiti varijablu broj_cigareta. 3) Čekirati polja Show percent (za prikaz procenata) i Show graph (za prikaz stubičastog dijagrama), a odčekirati polje Show missing data. 4) Kliknuti na dugme OK.
. Apsolutne i relativne učestalosti mogu se prikazati zajedno u vidu sledeće tabele. . Tabela 6. Raspodela ispitanika prema broju popušenih cigareta na dan
.
Grafikon 8. Raspodela ispitanika prema broju popušenih cigareta na dan . Zadatak 3: Dat je broj povreda na radu u radnom veku za 20 invalida rada: 2, 0, 5, 4, 4, 3, 1, 1, 3,1, 2, 0, 2, 1, 3, 2, 2, 3, 2, 1. Grupisati podatke i prikazati grafički i tabelarno.
Rešenje zadatka 3 Tabela 1. Raspodela ispitanika prema broju povreda
.
Grafikon 1. Raspodela ispitanika prema broju povreda na radu (EZR)
Grupisanje i prikazivanje numeričkih kontinuiranih podataka Za numeričke kontinuirane podatke empirijska raspodela učestalosti prikazuje se po klasnim intervalima. Na primer, empirijska raspodela učestalosti po klasnim intervalima starosti prikazana je u tabeli 7, a grafički prikazana histogramom i poligonom frekvencija (grafikoni 9 i 10). Tabela 7.Raspodela ispitanika prema starosti
Grafikon 9. Raspodela ispitanika prema starosti
Grafikon 10.Raspodela ispitanika prema starosti .
Granice i širine klasnih intervala određuju se prema određenim pravilima: 1. 2.
3.
4.
5.
6.
Utvrditi minimalnu i maksimalnu vrednost i izračunati opseg (razlika maksimalne i minimalne vrednosti). Doneti odluku o broju i širini klasnih intervala. Preporučen broj grupnih intervala je 6-14. Prikaz raspodele sa manjim brojem klasnih intervala je pregledniji, a sa većim brojem klasnih intervala je informativniji o karakteristikama raspodele. Doneti odluku o širini klasnih intervala. Dobija se tako što se opseg podeli brojem klasnih intervala, a dobijena vrednost popotrebi zaokruži. Na primer, dobijena vrednost od 2.8 može biti zaokružena na širinu 3. Alternativno, istraživač može sam odrediti šitinu intervala zbog bolje preglednosti ili poređenja sa drugim rezultatima. Doneti odluku o donjoj granici prvog klasnog intervala. Ta granica mora biti odabrana tako da prvi klasni interval obuhvati podatak sa minimalnom vrednošću. Preporučljivo je da donja granica bude deljiva širinom klasnih intervala. Donja granica svakog sledećeg klasnog intervala se dobija sabiranjem donje granice prethodnog klasnog intervala i širine klasnog intervala. Poslednji klasni interval mora da obuhvati podatak sa maksimalnom vrednošću. Klasni intervali su najčešće jednake širine, a granice moraju biti tako odabrane da obezbede da svaka jedinica opservacije pripadne samo jednom intervalu.
. Procedura u EZR-u: Za prikaz učestalosti numeričkih kontinuiranih podataka, varijable starost: 1) Kliknuti na liniji sa komandama: Statistical analysis→Discrete variables→Frequency distributions. 2) U dijalog prozoru označiti varijablu starost 3) Čekirati polja Show percent (za prikaz procenata), a odčekirati polje Show missing data. 4) Kliknuti na dugme OK. .
. Apsolutne i relativne učestalosti numeričkih kontinuiranih podataka najčešće se prikazuju po klasnim intervalima. Tabela 8. Raspodela ispitanika prema kategorijama starosti
. Učestalost numeričkih kontinuiranih varijabli grafički se može predstaviti u vidu histograma na sledeći način: 1) Kliknuti na liniji sa komandama: Graphs and tables→Histogram 2) U dijalog prozoru označiti varijablu starost 3) U polje Number of sections (when not grouped) ukucati broj željenih klasnih intervala. Ukoliko se ne ukuca ništa program će sam automatski odrediti broj klasnih intervala. 4) Kliknuti na dugme OK. .
. Grafički prikaz varijable starost u vidu histograma prikazan je u posebnom prozoru. .
Grafikon 11. Raspodela ispitanika prema kategorijama starosti .
Zadatak 4: Dati su podaci o telesnoj visini 17 studenata III godine medicinskog fakulteta: 178, 169, 185, 172, 175, 191, 183, 165, 171, 164, 181, 174, 158, 171, 178, 167 i 159 cm. Grupisati podatke 5 grupnih intervala i prikazati ih grafički i tabelarno.
Rešenje zadatka 4 Tabela 1. Raspodela ispitanika prema kategorijama telesne visine
.
Grafikon 1. Raspodela ispitanika prema kategorijama telesne visine
Kreiranje grafikona u EZR-u EZR automatski izrađuje i grafički prikaz podataka tokom izvršavanja pojedinih analiza. Ukoliko korisnik želi određeni grafikon naknadno, to može postići klikom na liniju menija Graphs and tables nakon čega na padajućem meniju odabere željeni tip grafikona.
.Grafikoni se mogu izraditi i u okviru originalnog menija R Commandera klikom na Original menu→Graphs
.
Npr. nominalni podaci u EZR-u, mogu se grafički prikazati i kao kružni dijagram, što se postiže preko komandi: Graphs and tables→Pie chart(Frequencies)
.
U dijalog prozoru koji se otvorio, označiti varijablu koja se prikazuje u vidu kružnog dijagrama, po želji označiti Draw in colorza prikaz u boji, pa kliknuti na dugme OK.
Grafikon 12. Raspodela ispitanika prema polu . Kružni dijagram varijable pol prikazuje se u posebnom prozoru iz kog ga je moguće sačuvati na računaru ili prekopirati u MS Word program. Na sličan način se mogu izraditi i drugi timopi grafikona.
Kumulativne učestalosti Kumulativne učestalosti (frekvencije) su sukcesivni zbirovi učestalosti pojedinih grupa ili grupnih intervala. Dobijaju se na taj način što se učestalosti sledećih u nizu grupa sukcesivno sabiraju sa prethodnim učestalostima tako da se kumulativna učestalost najviše grupe izjednačuje sa zbirom učestalosti. Kumulativne učestalosti omogućavaju da znamo koliko jedinica posmatranja je jednako ili manje od neke vrednosti (ili jednako ili veće od neke vrednosti ako su kumulativne učestalosti dobijene dodavanjem učestalosti u suprotnom pravcu). Kumulativna učestalost se izračunava za apsolutne i za relativne učestalosti.
Grafički se prikazuju linijskim pravouglim dijagramom gde se na X-osi nanose vrednosti obeležja a na Y-osi kumulativne učestalosti.
Primer: Prikazati kumulativnim dijagramom distribuciju učestalosti broja povreda na radu u radnom veku za 20 invalida rada
Tabela 9.Raspodela ispitanika prema broju povreda na radu i kumulativne učestalosti
Grafikon 13. Kumulativne učestalosti broja povreda na radu
03 Relativni brojevi Relativni brojevi služe za poređenje pojava, istoimenih ili raznoimenih. Relativni broj se dobija kao količnik dva apsolutna broja.
gde je Vr računska vrednost - vrednost koju poredimo sa baznom vrednošću, a Vb bazna vrednost osnova za poređenje.
Da bi se izbegla ili smanjila decimalna mesta, relativni brojevi mogu biti pomnoženi sa 100, kada se dobijaju procenti (%), ili sa 1000, kada se dobijaju promili (‰). Ovako dobijeni broj se može shvatiti kao relativni broj čija je osnova 100 ili 1000 (npr. procenat je relativni broj čija je osnova 100). Kada se publikuju rezultati variajbli koje u logičkom smislu ne trpe podelu, procenti i promili se zaokružuju na ceo broj.
U zavisnosti od cilja poređenja razlikujemo tri vrste relativnih brojeva:
indekse strukture (kvote) indekse dinamike (pokazatelji promena) i koeficijente (poređenje raznoimenih pojava).
INDEKSI STRUKTURE (kvote, relativne frekvencije) Pokazuju odnos dela i celine. Indeks strukture se može prikazati kao proporcija (računska vrednost koja se dobija kao količnik dela i celine i čija se vrednost nalazi uintervalu od 0 do 1) ili kao procenat. Zbir procenata ili indeksa strukture svih delova jedne iste mase mora da bude jednak 100. Mogu se sabirati samo oni procenti koji su izračunati na osnovu iste bazne vrednosti. Primer izračunavanja indeksa strukture dat je u prethodnoj lekciji u tabeli 1 (“Raspodela ispitanika prema navici pušenja”). Radi se o prostoj tabeli, u kojoj raspodela zavisi samo od jedne varijable - “ navike pušenja ” . Osim prostih, tabele mogu biti i kombinovane, u kojima je raspodela formirana na osnovu dve varijable. Tada postoje tri načina za izračnavanje procenata:
Procenti po redovima - bazna vrednost za poređenje je zbirna učestalost odgovorajućeg reda (horizontalna struktura)
Procenti po kolonama - bazna vrednost za poređenje je zbirna učestalost odgovarajuće kolone (vertikalna struktura)
Totalni procenti - bazna vrednost za poređenje je totalna učestalost (totalna struktura)
Primeri Primer 1: Dat je broj postelja po odeljenjima jedne opšte bolnice: Interno –70; Ginekološko – 40; Hirurško – 80; Pedijatrijsko – 50. Odrediti strukturu postelja po odeljenjima. Tabela 1. Broj i struktura postelja po odeljenjima
Izračunavanje: U ovoj prostoj tabeli, osnova za poređenje je zbirna vrednost (240). Na primer, udeo postelja na Internom odeljenju iznosi:
Odnosno 29%. Primer 2: Dat je broj postelja po odeljenjima dve bolnice: Bolnica A: Interno – 70; Ginekološko – 40; Hirurško – 80; Pedijatrijsko – 50. Bolnica B: Interno –80; Ginekološko – 140; Hirurško – 100; Pedijatrijsko – 160. Odrediti:
1. Strukturu bolnica prema broju postelja na odeljenjima 2. Strukturu odeljenja prema broju postelja u bolnicama 3. Strukturu postelja po odeljenjima i bolnicama (totalna struktura). Izračunavanje: U ovoj kombinovanoj tabeli mogu se izračunati procenti po redovima i kolonama, i totalni procenti .
Tabela 2. Izračunavanja procenata kod kombinovanih tabela
1. Procenti po redovima - za baznu vrednost uzima se ukupan broj jedinica po redovima (zbir postelja iste vrste odeljenja obe bolnice). Na primer, udeo postelja na Internom odeljenju bolnice A, u odnosu na ukupan broj internističkih postelja iznosi:
Tabela sa procentima po redovima imaće izgled: Tabela 3. Struktura postelja po odeljenjima i bolnicama
2. Procenti po kolonama - za baznu vrednost uzima se ukupan broj jedinica po kolonama (zbir svih postelja pojedinačne bolnice). Na primer, udeo postelja na Internom odeljenju bolnice A, u odnosu na ukupan broj postelja te bolnice iznosi:
Tabela sa procentima po kolonama imaće sledeći izgled: Tabela 4. Struktura postelja po odeljenjima i bolnicama
3. Totalni procenti - za baznu vrednost uzima se ukupan broj jedinica (zbir svih postelja obe bolnice). Na primer, udeo postelja na Internom odeljenju bolnice A, u odnosu na ukupan broj postelja obe bolnice iznosi:
Tabela sa totalnim procentima imaće sledeći izgled: Tabela 5. Struktura postelja po odeljenjima i bolnicama
INDEKSI DINAMIKE Pokazuju relativnu promenu obeležja u vremenu. Zavisno od toga šta služi kao osnova za poređenje mogu biti:
1. 2.
bazni indeksi dinamike – članovi vremenske serije se porede sa istom osnovom. Ta osnova za poređenje može biti prva, poslednja, najmanja, najveća ili neka druga pogodna vrednost. lančani indeksi dinamike – svaki član vremenske serije se poredi sa prethodnim članom.
Primer 3: Date su prosečne vrednosti hemoglobina u krvi za grupu bolesnika tokom 7 meseci. Odrediti relativne promene hemoglobina u tom vremenskom periodu.
Bazni indeks dinamike se izračunava kada se kao računska vrednost upiše stanje pojave u tekućem periodu (npr. vrednost Hgb u junu mesecu), a kao bazna vrednost stanje pojave u baznom periodu (vrednost Hgb u maju mesecu). Dobijena vrednost se pomnoži sa 100.
Lančani indeks dinamike se izračunava kada se kao računska vrednost upiše stanje pojave u tekućem vremenskom periodu (npr. vrednost Hgb u avgustu mesecu), a kao bazna vrednost stanje pojave u prethodnom vremenskom periodu (vrednost Hgb u julu mesecu). Dobijena vrednost se pomnoži sa 100.
Lančani indeks pokazuje promenu jedne pojave od prethodnog do narednog vremenskog perioda. Ukoliko je lančani indeks veći od 100 znači da je posmatrana pojava u porastu (u odnosu na prethodni vremenski period), a ukoliko je manji od 100 znači da je u opadanju.
STATISTIČKI KOEFICIJENTI To su relativni brojevi kojima poredimo intenzitet dve raznoimene pojave od kojih je bar jedna masovna. U statističke koeficijente spadaju mnogi zdravstveni i demografski pokazatelji. Kao primer date su formule za dva demografska pokazatelja – natalitet i mortalitet, kao i dva zdravstvena pokazatelja koji se odnose na oboljevanje (morbiditet) –incidencija i prevalencija. Natalitet
N – natalitet izražen u promilima tj. broju živorođene dece na 1000 stanovnika, R – broj živorođene dece na određenoj teritoriji za godinu dana, St – broj stanovnika na toj teritoriji sredinom vremenskog intervala.
Moratlitet
M – mortalitet izražen u promilima tj. broju umrlih osoba na 1000 stanovnika, U – broj umrlih osoba na određenoj teritoriji za godinu dana, St – broj stanovnika na toj teritoriji sredinom vremenskog intervala.
Incidencija
I –incidencija izražena u procentimilima tj. broju novih slučajeva od određene bolesti na 100000 stanovnika, ON – broj novih slučajeva od određene bolesti na 100000 stanovnika u određenom periodu, St – broj stanovnika na toj teritoriji sredinom vremenskog intervala.
Prevalencija
P –prevalencija izražena u procentimilima tj. ukupnom broju slučajeva (i novi istari) od određene bolesti na 100000 stanovnika,
OU – ukupan broj slučajeva od određene bolesti na 100000 stanovnika u određenom periodu, St – broj stanovnika na toj teritoriji sredinom vremenskog intervala.
04 Mere centralne tendencije Mere centralne tendencije su statističke mere koje opisuju srednju ili centralnu tačku ili najtipičniju vrednost, oko koje postoji tendencija grupisanja podataka. Mere centralne tendencije su najbolji reprezenti skupa podataka - omogućavaju da se svi podaci predstave jednim brojem.
Osobine srednjih vrednosti:
Ne mogu biti veće od najveće, niti manje od najmanje pojedinačne vrednosti u datom skupu podataka.
Spadaju u apsolutne mere jer se iskazuju u istim mernim jedinicama u kojima su iskazani i podaci za koje se izračunavaju.
Mogu imati vrednost koja uopšte ne postoji u skupu podataka.
Mogu biti iskazane i decimalnim brojem, bez obzira da li su u pitanju numerički kontinuirani ili diskontinuirani podaci.
Prema načinu izračunavanja srednje vrednosti se dele u dve grupe: 1. Matematičke (računske) srednje vrednosti – izračunavaju na osnovu svih vrednosti:
o o o
aritmetička sredina geometrijska sredina harmonijska sredina
2. Pozicione (lokacione) srednje vrednosti – određuju se na osnovu položaja u nizu podataka i raspodeli učestalosti:
o o
medijana mod (modus, tipična vrednost)
ARITMETIČKA SREDINA Aritmetička sredina je količnik zbira svih vrednosti i njihovog ukupnog broja. Poznata je i kao prosečna vrednost, prosek. Obeležava se sa (čita se iks bar). Izračunava se prema formuli:
gde je xi pojedinačan podatak, a n broj podataka.
PRIMER 1. Data je telesna visina 10 osoba (cm): 177, 172, 183, 190, 174, 165, 169, 181, 171, 175. Izračunati aritmetičku sredinu.
Aritmetička sredina iznosi:
Algebarski, zbir odstupanja pojedinačnih vrednosti od njihove aritmetičke sredine jednak je nuli, a zbir kvadrata odstupanja pojedinačnih vrednosti od njihove aritmetičke sredine manji je od zbira kvadrata odstupanja od bilo koje druge vrednosti. Prednost aritmetičke sredine je jednostavno izračunavanje i reflektovanje svih vrednosti u skupu podataka. Nedostaci aritmetičke sredine su (1) da se ne može koristiti sa nominalnim i ordinalnim podacima, i (2) da je pod značajnim uticajem ekstremnih vrednosti - na malom broju podataka samo jedna ekstremna vrednost može učiniti aritmetičku sredinu nereprezentativnom, kao što je to prikazano u primeru 2. . PRIMER 2. Za pet vrednosti amilaze u serumu (U/L): 51, 79, 62, 37 i 42, aritmetička sredina iznosi 54 U/L. Dodavanjem nove vrednosti od 279 U/L, aritmetička sredina postaje 92 U/L. Dodavanje ekstremnog podatka učinilo je da nova aritmetička sredina nije više valjan reprezent skupa podataka, jer je znatno veća od svih prvih pet unetih podataka.
Ponderisana aritmetička sredina izračunava se tako što se svakom podatku daje određeni ponder (tažinski koeficijent). Ponderisana aritmetička sredina najčešće se koristi za (1) izračunavanje aritmetičke sredine grupisanih podataka, i za (2) izračunavanje objedinjene aritmetičke sredine dve ili više grupa. Ponderisana aritmetička sredina izračunava se prema formuli:
U ovoj formuli f predstavlja veličinu grupe, a x aritmetičku sredinu grupe.
PRIMER 3. (izračunavanje objedinjene aritmetičke sredine iz dve ili više grupa). Date su vrednosti aritmetičkih sredina BMI učenika tri škole u jednoj opštini:
Kolika je aritmetičaka sredina BMI učenika u toj opštini?
Rešenje: Objedinjena aritmetička sredina iznosi:
Kada se izračunava objedinjena aritmetička sredina dve ili više grupe jednake veličine, nema potrebe za korišćenjem pondera. Tada se aritmetička sredina izračunava jednostavnim sabiranjem pojedinačnih aritmetičkih sredina podeljeno brojem grupa. Na primer, da su u Primeru 4 sve tri škole imale jednak broj učenika, objedinjena aritmetička sredina dobila bi se prostim sabiranjem aritmetičkih sredina i deljenjem brojem grupa: (22.7+19.4+20.9)/3= 21.3.
MEDIJANA Medijana ili centralna vrednost predstavlja srednju pozicionu vrednost. Deli niz podataka poređanih po veličini na dva jednaka dela. Polovina ukupnog broja podataka je veća (ili jednaka) od vrednosti medijane, a druga polovina manja (ili jednaka). Jednaka je drugom kvartilu, odnosno pedesetom percentilu. Zbir apsolutnih razlika svake pojedinačne vrednosti i medijane predstavlja minimum, odnosno manji je od zbira tih razlika od bilo koje druge vrednosti.
Na skupu sa neparnim brojem podataka medijana je uvek stvarna i postojeća vrednost. Na primer, ako je broj podataka 9, medijana će imati vrednost petog podatka kada su oni poređani po veličini. Na skupu sa parnim brojem podataka vrednost medijane se izračunava tako što se saberu dva centralna podatka, i dobijeni zbir podeli sa dva. Na primer, ako je broj podataka 10, vrednost medijane se dobija tako što se zbir petog i šestog podatka podeli sa dva. Prednost medijane je da je daleko manje pod uticajem ekstremnih vrednosti, nego što je to aritmetička sredina. Nedostaci medijane, u odnosu na aritmetičku sredinu, jesu (1) da je manje pogodna za dalje statističke analize, i (2) da ignoriše relativan uticaj svake pojedinačne vrednosti, uključujući i ekstremne vrednosti, tako da nije pogodna kada istraživač želi da srednja vrednost reflektuje svaku vrednost iz skupa podataka.
Određivanje medijane: 1. Poređati statističke jedinice po veličini obeležja posmatranja. 2. Odrediti mesto (položaj) medijane prema formuli: 3. Pročitati ili izračunati vrednost obeležja koja odogovara mestu medijane.
kod neparnog broja članova statističke serije medijana je vrednost srednjeg tj. centralnog člana;
kod parnog broja članova statističke serije vrednost medijane se izračunava kao aritmetička sredina vrednosti poslednjeg člana prve polovine i prvog člana druge polovine serije.
4. Tumačenje dobijenog rezultata. . PRIMER 4: Date su vrednosti Hgb (g/L) u krvi 5 bolesnika: 142, 131, 152, 137, 148.Odrediti medijanu.
Med=142g/L Medijana vrednosti hemoglobina kod 5 bolesnika je 142g/L.
.
PRIMER 5: Izračunati medijanu telesne visine 10 osoba iz Primera 1 ove lekcije.
Medijana telesne visine 10 osoba iznosi 174.5cm.
MOD Mod (tipična vrednost) je vrednost podatka sa najvećom učestalošću. Određivanje moda može biti olakšano ako su podaci sređeni po rastućem ili opadajućem nizu. Na primer, za sledeće podatke:
vrednost moda iznosi 4 (to je vrednost koja se naučestalije javlja - tri puta). Kod grupisanih podataka približna vrednost moda je vrednost grupe ili sredine grupnog intervala sa najvećom frekvencijom – modalna grupa ili modalni interval. Ako dve grupe ili dva grupna intervala imaju jednake frekvencije onda je modalna grupa ili modalni inteval onaj koji ima veću susednu frekvenciju.
Ako se pojavljuje samo jedna maksimalna frekvencija grupe ili grupnog intervala radi se o unimodalnoj raspodeli, a ako se pojavljuju dve ili više maksimalnih frekvencija grupa ili grupnih intervala radi se o bimodalnoj ili multimodalnoj raspodeli.
Prednosti moda su (1) da nije pod uticajem ekstremnih vrednosti, i (2) da je to jedina mera centralne tendencije koja se može primeniti kod nominalnih podataka. Nedostaci moda su (1) da može postojati više od jednog moda u datom skupu podataka, što otežava interpretaciju, (2) da se ne može odrediti ako ne postoje bar dva podataka sa istim vrednostima, (3) da nije pogodan za dalje statističke analize, i (4) da ignoriše relativan uticaj svake pojedinačne vrednosti.
. PRIMER 6. Dat jebroj povreda na radu u radnom veku za 20 invalida rada: 2, 0, 5, 4, 4, 3, 1, 1,3, 1, 2, 0, 2, 1, 3, 2, 2, 3, 2, 1. Odrediti mod za broj težih povreda u radnom veku 20 invalida rada.
Mod = 2 Vrednost moda broja težih povreda u radnom veku 20 invalida rada iznosi 2.
ODNOS MERA CENTRALNE TENDENCIJE
Uzajamni odnosi srednjih vrednosti najviše zavise od oblika raspodele učestalosti. Kod simetrične raspodele aritmetička sredina, medijana i mod imaju slične vrednosti (slika 3).
Slika 3. Jednakost mera centralne tendencije kod simetrične raspodele
Kod desno (pozitivno) iskošene raspodele, aritmetička sredina je veća od medijane i moda ( > Med > Mo), a kod kod levo (negativno) iskošene raspodele, aritmetička sredina je manja od medijane i moda ( < Med < Mo) (slika 4).
Slika 4. Nejednakost mera centralne tendencije kod asimetričnih raspodela
Izbor srednje vrednosti Izbor srednje vrednosti, kao reprezenta skupa podataka, zavisi od tipa podataka i osobina empirijske raspodele: . 1. Za numeričke podatke sa simetričnom raspodelom i bez ekstremnih vrednosti, upotrebiti aritmetičku sredinu. 2. Za numeričke podatke sa asimetričnom raspodelom, ili kada postoje ekstremne vrednosti, upotrebiti medijanu. 3. Za ordinalne podake upotrebiti medijanu. 4. Za ordinalne podatke sa malim brojem kategorija (na primer samo 2 ili 3 kategorije) upotrebiti mod. 5. Za nominalne podatke upotrebiti mod. . Na primer, za podatke o BMI, ako je raspodela simetrična i bez ekstremnih vrednosti, treba upotrebiti aritmetičku sredinu. Ako je rapodela asimetrična ili ima ekstremnih vrednosti, treba upotrebiti
medijanu. Za istu varijablu, ako je umesto BMI, iskazana ordinalnim podacima sa pet kategorija (1teška pothranjenost, 2-pothranjenost, 3-normalna uhranjenost, 4- gojaznost, 5-preterana gojaznost) može se upotrebiti medijana ili mod. Ali ako je ista varijabla iskazana ordinalnim podacima sa samo tri kategorije (1-pothranjenost, 2-normalna uhranjenost, 3-gojaznost) onda je upotreba moda najadekvatnija srednja vrednost.
05 Mere varijabiliteta Mere varijabiliteta (mere varijacije, mere disperzije, mere raspršenja) opisuju variranje vrednosti skupa podataka, u smislu udaljenosti od srednjih vrednosti i opsega međusobnih razlika. Mere varijabiliteta možemo podeliti na apsolutne mere varijacije koje su iskazane u jedinicima mere obeležja i relativne mere varijacije koje su iskazane neimenovanim brojevima: 1) Apsolutne mere varijacije a) Interval (raspon) varijacije b) Kvantili, percentili, decili, kvartili c) Srednje apsolutno odstupanje d) Varijansa e) Standardna devijacija
2) Relativne mere varijacije a) Koeficijent varijacije b) Standardizovane (normalizovane) vrednosti
INTERVAL VARIJACIJE Interval varijacije je razlika najveće i najmanje vrednosti u skupu podataka.
gde je: xmax – najveća vrednost u skupu podataka, xmin – najmanja vrednost u skupu podataka. Interval varijacije je najjednostavnija i najmanje informativna mera disperzije. Pruža opšte i elementarne informacije koje služe za orjentacionu procenu homogenosti obeležja. Nedostaci intervala varijacije su (1) da zavisi od postojanja ekstremnih vrednosti, (2) da ne daje informaciju o grupisanju unutar intervala, i (3) da njegova vrednost raste sa povećanjem uzorka. PRIMER 1: Odrediti interval varijacije telesne visine 10 osoba (cm): 177, 172, 183, 190, 174, 165, 169, 181, 171 i 175.
Interval varijacije telesne visine 10 osoba je 25 cm.
Kvantili i Kutijasti grafikon (dodatno gradivo) KVANTILI (percentili, decili, kvartili) Kvantili predstavljaju pozicione vrednosti numeričkog obeležja koje niz uređen po veličini dele na k-jednakih delova. Broj kvantila uvek je jednak k-1. Potupak određivanja kvantila analogan je postupku određivanja medijane. Služe za određivanje ili upoznavanje sa raspodelom frekvencija i podataka unutar skupa. Percentili su kvantili koji statistički niz dele na 100 jednakih delova (broj percentila je 99). Decili su kvantili koji statistički niz dele na 10 jednakih delova (broj decilaje 9). Kvartili su kvantili koji statistički niz dele na 4 jednaka dela. Broj kvartila je 3:
Q1 -prvi ili donji kvartil jednak je 25. percentilu
Me -drugi kvartil ili medijana odnosno 50. percentil (5. decil)
Q3 -treći ili gornji kvartil jednak je 75. percentilu.
Interkvartilni opseg (IQ) jednak je razlici 75. i 25. percentila, odnosno jednak je Q31 i u njemu se nalazi 50% observacija. - Q Kvantile, percentile, decile i kvartile određujemo uz pomoć relativnih kumulativnih distribucija frekvencija. Traži se prva u nizu relativna kumulativna distribucija frekvencija koja je veća od dela opservacija za navedeni kvantil, percentil, decil ili kvartil.
KUTIJASTI KRAFIKON (Box-and-Whisker-Plot, Box-plot, B-P)
Kutijastim grafikonom prikazujemo numeričke karakteristike skupa izmerenih vrednosti numeričke varijable. Grafikon kutije dizajnirao je John Tukey.
Grafikon prikazuje minimalnu i maksimalnu vrednost (produžeci), kvartile (dužina kutije) i medijanu (linija koja preseca kutiju). Grafikon se sastoji od kutije (engl. box), čija je stranica dužine interkvartilnog opsega (IQ) i čiji se krajevi prostiru od mesta koje odgovara prvom kvartilu (Q1) do mesta koje odgovara trećem kvartilu (Q3). Unutar kutije je oznaka, obično linija koja preseca kutiju, koja odgovara vrednosti medijane. Kutija predstavlja 50% opserviranih slučajeva. Iz kutije na obe strane izlazi po jedan produžetak, tzv. brk ( engl.whisker, mačji brk) koji se prostire u opsegu najmanje i najveće vrednosti koje nisu neobične ili ekstremne. Za određivanje dužine produžetaka služe nam unutrašnje i spoljašnje granice. Unutrašnje granice su udaljene od krajeva kutije po 1,5 a spoljašnje po 3 interkvartilna opsega. Granice se ne ucrtavaju u grafikon već služe za određivanje dužine produžetaka i identifikaciju neobičnih i ekstremnih vrednosti. Neobične vrednosti (engl. outlier) su sve vrednosti koje su od ivica kutije udaljene više od 1,5 a manje od 3 dužine kutije (interkvartilnog opsega) i na grafikonu se označavaju 0. Ekstremne vrednosti su one koje su od ivice kutije udaljene više od 3 njegove dužine i na grafikonu se obeležavaju sa * ili x. Za unimodalne distribucije frekvencija očekuje se da iza unutrašnjih granica bude manje od 1% podataka, dok je verovatnoća pojavljivanja podataka iza spoljašnjih granica 1 ‰ . Treba proveriti da li je vrednost netipičnihi ekstremnih tačaka zaista tolika ili je u pitanju greška prilikom zapisivanja i/ili unošenja podataka. Proveriti da li je ta vrednost unutar opsega mogućih vrednosti date promenljive.
Shematski prikaz kutijastog grafikona
Primer kutijastog grafikona
VARIJANSA I STANDARDNA DEVIJACIJA Varijansa je srednje kvadratno odstupanje od aritmetičke sredine. Obeležava se sa sd Izračunava se po formuli:
2
2
ilis .
gde je: xi je vrednost pojedinačnog podatka, je aritmetička sredina, a n je broj podataka. Kada je n veće od 30, u imeniocu se može staviti n umesto n-1 jer su tada izračunate vrednosti približno jednake. Standardna devijacija (obeležava se sa sd ili s ) izračunava se kao kvadratni koren iz varijanse, odnosno kao kvadratni koren iz srednjeg kvadratnog odstupanja od aritmetičke sredine:
Standardna devijacija je najvažnija i najčešće primenjivana mera varijacije. Standardna devijacija se može interpretirati kao srednje odstupanje od aritmetičke sredine. Što je standardna devijacija manja, manje je i odstupanje vrednosti podataka oko aritmetičke sredine. Varijansa i standardna devijacija ne mogu bit negativne (zbog kvadriranja odstupanja), i mogu biti jednake nuli samo ako svi podaci imaju jednake vrednosti.
Prednost varijanse i standardne devijacije, kao mere varijabiiteta, je da reflektuju sve vrednosti skupa podataka. Nedostaci varijanse i standardne devijacije su (1)osetljivost na ekstremne vrednosti, (2) da su nepodesne za podatke sa asimetričnom raspodelom, i (3) da se mogu primeniti samo sa numerički kontinuiranim podacima. Nedostatak varjanse, u odnosu na standardnu devijaciju, je taj što je ona iskazana kvadriranim mernim jedinicama (na primer, ako sudati podaci o koncentraciji neke supstance iskazani kao mmol/L, 2 2 varijansa tih podataka biće iskazana kao mmol /L ), pa je samim tim nepodesna za interpretaciju varijabiliteta. Za razliku od varijanse, standardna devijacija je iskazana istim mernim jedinicama kao i sami podaci (u pomenutom primeru standardna devijacija podataka bila bi iskazana kao mmol/L).
KOEFICIJENT VARIJACIJE Koeficijent varijacije (CV) je relativna mera varijacije. Izračunava se kao količnik standardne devijacije i aritmetičke sredine, i obično je iskazan u procentima:
Koeficijent varijacije pokazuje relativan iznos varjacije u odnosu na aritmetičku sredinu. CV je bezdimeziona mera, odnosno iskazuje se brojem bez bilo kakve merne jedinice, za razliku od standardne devijacije koja je apsolutna mera varijabiliteta iskazana istim mernim jedinicama kao i vrednosti podataka. Zbog toga je koeficijent varijacije, kao relativna mera, pogodan za poređenja varijabiliteta različitih skupova podataka, čak i kada su oni mereni potpuno različitim mernim jedinicima. Ako je CV mali, na primer manji od 30%, za skup podataka se može reći da je homogen (manje varijabilan, konzistentan, uniforman). Ako je CV veliki, na primer veći od 30%, za skup podataka se može reći da je heterogen (više varijabilan).
Zed vrednost
Zed vrednost (zed skor, standardizovana vrednost) je odstupanje od aritmetičke sredine iskazano standardnim devijacijama. Izračunava se pomoću formule:
gde je xi aktuelna vrednost za koju se izračunava zed vrednost, asd standardna devijacija.
je aritmetička sredina,
Zed vrednost je pokazatelj relativne pozicije neke vrednosti u skupu podataka. Predznak zed vrednosti pokazuje da li je neka konkretna vrednost manja (negativna zed vrednost) ili veća (pozitivna zed vrednost) od aritmetičke sredine.
EZR - Statističko opisivanje podataka EZR - deskripcija podataka U ovoj lekciji, u primerima, biće iskorišćeni podaci iz baze podataka pod nazivom:zadovoljstvo zdravstvenom zastitom.xlsx. Podaci se učitavaju u EZR po proceduri navedenoj u prethodnim lekcijama. . Primer: Za varijablu starost, iz baze podataka zadovoljstvo zdravstvenom zastitom.xlsx, izračunati mere centralne tendencije i varijabiliteta. .Aritmetička sredina, standardna devijacija, koeficijent varijacije, medijana,minimalna i maksimalna vrednost mogu se dobiti na sledeći način:
1) Kliknuti na liniji sa komandama: Original menu→Statistics→Summaries→Numerical summaries.
2) U dijalog prozoru koji se pojavio:
u okviru kartice Data označiti varijablu starost.
u okviru kartice Statistics čekirati polja za Mean, Standard deviation, Coefficient ofVariation i Quantiles, pa kliknuti na dugme OK.
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
gde je: mean sd cv 0% 50% 100% n
aritmetička sredina (34.7) standardna devijacija (9.9) koeficijent varijacije (0.28) minimalna vrednost (18.0) medijana (33.0) maksimalna vrednost (54.0) broj ispitanika
. Mod, kao treća mera centralne tendencije, može se dobiti primenom komande za ispisivanje učestalosti (table) koja je objašnjena u prethodnoj lekciji: 1) Kliknuti na liniji sa komandama: Statistical analisys→Discrete variables→Frequency distributions. 2) U dijalog prozoru označiti varijablu starost pa kliknuti na dugme OK.
Mod je vrednost sa najvećom učestalošću. . Interval varijacije se dobija kao razlika maksimalne i minimalne vrednosti. U našem primeru: Interval varijacije=54-18=36 godina.
Interval varijacije se može izračunati direktno u R konzoli. R omogućava izračunavanje različitih matematičkih operacija direktno u komandnoj liniji. Procedura je jednostavna, ukucati vrednosti i operatore pa kliknuti na dugme Enter da bi se izračunalo.
. PRIKAZ REZULTATA STATISTIČKE ANALIZE: Deskriptivne vrednosti varijable starost iznose: • aritmetička sredina±standardna devijacija: 37,4±9,9 godina. • medijana (minimalna vrednost-maksimalna vrednost): 33,0 godine (opseg, 18,0-54,0).
.
EZR - deskripcija podataka po grupama U slučaju da se traži deskripcija podataka za dve ili više kategorija grupišuće varijable, npr. deskripcija varijable starost prema polu iz našeg primera, to se može postići na sledeći način: 1) Kliknuti na liniji sa komandama: Original menu→Statistics→Summaries→Numerical summaries 2) U dijalog prozoru koji se pojavio:
u okviru kartice Data označiti varijablu starost, pa liknuti na dugme Summarize by groups…
U dijalog prozoru Groups odabrati varijablu koja definiše grupe pa kliknuti na dugme OK.
u okviru kartice Statistics čekirati polja za Mean, Standard deviation, Coefficient ofVariation i Quantiles, pa kliknuti na dugme OK.
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
06 Verovatnoća i raspodele verovatnoća U prirodi postojedve vrste događaja: sigurni i slučajni. Sigurni (deterministički) događaji su oni u kojima određeni uslovi delovanjem nekog zakona deterministički (jednoznačno) vode u određeni ishod. Na primer, sigurno je da neunošenje vitamina C u ljudski organizam vodi u bolest pod nazivom skorbut. Slučajni (nedeterministički, stohastični) događaji su oni u kojima određeni uslovi zavisno od slučajnosti mogu voditi u različite ishode. Ovi ishodi su međusobno isključivi, odnosno može se ostvariti samo jedan od njih. Skup svih mogućih ishoda, u određenim uslovima, nazivamo skup elementarnih ishoda (skup elementarnih događaja). Primer 1:Posmatra se krvna grupa slučajno odabrane osobe. Mogući ishodi su četiri krvne grupe: O, A, B i AB. Ova četiri ishoda su međusobno isključiva, odnosno jedna osoba može imati samo jednu krvnu grupu. Ove četiri krvne grupe čine skup elementarnih ishoda. Predmet ispitivanja teorije verovatnoće jesu slučajni događaji. Verovatnoća je mera očekivanja nekog slučajnog događaja. Kvantitativno se iskazuje na skali od 0 (nemoguć događaj) do 1 (siguran događaj), ili u procentima od 0% do 100%. Verovatnoća malo verovatnih (retkih) događaja bliska je nuli, dok je verovatnoća visoko verovatnih (čestih) događaja bliska jedinici. Numerička vrednost ocene verovatnoće nekog događaja može biti dobijena različitim metodama: 1. 2.
Objektivna verovatnoća o Teorijska (klasična, matematička, a priori) verovatnoća o Empirijska (statistička, frekvencijska, a posteriori) verovatnoća Subjektivna (personalna) verovatnoća
Teorijska verovatnoća zasniva se na pretpostavci da su svi mogući ishodi jednako verovatni, odnosno kada nisu poznati razlozi zbog kojih bi neki od ishoda bili verovatniji od drugih. Ova verovatnoća naziva se a priori, jer se određuje pre bilo kakvog merenja ili opservacije samih ishoda. Teorijska verovatnoća izračunava se kao količnik broja povoljnih ishoda i broja svih mogućih ishoda. Primer 2: U istraživanju, u kojem je cilj bio ocena efektivnosti tretmana A i B, ispitanici su na slučajan način (primenom tablice slučajnih brojeva), svrstavani u jednu od grupa: A, B ili kontrolnu (placebo). Koja je verovatnoća da neki konkretan ispitanik bude svrstan u kontrolnu grupu? Rešenje: Broj svih ishoda iznosi tri (grupa A, grupa B i kontrolna grupa). Svi ishodi su jednako verovatni, pod uslovom pravilne upotrebe tablice slučajnih brojeva. Broj povoljnih ishoda iznosi jedan (kontrolna grupa).Verovatnoća da neki konkretan ispitanik bude svrstan u kontrolnu grupu iznosi: (broj povoljnih ishoda)/(broja svih mogućih ishoda) = 1/3 = 0.33.
EMPIRIJSKA VEROVATNOĆA Empirijska verovatnoća zasniva se na ponovljenim opservacijama pojave od interesa, a izračunava se kao relativna učestalost broja ostvarenih događaja (D) u odnosu na ukupan broj opservacija:
gde je P(D) relativna učestalost, m broj realizacija događaja, a n broj ponovljenih opservacija. U konceptu empirijske verovatnoće smatra se da posmatrani slučajni događaj ima svojstvo statističke homogenosti. To znači da se relativna učestalost P(D) grupiše oko neke prave verovatnoće tog događaja kada se broj opservacija uvećava. Prema tome, pretpostavljamo da prava verovatnoća nekog slučajnog događaja postoji, da je u opštem slučaju nepoznata i da je njoj sve bliža relativna učestalost P(D) sa povećanjem broja opservacija n, a samim tim i tačnost ovako izračunate verovatnoće.
Primer 3: Ispitivana je učestalost krvnih grupa u određenoj populaciji. Na uzorku od 2700 ispitanika nađene su sledeće relativne učestalosti: Krvna grupa
Relativna učestalost
O
45%
A
39%
B
12%
AB
4%
Ove relativne učestalosti istovremeno su i verovatnoće da slučajno izabrana osoba ima neku konkretnu krvnu grupu. Subjektivna verovatnoća izražava stepen uverenja određene osobe o mogućnosti ostvarenja nekog događaja. Zasniva se na teorijskom znanju u datoj oblasti, i raspoloživim informacijama. Primenjuje se kada nije moguće neku pojavu opservirati više puta, i na taj način odrediti relativne frekvencije, već kod veoma retkih ili događaja koji se do sada nisu desili. Subjektivna verovatnoća se može razlikovati od jedne do druge osobe, zavisno od usvojenog teorijskog modela posmatrane pojave i raspoloživih informacija. Na primer, pojedini naučnici mogu dati svoje lične procene verovatnoće da će u periodu od narednih pet godina doći do mutacije virusa ptičijeg gripa, H5N1, koja će omogućiti njegov interhumani prenos i početak epidemije gripa izazvane upravo tim virusom.
Osobine i pravila verovatnoće Verovatnoća ima sledeće osobine: 1. 2. 3.
Ne može biti negativna i uvek je u intervalu od 0 (nemoguć događaj) do 1 (siguran događaj) Normiranost: zbir verovatnoća svih mogućih međusobno isključivih ishoda iznosi 1 (U primeru 1, postoje četiri moguća ishoda. Svaka krvna grupa ima određenu verovatnoću da baš ona bude nađena kod slučajno odabrane osobe. Zbir verovatnoća sve četiri krvne grupe iznosi 1) Aditivnost: ako su dva događaja međusobno isključivi, verovatnoća da će se ostvariti bilo koji od njih dobija se kao zbir njihovih verovatnoća
Pravila verovatnoće podrazumevaju: 1. 2.
Pravilo komplementiranja: za svaki događaj sa verovatnoćom p postoji komplementaran događaj sa verovatnoćom q tako da je p+q=1 Pravilo adicije: verovatnoća unije događaja – ostvarenje bar jednog od dva ili više mogućih događaja •Za međusobno isključive događaje (ne mogu se ostvariti istovremeno – ostvarenje jednog isključuje ostvarenje drugog, disjunktni događaji): •Za događaje koji nisu međusobno isključivi:
3.
Pravilo multiplikacije: verovatnoća preseka (proizvoda) događaja – složeni događaj – istovremeno ili sukcesivno ostvarivanje dva ili više događaja. •Za nezavisne događaje: •Za zavisne događaje:
.
NAPOMENA: R podržava izračunavanje klasičnih računskih operacija u komandnoj liniji u okviru R Konzole, pa će se taj način izračunavanja i koristiti u primerima na kursu. Moguće je raditi i složenija izračunavanja.Prilikom računanja prioritet ima ono što je u zagradi. Od računskih operacija prvo se množi i deli a zatim sabira i oduzima. Od matematičkih simbola koristiti: + za sabiranje, - za oduzimanje, * za množenje i / za deljenje.
Primer 4 (komplementarni događaji): Verovatnoća da slučajno izabrana osoba ima krvnu grupu B iznosi 0.12. Kolika je verovatnoća komplementarnog događaja, odnosno da osoba nema krvnu grupu B? Rešenje:
,
Primer 5 (adicija međusobno isključivih događaja): Kolika je verovatnoća da slučajno izabrana osoba ima ili krvnu grupu O ili krvnu grupu B? Rešenje: P(O) = 0.45 P(B) = 0.12 Krvne grupe su međusobno isključivi događaji, pa je verovatnoće njihove unije: P(O ili B) = 0.45 + 0.12 = 0.57
. Primer 6 (multiplikacija nezavisnih događaja): Učestalost deformacija skeleta u školskoj populaciji iznosi 5%, a učestalost anemije 3%. Kolika je verovatnoća da će neki učenik imati i deformaciju skeleta i anemiju? Rešenje: P(D) = 0.05 P(A) = 0.03 Pod pretpostavkom da su deformacija skeleta i anemija nezavisni događaji u školskoj populaciji, verovatnoća njihovog preseka iznosiće: P(D i A) = P(D) x P(A) = 0.05 x 0.03 = 0.0015
Primer 7 (adicija događaja koji nisu međusobno isključivi): Kolika je verovatnoća da će neki učenik imati ili deformaciju skeleta ili anemiju?
Rešenje: Događaji nisu međusobno isključivi. Verovatnoća njihovog istovremenog javljanja iznosi 0.0015 pa je verovatnoća njihove unije: P(D ili A) = P(D) + P(A) – P(DA) = 0.05 + 0.03 – 0.0015 = 0.0785
Teorijske raspodele verovatnoća Teorijske raspodele verovatnoća su matematički definisane vrednosti varijabli zajedno sa verovatnoćama njihovog pojavljivanja. U teorijskoj statistici formulisan je veći broj raspodela verovatnoća, od kojih neke imaju široku primenu u medicini, kao što su to binomna i normalna raspodela. Iz nekih teorijskih raspodela mogu se izvesti verovatnoće koje odgovaraju diskretnim vrednostima, kao što je to binomna raspodela, a iz drugih verovatnoće koje odgovaraju opsegu vrednosti, kao što je slučaj sa normalnom raspodelom. Statističke procedure zasnovane su na pretpostavci da empirijske raspodele podataka slede neku od teorijskih raspodela, a zatim se osobine te teorijske raspodele koriste za izračunavanje određenih verovatnoća koje se odnose na empirijske podatke. Raspodele empirijskih podataka nikada nisu identične teorijskim raspodelama, koje su definisane matematički, već manje ili više odstupaju od njih. Da bi osobine neke teorijske raspodele mogle biti iskorišćene za analizu empirijskih podataka, potrebno je da empirijska raspodela bude dovoljno slična teorijskoj raspodeli.
Binomna raspodela Binomna raspodela je diskretna raspodela verovatnoća broja “uspeha” u binomnom eksperimentu. Binomni eksperiment se sastoji od fiksnog broja od n nezavisnih Bernoullijevih ogleda (opservacija), od kojih svaki ima dva ishoda, obično nazvanih “uspehom” i “neuspehom”, i konstantnom verovatnoćom uspeha od ogleda do ogleda. Naziv “nezavisni ogledi” znači da ishod u jednom ogledu ne zavisi od ishoda u drugom ogledu. Naziv “uspeh” u binomnom eksperimentu se tipično koristi da označi pojavu događaja od interesa, kao što je remisija, smrt ili neželjeno dejstvo leka. Primer 8a: Posmatra se koliko osoba, od sedam slučajno odabranih, će imati krvnu grupu A. Potrebno je izračunati verovatnoće da od tih sedam osoba: nijedna nema krvnu grupu (x= 0), da jedna osoba ima krvnu grupu A (x= 1), da dve sobe imaju krvnu grupu A x= 2) itd. U ovom primeru binomni eksperiment sastoji se od sedam Bernoullijevih ogleda. Bernoullijev ogled je u ovom eksperimentu opservacija pojedinačne osobe, sa dihotomnim ishodom: “uspeh” je postojanje krvne grupe A, a “neuspeh” postojanje neke druge krvne grupe. Ogledi su nezavisni, jer krvna grupa neke osobe ne utiče na nalaz krvne grupe bilo koje drugo slučajno odabrane osobe. Binomna raspodela označava se sa B (n,p), gde su n i p parametri binomne raspodele: n je broj Bernoullievih ogleda u binomnom eksperimentu, a p je verovatnoća uspeha u jednom Bernoullijevom ogledu. Prema tome, verovatnoća neuspeha iznosi 1-p. Verovatnoća (takođe nazvana binomna verovatnoća) x uspeha u binomnom eksperimentu dobija se koristeći binomnu formulu:
U ovoj formuli je Izračunavanje faktorijela: 0! = 1 1! = 1
binomni koeficijent, koji daje broj kombinacija sa x uspeha iz n ogleda.
2! = 1 x 2 = 2 3! = 1 x 2 x 3 = 6 itd. Srednja vrednost binomne raspodele iznosi np, a varijansa np(1–p). Primer 8b (nastavak primera): Učestalost krvne grupe A u datoj populaciji iznosi 42% (p=0.42). Kolika je verovatnoća da se u slučajnom uzorku veličine 7 osoba, izabranom iz te iste populacije, nađu dve osobe sa krvnomgrupom A? U našem primeru: x=2, n=7 i p=0.42. Binomna verovatnoća se u EZR izračunava na sledeći način: 1) Kliknuti na liniji sa komandama: Original menu→Distributions→Discrete distributions→Binomial distributions→Binomial probabilities...
2) U dijalog prozoru koji se pojavio:
o o
u polje Binomial trials ukucati vrednost za n u polje Probability of success ukucati p
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure. EZR prikazuje verovatnoće za svaki broj mogućih događaja istovremeno.
Rešenje: P(X = 2) = 0.243 .Primer 9: Kolokvijum iz Medicinske statistike i informatike je u formi test pitanja sa 4 višestruka odgovora, od kojih je samo jedan tačan. Kolokvijum sadrži 20 pitanja a za uspešno polaganje je neophodno 11 tačnih odgovora. Kolika je verovatnoća da nepripremljen student, pogađajući odgovore slučajno, uspešno položi kolokvijum? U našem primeru: x=11, n=20 i p=0,25.
Rešenje: Verovatnoća uspešnog polaganja kolokvijuma iz Medicinske statistike i informatike bez učenja iznosi 0,3%. P(X = 11) = 0.003 NAPOMENA: EZR po podrazumevanim podešavanjima velike i male brojeve obeležava kao tzv. scientific notation. Ovu opciju u R-u je moguće deaktivirati ili ponovo aktivirati preko komandi: options(scipen=999)#deaktiviranje opcije scientific notation options(scipen=0)#aktiviranje opcije scientific notation Potrebno je: (1) ukucati navedene komande u prozoru za skripte, (2) selektovati ih pa (3) kliknuti na dugme Submit
. Nakon izvršavanja komande za deaktiviranje scientific notation, ponoviti proceduru za rešavanje zadatka i u prozoru za rezultate dobiće se iste verovatnoće, sada bez scientific notation.
Aritmetičke sredine i standardne devijacije binomne raspodele Primer 10: U kliničkom ogledu atorvastatina 10 mg tog leka primilo je 863 pacijenata. Njih 19 iz te grupe je dobilo simptome gripa. U populaciji koja nije ni na kakvom tretmanu verovatnoća dobijanja simptoma gripa je 0.019. Pretpostavljajući da ovaj lek nema nikakvog efekta na simptome gripa, nađi aritmetičku sredinu i standardnu devijaciju broja pacijenata u grupama od po 863 za koje se može očekivati da imaju simptome gripa?
U našem primeru: n=863 i p=0.019. .Rešenje: Aritmetička sredina jednaka je: np Standardna devijacija jednaka je: Aritmetička sredina se izračunava pomoću komande: n*p
Standardna devijacija se može dobiti pomoću komande: sqrt(n*p*(1-p)). sqrt(x) je funkcija za izračunavanje kvadratnog korena iz vrednosti x. U našem primeru komanda je: sqrt(863*0.019*(1-0.019))
Aritmetička sredina broja pacijenata iznosi 16 a standardna devijacija 4.
NORMALNA RASPODELA Normalna raspodela Normalna raspodela je najvažnija raspodela u statistici. To je kontinuirana raspodela verovatnoća, matematički opisana formulom:
gde su μ i σ aritmetička sredina i standardna devijacija raspodele x, e je osnova prirodnih logaritama (2.72), a x je vrednost kontinuirane varijable. Karakteriše se zvonastom simetričnom raspodelom oko njene aritmetičke sredine (slika 1). Normalna raspodela je kompletno određena parametrima normalne raspodele: aritmetičkom sredinom i standardnom devijacijom. Njena aritmetička sredina i medijana su jednake, i odgovaraju najvišoj tački na krivi normalne raspodele. Na udaljenosti od jedne standardne devijacije od aritmetičke sredine nalazi se tačka infleksije – mesto gde kriva prelazi iz konkaviteta u konveksitet, i obrnuto. Krajevi (repovi) krive produžavaju se beskonačno na obe strane ali nikada ne dotiču apscisu. .
Slika 1. Kriva normalne raspodele . Za normalnu raspodelu važi da se 68% opservacija nalazi unutar intervala ±1sd oko aritmetičke sredine, 95% opservacija unutar intervala ±2sd, i 99.7% unutar intervala ±3sd (slika 2).
Slika 2. Proporcija opservacija unutar intervala ±1sd, ±2sd i ±3sd normalne raspodele . Mnoge varijable u medicine imaju tendenciju da prate normalnu raspodelu, sa vrednostima grupisanim oko aritmetičke sredine, i sa smanjivanjem njihove učestalosti ka krajevima raspodele. Normalna raspodela je široko korišćena u statistici. Primeri su (a) klasični statistički testovi bazirani na pretpostavci o normalnosti podataka, (b) određivanje nivoa značajnosti u mnogim statističkim testovima i intervalima poverenja, i (c) aproksimacijama drugih raspodela verovatnoća normalnom raspodelom, kao što je to binomna raspodela. Ono što omogućava primenu normalne raspodele u aproksimacijama jeste centralna granična teorema, po kojoj bez obzira na karakteristike raspodele neke populacije, raspodela njenih uzoračkih aritmetičkih sredina teži normalnoj zavelike uzorke. Specijalan tip normalne raspodele je standardna normalna raspodela (zed raspodela) čiji suparametri μ = 0 i σ =1. Bilo koja normalna raspodela može biti konvertovana u standardnu normalnu raspodelu transformacijom: z = (x − μ )/ σ . Ovom formulom, bilo koja vrednost originalne raspodele može biti konvertovana u zed vrednost (zskor, standardan skor). Zed vrednost je pokazatelj relativnog položaja neke vrednosti u raspodeli kojoj pripada. Standardna normalna raspodela se može iskoristiti za određivanje verovatnoća koje se odnose na empirijske podatke, uz pretpostavku da oni slede normalnu raspodelu. Površina između apscise i krive normalne raspodele ekvivalentna je verovatnoći. Totalna površina ispod krive jednaka je jedinici (siguran događaj, mora se ostvariti neka vrednost). Verovatnoća da se vrednost varijable nađe u intervalu između dve granice jednaka je površini između ovih vrednosti. Prvo je potrebno ove granice transformisati u z-vrednosti, a zatim pročitati površine, a samim tim i verovatnoće, iz tabela površina ispod krive standardne normalne raspodele. U tabeli (u prilogu) površine su date počev od aritmetičke sredine (uzeto kao jedna granica) do odgovarajauće zed-vrednosti (druga granica) (videti sliku 3). Ove vrednosti iz tabele daju direktno traženu verovatnoću, ili je potrebno ove vrednosti sabirati ili oduzimati, zavisno od toga da li treba odrediti površine ispod, iznad ili unutar nekih granica.
Površine ispod krive standardizovane normalne raspodele Čitanje površine ispod krive standardizovane normalne raspodele 1. 2. 3. 4. 5.
6. 7. 8.
Sa naslovne stranice kursa presnimiti na disk dokument pod nazivom Tablice.pdf Otvoriti dokument i naći stranicu na kojoj se nalaze Površine ispod krive standardizovane normalne raspodele. U pretkoloni tablice su upisane: celobrojna i vrednost prve decimale zed vrednosti. U zaglavlju tablice su upisane vrednosti druge decimale zed vrednosti. Površina ispod krive standardizovane normalne raspodele se čita tako što se u pretkoloni odredi red gde se nalazi celobrojna i vrednost prve decimale zed vrednosti a u zaglavlju odredi kolona u kojoj se nalazi druga decimala zed vrednosti. Na preseku odgovarajućeg reda i odgovarajuće kolone nalazi se broj koji predstavlja verovatnoću posmatrane tačke (vidi sliku ispod). Ispred brojeva koji se čitaju u poljima tablice se podrazumeva 0 (što u tablici ne piše), jer su to vrednosti parcijalne verovatnoće. Tablica površina vodi računa samo o polovini površine ispod krive i ima maksimalnu verovatnoću 0.5. Kod dvosmernog testiranja pomoću ove tablice, pročitane verovatnoće množe se sa 2 , a zadate verovatnoće dele se sa 2.
Procedura u EZR-u U EZR verovatnoća površine ispod krive normalne raspodele izračunava se na sledeći način: 1) Kliknuti na liniji sa komandama: Original menu→ Distributions→Continuous distributions→Normal distributions→ Normal probabilities...
2) U dijalog prozoru koji se pojavio:
o o o
u polje Variable value(s) ukucati vrednost ispitivane varijable za koju se traži verovatnoća javljanja u populaciji u polje Mean ukucati postojeću aritmetičku sredinu varijable u populaciji u polje Standard deviation ukucati postojeću standardnu devijaciju varijable u populaciji
Zavisno od potrebe:
o
čekirati polje Lower tail za izračunavanje verovatnoće javljanja vrednosti manjih od zadate vrednosti varijable
o
čekirati polje Upper tail za izračunavanje verovatnoće javljanja vrednosti većih od zadate vrednosti varijable
. NAPOMENA: U sledećim primerima, uz rešenja prikazaće se i grafički prikaz površine ispod krive normalne raspodele za zadate vrednosti. Grafički prikaz je pokaznog karaktera za lakše razumevanje i rešavanje primera. Studenti neće obrađivati crtanje grafičkog prikaza u EZR-u. . Primer 11: Telesna masa jedne populacije odraslih osoba je normalno raspoređena sa aritmetičkom sredinom 70 kg i standardnom devijacijom od 10kg. a) Kolika je verovatnoća da će slučajno izabrana osoba iz ove populacije imati telesnu masu veću od 85 kg?
Slika 3. Grafički prikaz površine ispod krive normalne raspodele za vrednosti telesne mase više od 85 kg .
.
P(x>85) =0.07 . b) Kolika je verovatnoća da slučajno izabrana osoba iz ove populacije ima vrednost telesne mase između 67 i 85 kg?
Slika 4. Grafički prikaz površine ispod krive normalne raspodele za vrednosti telesne mase između 67 i 85 kg . Izračunati verovatnoću za vrednost telesne mase manju od 85.
Izračunati verovatnoću za vrednost telesne mase manju od 67.
Oduzeti verovatnoće događaja za vrednosti telesne mase niže od 85 i niže od 67.
P(67 ≤ x ≤ 85) = 0.55 c) Kolika je verovatnoća da će slučajno izabrana osoba iz ove populacije imati telesnu masu manju od 95 kg?
Slika 5. Grafički prikaz površine ispod krive normalne raspodele za vrednosti telesne mase manje od 95kg
P( x ≤ 95) = 0.99
07 Uzorak i uzoračke raspodele Uzorak je podskup populacije (osnovnog skupa) izabran na osnovu nekog kriterijuma. Svrha je da se zaključak o ispitivanoj pojavi, dobijen na osnovu analize uzoračkih podataka, generalizuje na populaciju. Osnovni skup (populacija) je skup svih istovrsnih elemenata (objekata, opservacija, ili jedinica posmatranja) međusobno poredivih po nekoj zajedničkoj karakteristici. Termin populacija može podrazumevati:
1.
skup koji je realan i konačan po veličini, ili
2.
beskonačan skup svih mogućih rezultata statističkih ogleda (identifikovan sa univerzumom, i u celini nedostupan).
U istraživanjima u medicini element populacije je najčešće pacijent, ali može biti i drugo npr.laboratorijska životinja, bakterijska kolonija, škola, školski razred, porodica itd.
Razlozi za sprovođenje istraživanja na uzorku, a ne na populaciji, su višestruki: 1. 2. 3. 4.
Manji troškovi istraživanja Kraće vreme da se istraživanje sprovede, npr. da se brzo oceni efektivnost novog leka Rezultati na osnovu uzorka su često tačniji nego ako bi oni bili dobijeni na osnovu istraživanja populacije, jer na manjem uzorku mogu biti upotrebljeni bolje obučeni kadrovi ili primenjene skuplje procedure sa većom tačnošću Potrebe da statističke jedinice u nekim istraživanjima budu uništene npr. žrtvovanje laboratorijskih životinja zbog histološke analize
Iz upravo navedenih razloga proizilazi da veličinu uzorka treba pažljivo isplanirati, jer veći uzorak ne podrazumeva obavezno i veći kvalitet studije. U istraživanjima uzorak se najčešće ne dobija odabirom od svih statističkih jedinica u populaciji, već iz uzoračke populacije odnosno od onih jedinica koje su dostupne istraživaču. Po zvršenom istraživanju zaključak se generalizuje sa uzorka na populaciju.
Neophodan uslov generalizacije zaključaka sa uzorka na populaciju jeste reprezentativnost uzorka, odnosno njegova sličnost sa populacijom. Osnovni preduslovi reprezentativnosti su: 1. 2.
Način izbora statističkihjedinica u uzorak mora biti nezavisan od vrednosti posmatranog obeležja. Verovatnoća statističkih jedinica da uđu u uzorak mora biti unapred poznata. Ako ovi uslovi nisu ispunjeni nastaje pristrasan uzorak.
Primer 1: Cilj u istraživanju bio je ocena redovnosti uzimanja terapije obolelih od arterijske hipertenzije. Za uzorak su birani pacijenti koji dolaze na kontrolne preglede. U tom istraživanju uzorak je pristrasno biran, jer se osnovano može pretpostaviti da pacijenti koji dolaze na kontrolne preglede redovnije uzimaju terapiju. Zaključak iz takvog israživanja bi mogao da se generalizuje samo na populaciju hipertoničara koji dolaze na kontrolne preglede. Ukoliko bi istraživač želeo da zaključak generalizuje na kompletnu populaciju obolelih od arterijske hipertenzije, morao bi da u istraživanje uključi ne samo pacijenata koji dolaze na kontrolne preglede, već i pacijente koji ne dolaze, i na taj način dobije reprezentativan uzorak za tu populaciju (obolelih od arterijske hipertenzije). Prema načinu biranja statističkih jedinica za uzorak oni mogu slučajni ili neslučajni. Slučajni uzorci su više reprezentativni, dok kod neslučajnih uzoraka uvek postoji izvestan stepen pristrasnosti.
SLUČAJNI UZORCI Kod slučajnih uzoraka svaka statistička jedinica u osnovnom skupu ima poznatu verovatnoću da bude birana za uzorak. Razlozi zbog kojih treba dati prednost slučajnim uzorcima u odnosu na neslučajne su: 1. 2.
Slučajan način biranja jedinica redukuje pristrasnost u procesu biranja statističkih jedinica za uzorak; U inferencijalnim statističkim metodama se pretpostavlja da su uzorci birani na slučajan način.
Slučajan način biranja za uzorak doprinosi većem kvalitetu studije. Tipovi slučajnih uzoraka su prost slučajan uzorak, sistematski uzorak, stratifikovani uzorak i klaster uzorak.
Prost slučajan uzorak U prostom slučajnom uzorku sve statističke jedinice uzoračke populacije imaju jednaku verovatnoću da uđe u uzorak, što se postiže korišćenjem tabela slučajnih brojeva ili, u ovom vremenu češće, kompjuterskih generatora slučajnih brojeva. Prvo se formira “uzorački okvir” tj. numerisani spisak svih dostupnih statističkih jednica uzoračke populacije. Za uzorak se biraju one jedinice iz uzoračkog okvira čiji brojevi su izvučeni od strane generatora slučajnih brojeva. Ako se formira uzorak bez ponavljanja jednom izabrani broj u daljem čitanju se preskače tj. jedna statistička jedinica može ući samo jedanput u uzorak, a ako se formira uzorak sa ponavljanjem jedna statistička jedinica može ući više puta u uzorak. Primer 2: Cilj u istraživanju bio je analiza socijalne podrške nehospitalizovanim osobama obolelim od psihoze. Istraživač raspolaže registrom svih obolelih od psihoze na teritoriji jednog doma zdravlja. Registrovano je 150 takvih pacijenata (uzoračka populacija). Odlučeno je da veličina uzorka bude 30. Istraživač je odlučio da upotrebom generatora slučajnih brojeva na Internet adresi www.random.org odabira pacijente za prost slučajan uzorak. Za minimalnu vrednost u generatoru uneo je broj jedan, a za maksimalnu 150. Postupak je ponovio do potrebne veličine uzorka. Pacijente sa izvučenim brojevima uključio je u istraživanje. Drugi generatori slučajnih brojevana Internetu http://www.randomizer.org/form.htm http://www.mathgoodies.com/calculators/random_no_custom.html
Sistematski uzorak Prvo se formira uzorački okvir tj. numerisani spisak svih dostupnih statističkih jednica osnovnog skupa. Zatim se izračunava korak K=N/n (odnos broja dostupnih statističkih jednica osnovnog skupa i planirane veličine uzorka). Prva statistička jedinica odabira se pomoću generatora slučajnih brojeva. Dalje se izvlači svaka K-ta jedinica. Primer 3: Za istraživanje iz primera 2, istraživač je odlučio da umesto prostog slučajnog, formira sistematski uzorak veličine 30 ispitanika. Izračunao je korak: 150/30=5. Uz pomoć generatora slučajnih brojeva odabrao je
prvog pacijenta sa brojem 132 u registru. Dalje je iz registra birao svakog petog pacijenta: 137, 142, 147, 2, 7, 12, 17, 22 itd.
Stratifikovani uzorak Posmatrano obeležje može imati veliki varijabilitet u osnovnom skupu. Takav heterogeni skup se može podeliti na stratume unutar kojih se postiže homogenost posmatranog obeležja. Prilikom formiranja uzorka u tom slučaju pazi se na pravilnu zatupljenost stratuma, a statističke jedinice se biraju kao prost slučajan uzorak ili kao sistematski uzorak. Primer 4: U istraživanju u kojem je cilj bio ispitivanje navika u ishrani, na osnovu prethodnih istraživanja znalo se da određene razlike postoje između urbanih i ruralnih područja. Zbog toga je populacija podeljena na ova dva stratuma koja su adekvatno bila zastupljena u konačnom uzorku.
Klaster uzorak Prvo se osnovni skup podeli na klastere, a zatim se na slučajan način biraju klasteri koji ulaze u uzorak. Često se primenjuje u istraživanjima gde se osnovni skup može podeliti prema teritorijalnom principu. Npr., klasteri mogu biti delovi grada, gde se prvo naslučajan način biraju klasteri za uzorak, a zatim se ili sve statističke jedinice ili njihov slučajan uzorak iz svakog od izabranih klastera biraju zauzorak.
NESLUČAJNI UZORCI U većini slučajeva istraživač nije u mogućnosti da bira slučajan uzorak zbog nedostatka evidencije ili nedostupnosti svim ispitanicima iz ispitivane populacije. Zbog toga istraživači češće biraju neslučajne uzorke iako su oni manje valjani od slučajnih uzoraka u smislu generalizacije zaključaka sa uzorka na populaciju. Kod neslučajnih uzoraka verovatnoća biranja statističkih jedinica za uzorak nije poznata. Kod ovih uzoraka može postojati selekciona pristrasnost prilikom izbora statističkih jedinica za uzorak, npr. samo pacijenti bez ozbiljnih komplikacija bolesti. U cilju smanjenja pristranosti istraživač bi trebalo: 1. 2. 3.
da jasno definiše kriterijume za uključenje/isključenje jedinica iz uzorka; da uzorak učini raznovrsnijim, npr. organizovanjem multicentrične studije; da upotrebi statističke tehnike za otkrivanje pristranosti, a u slučaju kada jeona i otkrivena da upotrebi statističke tehnike za smanjenje njenog delovanja, npr. analizu kovarijanse.
Tipovi neslučajnih uzoraka su prigodni uzorak, kvota uzorak, namerni uzorak.
Prigodni uzorak Za prigodan uzorak istraživač uključuje lako dostupne jedinice posmatranja, npr. pacijente koji su lečeni na odeljenju. U ovom tipu uzorka može postojati pristrasnost u smislu da se lako dostupne jedinice na neki način razlikuju odostalih jednica npr. pacijenti lečeni u bolnici imaju teže oblike bolesti odonih koji se leče van bolnice. Varijanta ovog uzorka je uzorak po tipu “grudve snega” u kojem inicijalno odabrane statističke jedinice angažuju druge jedinice npr. inicijalno anketirani angažuju za anketu druge pogodne osobe.
Kvota uzorak Istraživač populaciju deli na kategorije, slično stratifikovanom uzorku, a zatim na neslučajan način bira jedinice iz tih kategorija prema unapred utvrđenom broju (kvota), i na taj način kontroliše broj jedinica iz specifične kategorije u konačnom uzorku.
Namerni uzorak Istraživač bira one statističke jedinice koje poseduju određene karakteristike za koje smatra da zadovoljavaju specifične zahteve uistraživanju. U ovom tipu uzorka može postojati značajna pristrasnost u postupku biranja statističkih jedinica koja može obezvrediti rezultate istraživanja.
Populacioni parametri i uzoračke statistike Parametri su numeričke karakteristike ili deskriptivne mere populacije, kao što su to mere centralne tendencije i mere varijabiliteta. Parametri su nepromenljive vrednosti u populaciji. Odgovarajuće numeričke karakteristike ili deskriptivne mere uzoraka nazivaju se (uzoračkim) statistikama. Uobičajeno se populacioni parametri označavaju grčkim slovima, a uzoračke statistike latiničnim slovima:
Uzoračke raspodele Uzoračke raspodele Raspodela uzoračkih statistika naziva se uzoračkom raspodelom. Dve vrlo važne uzoračke raspodele jesu uzoračka raspodela aritmetičkih sredina i uzoračka raspodela proporcija. Poznavanje ovih raspodela je potrebno zbog ocene aritmetičke sredine ili proporcije u populaciji (ocena parametra). U praksi bi bilo teško formirati mnogo uzoraka da bi se dobila empirijska raspodela aritmetičkih sredina ili proporcije, ali to i nije neophodno, jer se na osnovu aritmetičke sredine ili proporcije jednog uzorka i poznavanja statističkih osobina uzoračkih raspodela može dati ocena nepoznatog parametra u populaciji. Statističke osobine uzoračkih raspodela sadržane su u jednoj od najvažnijih teorema u statistici – u centralnoj graničnoj teoremi. Osobine centralne granične teoreme, na primeru uzoračke raspodele aritmečke sredine, su sledeće: 1. Aritmetička sredina uzoračke raspodele jednaka je aritmetičkoj sredini u populaciji μ 2. Standardna devijacija uzoračke raspodele aritmetičkih sredina naziva se standardnom greškom aritmetičke sredine i jednaka je
. Označava se takođe sa
3. Ako je raspodela upopulaciji normalna, uzoračka raspodela aritmetičkih sredina takođe teži ka normalnoj raspodeli. Za dovoljno velike uzorke uzoračka raspodela aritmetičkih sredina teži ka normalnoj raspodeli bez obzira na oblik raspodele u populaciji U formuli za standardnu grešku potrebno je poznavati standardnu devijaciju populacije. Kako je ona retko poznata umesto nje koristimo standardnu devijaciju uzorka sd:
Procedura u EZR-u Primer 1: Kod 99 bolesnika sa akutnim koronarnim sindromom smeštenih na odeljenju za kardiovaskularne bolesti analiziran je sistolni arterijski pritisak. Izmerene vrednosti sistolnog arterijskog pritiska (mmHg) su sledeće: 150
140
120
150
130
150
140
125
160
135
140
125
135
140
130
150
130
125
130
145
120
140
150
140
135
140
115
145
130
135
120
150
150
130
140
150
130
125
135
135
150
170
120
170
145
160
150
115
140
130
180
115
125
140
150
140
160
130
150
110
160
125
130
130
120
120
125
140
150
110
120
145
135
130
120
125
130
180
160
145
170
140
150
175
125
110
120
140
165
160
110
135
140
125
145
140
140
155
135
Radi lakšeg snalaženja, vrednosti sistolnog arterijskog pritiska su prikazane u 10 redova sa po 10 bolesnika. U prvom redu su vrednosti sistolnog arterijskog pritiska za bolesnike 1-10, u drugom od 11-20, u trećem od 21-30 itd. . a) Iz osnovnog skupa od 99 bolesnika sa akutnim koronarnim sindromom smeštenih na odeljenju za kardiovaskularne bolesti izabrati prost slučajan uzorak od 10 bolesnika koristeći generator pseudo slučajnih brojeva u R konzoli. Odrediti uzorački okvir: 1-99. Generisati 10 jedinstvenih brojeva bez ponavljanja za formiranje uzorka koristeći sledeću komandu: sample(1:99,10,replace=F) U navedenoj komandi 1:99 je uzorački okvir, odnosno, opseg dostupnih statističkih jedinica uzoračke populacije, a sledeći broj 10 je broj traženih slučajnih brojeva. Sa svakom ponovljenom primenom ove komande mala je verovatnoća da će biti dobijena ista kombinacija brojeva, a konkretan primer generisanih brojeva izgledao bi:
Jedinice posmatranja sa tim rednim brojevima u uzoračkom okviru biće izabrane za uzorak. Redni broj iz uzoračkog okvira: 95
62
79
19
58
25
76
32
11
23
125
160
130
130
135
125
150
140
150
Sistolna TA: 145 . b) Iz osnovnog skupa od 99 bolesnika sa akutnim koronarnim sindromom smeštenih na odeljenju za kardiovaskularne bolesti izabrati sistematski uzorak od 10 bolesnika: Odrediti uzorački okvir: 1-99. Izračunati korak K=N/n=99/10=9,9≈10.
Prvu statističku jedinicu odabrati pomoću generatora pseudo slučajnih brojeva u R programu: sample(1:99,1,replace=F) .
U konkretnoj primeni ove komande generisan je slučajan broj 2. a dalje se izvlači svaka K-ta jedinica tj. svaka 10ta jedinica: 2, 12, 22, itd. Redni broj iz uzoračkog okvira: 2
12
22
32
42
52
62
72
82
92
125
140
150
170
115
125
145
140
135
Sistolna TA: 140 . c) Na osnovu izabranih uzoraka napraviti bazu podataka i uneti vrednosti oba uzorka.
.
d) Izračunati i uporediti deskritivne statističke mere za osnovni skup i oba uzorka. Deskritivne statističke mere slučajnog uzorka u našem primeru iznose:
. Deskritivne statističke mere sistematskog uzorka u našem primeru iznose:
. Deskritivne statističke mere osnovnog skupa u našem primeru iznose:
. Može se zapaziti da mere centralne tendencije (aritmetička sredina i medijana) imaju slične vrednosti u sva tri slučaja. Standardna devijacija dobijena iz prostog slučajnog uzorka je manja od one u osnovnom skupu. Interval varijacije dobijen na osnovu prostog slučajnog uzorka i sistematskog slučajnog uzorka je manji nego u osnovnom skupu.
08 Statističko zaključivanje – ocenjivanje populacionih parametara na osnovu uzorka OCENA PARAMETARA POPULACIJE
Postoje dva pristupa statističkom zaključivanju:
ocena parametara populacije i
testiranje hipoteza.
Jedan od najvažnijih istraživačkih zadataka jeste ocena vrednosti parametara u populaciji, npr. aritmetičke sredine ili proporcije. Parametre ne možemo izračunavati direktno, ali možemo dati njihovu ocenu korišćenjem uzoračkih statistika. Uzoračke vrednosti, npr. aktuelna aritmetička sredina ili proporcija nekog uzorka, su istovrmeno i tačkaste ocene tih vrednosti u populaciji. Ocena može biti data i u vidu intervala, unutar čijih granica se sa određenom verovatnoćom nalazi parametar populacije. Ovakav tip ocene parametara naziva se intervalom poverenja. Krajnje tačke intervala poverenja nazivaju se granicama poverenja, a verovatnoća sa kojom se parametar nalazi unutar intervala poverenja nivoom poverenja ili koeficijentom poverenja. I ntervali poverenja se najčešće izračunavaju za nivo poverenja od 0.95 i 0.99 (95% i 99%). Očekuje se da će 95% interval poverenja u 95% ponovljenih uzorkovanja sadržati nepoznati parametar populacije. Verovatnoća rizika da dobijena intervalna ocena nije dobra, odnosno da se ispitivani parametar nalazi izvan intervala, iznosi 5% za 95% interval poverenja, i 1% za 99% interval poverenja. Prema tome, 99% interval poverenja je sigurniji, ima manji rizik greške u odnosu na 95% interval poverenja. Istraživači ipak češće koriste 95% interval poverenja jer su oni precizniji (uži interval) u odnosu na 99% interval poverenja. Osim toga, na širinu intervala poverenja utiču veličina uzorka i varijabilitet. Širina intervala poverenja opada sa povećanjem veličine uzorka i sa smanjenjem varijabiliteta.
Ocena aritmetičke sredine u populaciji Donja i gornja granica intervala poverenja aritmetičke sredine populacije izračunavaju se pomoću formule:
, ili, drugačije napisano:
, gde je:
- aritmetička sredina uzorka, sd - standardna devijacija aritmetičke sredine, t - koeficijent čija se vrednost čita iz tablica t raspodele u koloni za dvosmerno testiranje za verovatnoće rizika 0.05 i 0.01 i u redu za broj stepeni slobode SS=n-1. Za uzorke veće od 100 jedinica njegove vrednosti su 1.96 za nivo sigurnosti 0.95 i 2.58 za nivo sigurnosti 0.99.
μ predstavlja nepoznatu aritmetičku sredinu populacije.
Utoj formuli
predstavlja standardnu grešku aritmetičke sredine.
Proizvod
predstavlja preciznost ocene, što je istovremeno i polovina širine intervala poverenja.
.
Procedura u EZR-u Primer 1: Preuzeti bazu podataka Sistolna TA.xlsx koja sadrži podatke o sistolnom arterijskom pritisku za 10 ispitanika sa akutnim koronarnim sindromom smeštenih na odeljenju za kardiovaskularne bolesti. Baza podataka se može preuzeti sa sajta kursa. Odrediti 95% i 99% intervale poverenja aritmetičke sredine sistolnog arterijskog pritiska za tu populaciju bolesnika.
Interval poverenja aritmetičke sredine sistolne arterijske tenzije može se dobiti na sledeći način: 1) Kliknuti na komande: Statistical analysis→Continuous variables→Single-sample t-test
2) U dijalog prozoru koji se pojavio:
o o
u okviru polja Variable (pick one) odabrati varijablu za koju se određuje interval poverenja u polju Confidence Level: ukucati traženi nivo poverenja
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
95% interval poverenja aritmetičke sredine sistolne arterijske tenzije u populaciji ispitanika sa akutnim koronarnim sindromom smeštenih na odeljenju za kardiovaskularne bolesti iznosi: 130,4-147,6 mmHg. Unutar ovih granica sa 95% verovatnoće nalazi se nepoznata aritmetička sredina sistolnog arterijskog pritiska u populaciji ispitanika sa akutnim koronarnim sindromom smeštenih na odeljenju za kardiovaskularne bolesti. U pisanim izveštajima vrednosti aritmetičke sredine i granica intervala poverenja navode se u sledećem obliku: 139 mmHg (95% CI 130,4-147,6)
Ocena proporcije u populaciji Donja i gornja granica intervala poverenja proporcije populacije izračunavaju se pomoću formule:
, ili, drugačije napisano:
, gde je:
p – proporcija posmatranog događaja u uzorku, n – veličina uzorka, a
t - vrednost se čita iz tablice na isti način kao i kada se izračunava interval poverenja aritmetičke sredine.
U toj formuli
predstavlja standardnu grešku proporcije.
Proizvod
predstavlja preciznost ocene, što je istovremeno i polovina širine intervala poverenja.
. Procedura u EZR-u
Primer 2: U jednoj opštini ispitivana je učestalost deformiteta skeleta kod učenika osnovnih škola. Na uzorku od 155 učenika deformiteti su nađeni kod 19 učenika. Dati intervalnu ocenu proporcije učenika sa deformitetima skeleta u toj opštini.
Interval poverenja proporcije deformiteta skeleta kod učenika osnovnih škola može se dobiti na sledeći način: 1) Kliknuti na: Statistical analysis→Discrete variables→Confidence interval for a proportion
2) U dijalog prozoru koji se pojavio:
o o o
u polju Total number of samples ukucati veličinu uzorka u polju Number of events ukucati broj događaja od interesa u polju Confidence interval ukucati traženi nivo poverenja
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
95% interval poverenja proporcije deformiteta skeleta kod učenika osnovnih škola iznosi: 0,07-0,19. Unutar ovih granica sa 95% verovatnoće nalazi se nepoznata proporcija deformiteta skeleta kod učenika osnovnih škola. U pisanim izveštajima vrednosti proporcije i granica intervala poverenja navode se u sledećem obliku: 0,12 (95% CI 0,07-0,19), ili u procentima 12% (95% CI 7%-19%).
Veličina uzorka Veličina uzorka je broj statističkih jedinica koje su uključene u istraživanje. Obično se bira tako da u studiji budu dobijeni intervali poverenja određene preciznosti ili da se ostvari takva statistička snaga u studiji da se može otkriti određena veličina efekta. U istraživanju uvek treba težiti većem uzroku jer se time postiže veća snaga statističkih testova. Osim toga, prema zakonu velikih brojeva, reprezentativnost uzorka raste sa veličinom uzorka. Kao što je već navedeno u ovoj lekciji, veći uzorak ne podrazumeva obaveznoi veći kvalitet studije.
09 Testiranje hipoteza Hipoteza je pretpostavka koja zahteva aktuelno dokazivanje tj. donošenje zaključka kojim se hipoteza prihvata ili odbacuje. Hipoteza koju postavlja istraživač je predikcija izvedena iz teorije koja se testira. U medicini istraživačke hipoteze se najčešće proveravaju na osnovu podataka iz uzorka, a zaključci se generalizuju na osnovni skup iz koga je uzorak dobijen. Primeri istraživačkih hipoteza u medicini mogu se odnositi na različito postavljene ciljeve i postavljena istraživačka pitanja: 1. U etiološkim studijama je cilj pokazati povezanost izloženosti nekom faktoru rizika i određenog ishoda: a. Na primer, može biti postavljena istraživačka hipoteza da se pušači i nepušači razlikuju prema učestalosti hroničnog bronhitisa. U ovom primeru, faktor rizika je navika pušenja, a ishod je pojava bolesti – hroničnog bronhitisa. b. U drugom primeru, može biti postavljena istraživačka hipoteza da se pušači i nepušači razlikuju prema nivou karboksihemoglobina u krvi. Kao i u prethodnom, i u ovom primeru faktor rizika je navika pušenja, a ishod je nivo karboksihemoglobina. 2. U prognostičkim studijama cilj je, za tačno definisanu populaciju ispitanika, analizirati učestalost događaja i vreme do njihovog nastupanja. Događaj može biti preživljavanje ili smrtni ishod, nastupanje remisije, ozdravljenje, nastupanje recidiva, pojava komplikacija itd. Na primer, može biti postavljena istraživačka hipoteza da je trajanje remisija u depresivnom poremećaju kraće kod pacijenata sa slabijim socijalnim funkcionisanjem. 3. U studijama intervencije cilj je oceniti efektivnost nekog tretmana. Na primer, može biti postavljena hipoteza da je antihipertenziv A efektivniji od antihipertenziva B. 4. U studijama o učestalosti bolesti može biti postavljena hipoteza o stopi prevalencije neke bolesti u populaciji.
Procedura statističkog testiranja hipoteza (testiranja značajnosti) prolazi kroz nekoliko faza: 1. 2. 3. 4. 5.
Formulisanje nulte i alternativne hipoteze Određivanje nivoa značajnosti ( α nivo) Izbor statističkog testa Izračunavanje statistike testa Donošenje odluke o odbacivanju ili prihvatanju nulte hipoteze (samim tim i odluke o prihvatanju ili odbacivanju alternativne hipoteze)
Nulta i alternativna hipoteza Nulta i alternativna hipoteza Da bi neka istraživačka hipoteza mogla da se proveri statističkim metodama potrebno je da se ona konvertuju u dve statističke hipoteze: nultu i alternativnu.
Nulta hipoteza, koja se obeležava sa H , tvrdi da se određeni populacioni parametri ne razlikuju, na primer da su dve aritmetičke sredine jednake: 0
H0 : μ = μ 1
2
Alternativna ili radna hipoteza, koja se obeležava sa H , tvrdi suprotno, da se populacioni parametri razlikuju, na primer da se dve aritmetičke sredine razlikuju: 1
H1 : μ ≠ μ 1
2
Primer 1: Hipoteza da se pušači i nepušači razlikuju prema nivou karboksihemoglobina, može biti konvertovana u nultu i alternativnu hipotezu: H0 : μ
=μ
Pušači
H1 : μ
≠μ
Pušači
Nepušači
Nepušači
u kojima je μ aritmetička sredina karboksihemoglobina u odgovarajućim populacijama pušača i nepušača.
Primer 2: Hipoteza da se pušači i nepušači razlikuju prema učestalosti hroničnog bronhitisa, može biti konvertovana u nultu i alternativnu hipotezu: H0 : π
=π
Pušači
H1 : π
Nepušači
≠π
Pušači
Nepušači
u kojima je π proporcija hroničnog bronhitisa u odgovarajućim populacijama pušača i nepušača.
U daljem postupku testiranja hipoteza, primenom statističkih metoda, testira se samo nulta hipoteza, posle čega istraživač može doneti samo jednu od dve moguće odluke: 1.Nulta hipoteza se prihvata, a odbacuje alternativna hipoteza. Istraživač tada ostaje pri tvrdnji da su dva populaciona parametra jednaka. Na primer, ako je testirana jednakost aritmetičkih sredina karboksihemoglobina pušača i nepušača, prihvatanjem nulte hipoteze istraživač donosi zaključak da su one jednake, odnosno da se pušači i nepušači ne razlikuju statistički značajno prema nivou karboksihemoglobina u krvi 2.Nulta hipoteza se odbacuje, a prihvata alternativna hipoteza. Istraživač tada odbacuje tvrdnju da se dva populaciona parametra jednaka. Na primer, ako je testirana jednakost aritmetičkih sredina karboksihemoglobina pušača i nepušača, odbacivanjem nulte hipoteze istraživač donosi zaključak da su one različite, odnosno da se pušači i nepušači razlikuju statistički značajno prema nivou karboksihemoglobina u krvi
Dvosmerna i jednosmerna alternativna hipoteza Alternativna hipoteza formulisana kao H : μ ≠ μ spada u dvosmerne (dvostrane, neusmerene) hipoteze, jer se njome tvrdi da postoji razlika, ali ne i u kom smeru. Ako se alternativnom hipotezom tvrdi da postoji razlika u jednom smeru, u pitanju je jednosmerna (jednostrana, usmerena) hipoteza. Jednosmerna alternativna hipoteza, zavisno od tvrđenja o smeru razlike, može biti formulisana kao H : μ < μ , ili H : μ > μ . 1
0
1
1
1
2
1
1
2
Primer 3: U primeru 1 alternativna hipoteza je formulisana dvosmerno jer je cilj istraživaču bio da dokaže razliku, bez očekivanja o smeru te razlike. Ista alternativna hipoteza mogla je biti formulisana i jednosmerno. Na primer, ako se tvrdi da će nivo hemoglobina biti veći kod pušača, alternativna hipoteza će imati oblik: H1 : μ
Pušači
>μ
Nepušači
Nivo značajnosti i greške u zaključivanju Nivo značajnosti (α nivo) i greške u zaključivanju U postupku odlučivanja moguća su četiri ishoda, u zavisnosti od toga da li je nulta hipoteza prihvaćena ili odbačena, i prave istine - pravog stanja u populaciji (tabela 1). Ti ishodi zavise od onoga što saznajemo i odlučujemo na osnovu uzorka, i onoga što predstavlja apsolutnu istinu u populaciji kojoj mi težimo. Poželjno je da je istraživač doneo ispravnu odluku: da je odbacio nultu hipotezu kada je ona pogrešna, ili da je prihvatio nultu hipotezu kada je ona istinita. Zaključci doneti statističkim metodama imaju probabilističku prirodu, odnosno uvek uključuju komponentu slučajnosti. Ta slučajnost proističe iz toga što nikada nismo u mogućnosti da opserviramo kompletnu populaciju, koja je u teorijskom smislu beskonačna, već samo jedan njen deo, a to je uzorak. Formiranje uzorka zavisi od slučajnosti. U ponovljenim biranjima uzorka mala je verovatnoća da ćemo dobiti uzorak istog sastava, pa samim tim moguće je u ponovljenom istraživanju sa novim uzorkom dobiti i drugačiji zaključak. Zbog probabilističke prirode statističkog zaključivanja moguće je, osim ispravne odluke, napraviti i dve pogrešne odluke koje nazivamo greškama prvog odnosno drugog tipa: 1.Greška prvog tipa nastaje kada se odbacuje istinita nulta hipoteza. Verovatnoća greške ovog tipa obeležava se sa α 2.Greška drugog tipa nastaje kada se prihvata lažna nulta hipoteza. Verovatnoća greške ovog tipa obeležava se sa β
Istovremeno se može napraviti samo jedan tip greške, a nikako obe istovremeno. Oba tipa grešaka mogu imati važne posledice. Greška prvog tipa za posledicu ima zaključak da efekta ima, iako ga zapravo nema. Greška drugog tipa za posledicu ima zaključak da efekta nema, iako ga zapravo ima. Primer 4: Stvarno stanje je da novi skuplji lek A ima jednaku učestalost neželjenih dejstava kao i stari lek B. U procesu testiranja hipoteza odbačena je nulta hipoteza, i zaključeno da novi lek A ima manju učestalost neželjenih dejstava. Napravljena je greška prvog tipa, koja za posledicu ima nepotrebno izlaganje većim troškovima. Primer 5: Stvarno stanje je da novi lek A ima manju učestalost neželjenih dejstava u odnosu na stari lek B. U procesu testiranja hipoteza nije odbačena je nulta hipoteza, i zaključeno da novi lek A ima jednaku učestalost neželjenih dejstava kao i stari lek B. Napravljena je greška drugog tipa, koja za posledicu ima nepotrebno izlaganje većim troškovima. Verovatnoće oba tipa grešaka moguće je u izvesnoj meri kontrolisati, pri čemu treba uzeti u obzir da su one povezane: smanjujući verovatnoću greške prvog tipa dolazi do povećanja greške drugog tipa, i obrnuto. Verovatnoća greške prvog tipa je pod direktnom kontrolom istraživača. Maksimalno dozvoljena verovatnoća greške prvog tipa koju istraživač prihvata u istraživanju jeste nivo značajnosti (α nivo). Najčešće se za nivo značajnosti bira verovatnoća od 0.05, retko strožiji nivo od 0.01, a još ređe nivo od 0.001. Prelaskom sa nivoa značajnosti 0.05
na 0.01, smanjuje se verovatnoća greške prvog tipa, ali se istovremeno povećava verovatnoća greške drugog tipa, tako da istraživači ipak najčešće biraju upravo nivo značajnosti od 0.05. Verovatnoća greške drugog tipa zavisi od: 1.Odabranog nivoa značajnosti (α nivo), kao što je to opisano u vezi sa kontrolom greške prvog tipa 2.Veličine uzorka. Povećanje uzorka, ako je to moguće, smanjuje verovatnoću greške i prvog i drugog tipa. Povećanje uzorka je od većeg značaja za kontrolu greške drugog tipa, jer grešku prvog tipa istraživač drži pod kontrolom putem izbora nivoa značajnosti 3.Formulacije H kao dvosmerne ili jednosmerne. Greška drugog tipa manja je kod jednosmerne u odnosu na dvosmernu alternativnu hipotezu 1
4.Stvarne razlike ispitivane pojave. Na razliku ispitivanih parametara u populaciji istraživač ne može da utiče, ali ako je ta razlika biće manja i verovatnoća greške drugog tipa Komplement verovatnoće greške drugog tipa (1-β) naziva se Snagom statističkog testa, koja predstavlja verovatnoću odbacivanja nulte hipoteze kada je ona lažna. U istraživanjima se za donju prihvatljivu granicu snage testa najčešće uzima verovatnoća od 0.80. Sve ono što je navedeno da utiče, ili može poslužiti za kontrolu verovatnoće greške drugog tipa, takođe utiče i na snagu statističkog testa, ali u obrnutom smeru. Prema tome, snaga statističkog testa biće veća ako je: 1.Istraživač odluči da nivo značajnosti bude 0.05, a ne 0.01 2.Povećan uzorak 3.H1 formulisana kao jednosmerna umesto dvosmerne, ako takva formulacija ima svoju teorijsku osnovu 4. Veća razlika ispitivanih populacionih parametara.
Izbor statističkog testa Statistički test je statistički postupak testiranja nulte hipoteze. Izbor statističkog testa zavisi od nekoliko elemenata:
1.Tip podataka (nominalni, ordinalni, numerički). Na primer, ako su ispitivani podaci nominalni, moguću primenu ima Pearsonov hi-kvadrat test, a ako su ordinalni Mann-Whitney test 2.Dizajn studije a.Broja uzoraka. Na primer, za testiranje razlike dve aritmetičke sredine moguću primenu ima t-test, a za testiranje razlike dve ili više aritmetičkih sredina moguću primenu ima ANOVA
b.Nezavisni ili zavisni uzorci i.Nezavisni (nemečovani, nevezani) uzorci – jedinice u jednom uzorku su različite i nezavisne od jedinica u drugom uzorku. Primer: jedan uzorak čine ispitanici izloženi štetnim isparenjima, a drugi uzorak kontrolni ispitanici koji nisu izloženi. Testira se razlika učestalosti arterijske hipertenzije, pri čemu moguću primenu ima hi-kvadrat test ii.Zavisni (vezani, korelisani) uzorci – jedinice jednog uzorka povezane su sa jedinicama drugog uzorku. Zavisni uzorci nastaju: -U dizajnu pre-posle kada su izmerene vrednosti jedne varijable na istim jedinicama dva ili više puta u ponovljenim merenjima. Primer: uzorak čine ispitanici oboleli od depresije. Meri se arterijska tenzija pre i 20 dana posle početka davanja antidepresiva. Testira se razlika učestalosti hipotenzije prvog i drugog merenja (pre i posle primene antidepresiva), pri čemu moguću primenu ima McNemarov test
-Uparivanjem (mečovanjem) – kada svakoj jedinici iz jednog uzorka odgovara jedna (ili više njih) jedinica iz drugog uzorka koje su uparene prema nekoj varijabli. Primer: jedan uzorak čine ispitanici koji su izloženi štetnim isparenjima, a drugi uzorak, mečovan po polu i starosti, čine neizloženi kontrolni ispitanici. Svaki ispitanik iz kontrolne grupe uparen je sa nekim ispitanikom iz gupe izloženih – istog su pola i iste starosti. Testira se razlika učestalosti arterijske hipertenzije, pri čemu moguću primenu ima McNemarov test.
3. Normalnost raspodele i homogenost varijansi (približna jednakost varijansi). Za primenu parametarskih testova, na primer t-testa, uslov je normalnost raspodele i homogenost varijansi. Neparametarski testovi ne zahtevaju normalnost raspodele i homogenost varijansi, niti poznavanje oblika raspodele u populacijiSkoro u svim istraživačkim situacijama moguće je primeniti više od jednog statističkog testa. Istraživač bi tada trebalo da se odluči za test koji ima najveću statističku snagu, jer je tada greška drugog tipa najmanja
Uopšte uzev, kada treba birati između parametarskih i neparametarskih testova, prednost treba dati prvima, kad god su ispunjeni uslovi za njihovu primenu jer imaju veću snagu u odnosu na druge. Za svaki parametarski test postoji najmanje jedan ekvivalentan neparametarski test, koji se mogu primenjivati tamo gde se primenjuju i parametarski, ali iz navedenog razloga koji se odnosi na statističku snagu, treba ih primenjivati tamo gde nisu ispunjeni uslovi, i tamo gde nije adekvatno primeniti parametarske testove.
Snaga statičkog testa je veća ako je alternativna hipoteza formulisana kao jednosmerna. I pored toga, istraživači uglavnom formulišu dvosmernu alternativnu hipotezu, a retko jednosmernu, osim ako nije sasvim jasno, na osnovu prethodnih istraživanja i teorijskog modela, u kom smeru se može očekivati razlika.
Izračunavanje statistike testa Svaki statistički test ima određenu proceduru izračunavanja, koje će biti izložene u sledećim poglavljima, a rezultat tog izračunavanja je statistika testa. Da bi bila upotrebljiva, statistika testa mora imati poznatu raspodelu pod pretpostavkom važenja nulte hipoteze. U tabeli 2 prikazani su primeri nekih statističkih testova, nazivi njihovih statistika i njihovih raspodela.
Donošenje odluke o prihvatanju ili odbacivanju nulte hipoteze Odluka o prihvatanju ili odbacivanju nulte hipoteze donosi se na osnovu poređenja izračunate (empirijske) statistike testa i kritične (granične, teorijske) vrednosti. Kritičnom vrednošću iz raspodele statistike određeno je područje prihvatanja ili odbacivanja nulte hipoteze. Region odbacivanja odgovara nivou statističke značajnosti (maksimalno dozvoljena verovatnoća greške prvog tipa). Kritična vrednost zavisi od nivoa statističke značajnosti i od toga kako je formulisana alternativna hipoteza – dvosmerno ili jednosmerno. Primera radi, u tabeli 3 date su kritične vrednosti z-testa u zavisnosti od jednosmernog ili dvosmernog testiranja i nivoa značajnosti.
Razlog zbog čega je, na primer, 1.96 granična vrednost z-testa za dvosmerno testiranje i nivo značajnosti od 0.05, je taj što z-statistika sledi normalnu raspodelu, a na osnovu tabela površina ispod krive standardne normalne raspodele može se izračunati da z-statistika veća od 1.96 i manja od -1.96 odgovara verovatnoći od 0.05, odnosno nivou statističke značajnosti od 0.05 (slika 1).
Slika 1. Region odbacivanja nulte hipoteze u z-testu, u dvosmernom testiranju na nivou statističke značajnosti od 0.05. Slično tome, za graničnu vrednost z-testa od 1.64, za jednosmerno testiranje i nivo značajnosti od 0.05, na osnovu tabela površina ispod krive standardne normalne raspodele dobija se da z-statistika manja od -1.64 ili veća od 1.64 (slika 2) odgovara verovatnoći od 0.05, odnosno nivou statističke značajnosti od 0.05.
Slika 2. Regioni odbacivanja nulte hipoteze u z-testu, u jednosmernom testiranju na nivou statističke značajnosti od 0.05. Prema tome, da bi nulta hipoteza, koja je testirana z-testom, bila odbačena na nivou značajnosti od 0.05 potrebno je da z-statistika bude jednaka ili veća od 1.96 u dvosmernom testiranju, odnosno jednaka ili veća od 1.64 u jednosmernom testiranju.
Drugi način donošenja odluke o prihvatanju ili odbacivanju nulte hipoteze jeste uz pomoć statističkog softvera. U rezultatima testiranja hipoteza uz pomoć statističkog softvera dobije se p-vrednost, koja predstavlja verovatnoću opserviranih, ili ekstremnijih, razlika uzoračkih statistika, pod pretpostavkom važenja nulte hipoteze. Ako je ta verovatnoća manja od neke unapred zadate vrednosti, najčešće 0.05, odbacujemo nultu hipotezu. U protivnom, ako je p-vrednost veća od 0,05, prihvata se nulta hipoteza.
Primer 6: Predmet ispitivanja bili su oboleli od gihta, a cilj utvrđivanje razlike između onih koji redovno i neredovno uzimaju terapiju prema nivou hlorida u serumu. Istraživač postavlja nultu i alternativnu hipotezu o jednakosti aritmetičkih sredina:
H :μ H :μ 0
RedovnaTH
1
RedovnaTH
=μ ≠μ
NeredovnaTH
NeredovnaTH
Uzoračka aritmetička sredina hlorida u serumu (mmol/L) ispitanika koji redovno uzimaju terapiju iznosila je 98 (sd=3.5, n=56), a ispitanika koji neredovno uzimaju terapiju 102 (sd=3.1, n=65). Na osnovu rezultata testa doneta je odluka o prihvatanju nulte hipoteze, odnosno zaključeno je da se oboleli od gihta koji redovno i neredovno uzimaju terapiju ne razlikuju statistički značajna prema nivou hlorida u serumu. Primer 7: Cilj u istraživanju bio je utvrditi da li se atenolol i propranolol, dati u jednako efektivnim dozama, razlikuju prema učestalosti neželjenih dejstava na CNS. Istraživač postavlja nultu i alternativnu hipotezu o jednakosti proporocija učestalosti neželjenih dejstava na CNS:
H0 : π =π H1 : π ≠π Na osnovu prikupljenih podataka, od 57 ispitanika koji su primali atenolol, neželjena dejstva na CNS zapažena su kod 3 (5%) ispitanika. Od 55 ispitanika koji su primali propranolol, neželjena dejstva zapažena su kod 11 (20%) ispitanika. Na osnovu ovih uzoračkih podataka, istraživač u daljem postupku testira nultu hipotezu primenom odgovarajućeg statističkog testa. Kako su u pitanju nominalni podaci, adekvatnu primenu ima hi-kvadrat test. Dobijena je hi-kvadrat statistika od 5.56. Na osnovu hi-kvadrat raspodele, i pod pretpostavkom važenja nulte hipoteze, verovatnoća opserviranih razlika proporocija ili ekstremnijih, manja je od 0.05. Istraživač odbacuje nultu hipotezu i prihvata alternativnu – donosi zaključak da je proporcija učestalosti neželjenih dejstava na CNS veća u populaciji ispitanika koji primaju propranolol. Atenolol
Atenolol
Propranolol
Propranolol
Donošenje odluke o prihvatanju ili odbacivanju nulte hipoteze primenom statističkog softvera Odluka o prihvatanju ili odbacivanju nulte hipoteze donosi se na osnovu poređenja p-vrednosti i odabranog nivoa statističke značajnosti. Nivo statističke značajnosti (alfa vrednost) je maksimalno dozvoljena verovatnoća greške prvog tipa, i najčešće se odabira vrednost od 0.05 (alfa = 0.05). Ako je p vrednost jednaka ili manja od nivoa značajnosti (p ≤ 0.05), odbacuje se nulta hipoteza i prihvata alternativna. U protivnom, ako je p-vrednost veća od odabranog nivoa statističke značajnosti (p > 0.05), zadržava se nulta hipoteza. .
Napomena: Ako je u rezultatima statističkih analiza primenom softvera dobijen ispis o p-vrednosti: (1) manjoj od 0.001; (2) p = 0.000 ili (3) u vidu broja sa negativnim eksponentom (npr. p-value = 8.556e-14) u izveštaju umesto toga treba napisati p < 0.001.
10 t-test STUDENTOV T-TEST Testiranje značajnosti razlike aritmetičkih sredina . Uopšteno, Studentovim t-testom testiramo razliku dve aritmetičke sredine, ili razliku jedne aritmetičke sredine i pretpostavljene vrednosti. Studentov t-test je zasnovan na t raspodeli. Ova raspodela je slična normalnoj, ima zvonast oblik i simetrična je. Ova raspodela zavisi od veličine uzorka. Sa povećanjem uzorka postaje sve sličnija normalnoj raspodeli. Slično ztestu i normalnoj raspodeli, i u t-testu granične vrednosti za odbacivanje nulte hipoteze zavise od toga da li se radi o dvosmernom ili jednosmernom testiranju, i od nivoa značajnosti. Osim toga, u t raspodeli granične vrednosti zavise i od broja stepena slobode, koji se dobija od veličine uzoraka umanjivanjem za jedan, što zavisi od toga da li su uzorci nezavisni ili zavisni. Pretpostavka za izvođenje t-testa jeste da ispitivana varijabla ima normalnu raspodelu, premda je test robustan na izvesno odstupanje od normalnosti. Ta robustnost raste sa povećanjem uzorka. U slučaju kada su uzorci mali, a raspodela nije poznata, umesto t-testa treba upotrebiti neparametarske testove.
Testiranje značajnosti razlike aritmetičkih sredina – jedan uzorak Testiramo nultu hipotezu da je aritmetička sredina populacije, iz koje potiče uzorak veličine n, jednaka nekoj specifikovanoj vrednosti:
H: µ = µ 0
0
gde je µ nepoznata aritmetička sredina populacije iz koje potiče uzorak, a µ je specifikovana vrednost koja je pretpostavljena na osnovu ranijih istraživanja ili teorijskog modela. Na primer, ako na osnovu ranijih istraživanja pretpostavljena aritmetička sredina populacije iznosi 5, nulta hipoteza ima formulaciju: 0
H: µ = 5 0
odnosno, nulta hipoteza tvrdi da aktuelni uzorak potiče iz populacije sa aritmetičkom sredinom koja iznosi 5. Ako na osnovu statistike testa odbacimo nultu hipotezu, onda prihvatamo alternativnu hipotezu koja tvrdi da uzorak potiče iz populacije sa aritmetičkom sredinom koja je različita od specifikovane vrednosti (u ovom primeru različito od 5). Značajnost razlike aktuelne aritmetičke sredine uzorka i aritmetičke sredine populacije može se testirati t-testom. Pretpostavke za izvođenje jesu: 1. 1. 2. 3.
Slučajno biran uzorak Numerički kontinuirani podaci Normalna raspodela u populaciji
Primer 1: Aritmetička sredina sistolne arterijske tenzije 10 bolesnika sa akutnim koronarnim sindromom smeštenih na odeljenju za kardiovaskularne bolesti, na osnovu podataka iz fajla Sistolna TA.xlsx, iznosi 139 mmHg, a standardna devijacija sd=11.9 mmHg. Na osnovu prethodnih istraživanja očekivalo se da će aritmetička sredina za tu populaciju bolesnika iznositi 145 mmHg. Da li se može reći da populacija iz koje potiče aktuelni uzorak ima aritmetičku sredinu jednaku očekivanoj? Testirati na nivou značajnosti od 0.05. Hipoteze: H : µ =145, H : µ ≠ 145 0
1
. Procedura u EZR-u: 1) t-test za jedan uzorak izvodi se klikom na liniju sa komandama: Statistical analysis→Continuous variables→Single-sample t-test
2) U dijalog prozoru koji se pojavio:
o o
u okviru polja Variable (pick one) odabrati ispitivanu varijablu u polju Null hypothesis: mu = ukucati vrednost očekivane aritmetičke sredine
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
. Zaključak: Dobijena p-vrednost veća je od 0.05 pa zaključujemo da se vrednost aritmetičke sredine sistolne arterijske tenzije populacije iz koje potiče uzorak ne razlikuje od očekivanih vrednosti (t=1.585, DF=9, p=0.147). . NAPOMENA: Ako je u t-testu vrednost statistike testa negativna, istraživač u izveštaju može izostaviti minus, pošto on govori samo o smeru razlike koji je inače jasan na osnovu aritmetičkih sredina grupa. .
Testiranje značajnosti razlike aritmetičkih sredina dva nezavisna uzorka Testiramo nultu hipotezu da su aritmetičke sredine osnovnih skupova iz kojih su dobijeni uzorci jednake: H : µ = µ . Alternativne hipoteze bi glasile: da su aritmetičke sredine različite: H :m ¹m , (dvosmerno testiranje), ili da je jedna veća od druge: H : µ > µ , H : µ < µ , (jednosmerno testiranje). 0
1
2
1
1
1
2
1
1
1
2
2
Uslovi za testiranje razlike aritmetičkih sredina t-testom su: 1) Normalnost podataka 2) Jednakost varijansi 3) Nezavisnost uzoraka (statistička jedinica može biti zastupljena samo u jednom uzorku pri čemu izbor jedinica za jedan uzorak nema nikakav uticaj na izbor jedinica u drugom uzorku) Primer 2: Dve grupe lečene su tretmanima A i B. Sedimentacija eritrocita (mm/h) ispitanika u istraživanju iznosi: Tretman A: 15 17 20 14 19 17 18 19 Tretman B: 16 14 17 15 18 17 16 Da li se ova dva tretmana razlikuju pema sedimentaciji eritrocita? Testirati na nivou značajnosti od 0.05. Poznato je da ispitivana varijabla ima normalnu raspodelu u populaciji. . Procedura u EZR-u: 1) Formirati bazu podataka u Excel programu gde će se u prvom redu uneti nazivi varijabli a u prvoj koloni redni broj jedinice posmatranja. Svaka linija (red) se odnosi na jedinicu opservacije (statističku jedinicu iz uzorka). Svaka kolona se odnosi na varijablu odnosno karakteristike jedinica opservacije. Varijablu koja definiše grupe uneti u posebnu kolonu, a ispitivanu varijablu u sledeću kolonu. Formiranu bazu učitati iz Excela u EZR prema uputstvu navedenom u prethodnim lekcijama.
2) Deskripcija podataka može se uraditi na sledeći način: Kliknuti na liniji sa komandama: Original menu→Statistics→Summaries→Numerical summaries.
U dijalog prozoru koji se pojavio:
o
u okviru kartice Data označiti varijablu Sedimentacija pa liknuti na dugme Summarize by groups…
U dijalog prozoru Groups odabrati varijablu koja definiše grupe pa kliknuti na dugme OK.
o
u okviru kartice Statistics čekirati polja za Mean, Standard deviation, Coefficient of Variation i Quantiles, pa kliknuti na dugme OK.
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
.
3) Provera normalnosti raspodele. Jedan od uslova za primenu parametarskih testova jeste normalnost podataka. Jedna od metoda, koja često služi za brzu proveru normalnosti podataka, jeste koeficijent varijacije (CV). Ako je mali, na primer ≤ 30%, za skup podataka se može reći da je homogen (manje varijabilan, konzistentan, uniforman) i mogu se upotrebiti parametarski testovi. Ako je CV veći od 30%, za skup podataka se može reći da je heterogen (više varijabilan) i ne mogu se upotrebiti parametarski testovi. Normalnost podataka treba proveriti za obe grupe. Ukoliko su podaci bar kod jedne grupe heterogeni (CV>30%) koriste se neparametarski testovi. U našem primeru, podaci su homogeni, CV
=11,9% i CV
Tretman A
=8,3%, pa se mogu primeniti parametarski testovi.
Tretman B
Hipoteze: H : µ = µm , H : µ ≠ µ (dvosmerna hipoteza). 0
A
B
1
A
B
. 4) Pošto su uzorci nezavisni a podaci numerički i homogeni može se primeniti t-test za dva nezavisna uzorka, što se postiže klikom na liniju sa komandama: Statistical analysis→Continuous variables→Two sample t-test
U dijalog prozoru koji se otvorio:
o o
u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu. u okviru polja Grouping Variables with two levels (pick at least one): odabrati varijablu koja definiše grupe. Grupišuća varijabla mora da ima dve kategorije.
.
5) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
EZR automatski pravi i grafikone za ispitivanu varijablu prema grupama.
Zaključak: Aritmetička sredina i standardna devijacija sedimentacije eritrocita u Tretmanu A iznosi 17.4±2.1 mm/h, a u Tretmanu B iznosi 16.1±1.3 mm/h. Ne postoji statistički značajna razlika prema sedimentaciji eritrocita između ispitivanih grupa (t=1.345, DF=13, p=0.202). . 6) Interval poverenja po grupama Ukoliko se traži izračunavanje 99% intervala poverenja za jednu grupu (npr. Tretman A), to se postiže klikom na komande: Statistical analysis→Continuous variables→Confidence interval for a mean
U dijalog prozoru koji se otvorio:
o o o o
u u u u
polju polju polju polju
Mean ukucati vrednost već izračunate aritmetičke sredine za Tretman A Standard deviation ukucati vrednost standardne devijacije za Tretman A Sample size ukucati veličinu uzorka za Tretman A Confidence interval ukucati traženi nivo poverenja
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
99% interval poverenja aritmetičke sredine sedimentacije ispitanika lečenih Tretmanom A iznosi: 14.8-20.0.
Testiranje značajnosti razlike aritmetičkih sredina dva zavisna uzorka Zavisni uzorci nastaju ili u dizajnu ponovljenih merenja, kada se iste statistčke jedinice opserviraju dva ili više puta u različitim vremenima, ili mečovanjem (uparivanjem) sličnih jedinica iz različitih uzoraka. Razliku aritmetičkih sredina zavisnih uzoraka možemo testirati t-testom za zavisne uzorke (t-test korelisanih uzoraka, t-test mečovanih uzoraka – parova). Test je zasnovan na razlici opservacija pre-posle ili razlici mečovanih opservacija. Te razlike se izračunavaju posebno za svaku statističku jedinicu: d = x – x (u dizajnu ponovljenih merenja d=x – x (kod mečovanih uzoraka) pre
uzorak1
posle
uzorak2
Nulta hipoteza tvrdi da je aritmetička sredina ovih razlika jednaka nuli, a alternativna suprotno: H: µ = 0 H: μ ≠ 0 0
d
0
d
Uslov za primenu t-testa za zavisne uzorke jeste normalnost raspodele. Primer 3: Deset bolesnika od hronične obstruktivne bolesti pluća praćeno je u toku 5 godina. Date su vrednosti vitalnog kapaciteta pluća (ml) na početku i kraju tog perioda: Prvo merenje: 2960 2820 2990 3050 2670 2900 3180 3220 3490 2890 Drugo merenje: 2700 2640 2920 2850 2580 2790 2810 2970 2750 2680 Da li je došlo do promene vitalnog kapaciteta u posmatranom periodu? Testirati na nivou značajnosti od 0.05. . Procedura u EZR-u: 1) Formirati bazu podataka u Excel programu. Kod formiranja baze podataka za zavisne uzorke, svako od merenja se unosi u posebnu kolonu. U našem primeru, prvo_merenje i drugo_merenje su nazivi varijabli za ponovljena merenja.
2) Deskripciju podataka za svako merenje posebno, uraditi primenom komandi: Original menu→Statistics→Summaries→Numerical summaries.
. 3) Provera normalnosti raspodele. Podaci su homogeni, CV
prvo_merenje
=7.7% i CV
Hipoteze: H : μ = 0 i H : μ ¹ 0 0
.
d
0
d
=4.5%, pa se mogu primenti parametarski testovi.
drugo_merenje
4) Pošto su uzorci zavisni a podaci numerički i homogeni može se primeniti t-test za dva zavisna uzorka, što se postiže preko sledeće komande: Statistical analysis→Continuous variables→Paired t-test
U dijalog prozoru koji se otvorio:
o o
u okviru polja First variable (pick one) odabrati varijablu za prvo merenje u okviru polja Second variable (pick one): odabrati varijablu za drugo merenje.
.
5) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
Zaključak: Aritmetička sredina i standardna devijacija vitalnog kapaciteta na prvom merenju iznosi 3017±232.3 mL, a na drugom merenju iznosi 2769±123.5 mL. Postoji statistički značajna razlika u vrednostima vitalnog kapaciteta između dva merenja (t=4.028, DF=9, p=0.003). Vrednosti vitalnog kapaciteta su statistički značajno niže na drugom merenju. .
6) T-test za dva zavisna uzorka po podrazumevanim podešavanjima izračunava interval poverenja razlika vrednosti pre i posle. Ukoliko se traži izračunavanje intervala poverenja aritmetičke sredine za jedno merenje to se postiže komandom:Statistical analysis→Continuous variables→Single-sample t-test
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
95% interval poverenja aritmetičke sredine vitalnog kapaciteta na prvom merenju iznosi: 2850.8-3183.2.
Pitanje 3: Ako bi hipoteza, testirana u primeru 3, sada bila testirana na nivou značajnosti od 0.01, zaključak bi glasio: Razlika je statistički značajna Komentar: Razlika je statistički značajna pošto je p-vrednost jednaka ili manja od nivoa značajnosti (p ≤ 0.01), odbacuje se nulta hipoteza i prihvata alternativna.
11 Hi-kvadrat test HI KVADRAT TEST HI KVADRAT TEST Hi-kvadrat testom procenjuje se značajnost razlike opaženih (empirijskih) i očekivanih (teorijskih) učestalosti. Kada se u pitanju nominalni podaci učestalosti se odnose na kategorije (modalitete) ispitivane varijable, a kada su u pitanju numerički podaci učestalosti se odnose na diskretne vrednosti ili klasne intervale ispitivane varijable. Učestalosti (frekvencije) u ovom testu moraju biti iskazane kao apsolutni brojevi, a ne kao proporcije ili procenti. Očekivane učestalosti imaju značenje nulte hipoteze, odnosno nultom hipotezom tvrdimo da opažene učestalosti ne odstupaju značajno od očekivanih. Statistika hi-kvadrat testa izračunava se pomoću formule:
gde je f opažena, a f' očekivana učestalost. Ova vrednost sledi hi-kvadrat raspodelu za odgovarajući broj stepena slobode. Ukoliko je veća razlika opaženih i očekivanih učestalosti, utoliko će biti veća vrednost hi-kvadrat statistike, a samim tim i veća verovatnoća da bude odbačena nulta hipoteza. Vrednost hi-kvadrat statistike jednaka nuli ukazuje na potpuno slaganje, odnosno jednakost opaženih i očekivanih učestalosti. U prilogu je data tabela graničnih vrednosti hi-kvadrat raspodele za odgovarajući broj stepena slobode (DF) i nivo značajnosti. Ukoliko je hi-kvadrat statistika jednaka ili veća od odgovarajuće granične vrednosti, odbacujemo nultu hipotezu i zaključujemo da je razlika opaženih i očekivanih učestalosti statistički značajna. Hi kvadrat test se najčešće koristi: 1. u testu slaganja ili u 2. u testu nezavisnosti ili homogenosti.
Hi-kvadrat test slaganja Hi-kvadrat testom slaganja testiramo hipotezu da li se učestalosti u populaciji, opažene i predestavljene uzorkom, razlikuju od očekivanih učestalosti. Očekivane učestanosti određene su na osnovu ranijih istraživanja, pretpostavljenog modela raspodele posmatrane varijable ili pretpostavljene na neki drugi način. Učestalosti u testu slaganja prezentovane su u vidu proste tabele (raspodela po jednoj varijabli), u kojoj se svaka statistička jedinica svrstana u neku od međusobno isključivih kategorija. Ako hi-kvadrat testom slaganja odbacimo nultu hipotezu, možemo zaključiti da se učestalosti u populaciji, predstavljene uzorkom, razlikuju od očekivanih. Broj stepena slobode u hikvadrat testu slganja iznosi DF = r – 1, gde je r broj kategorija. Uslovi za primenu testa slaganja: • Podaci koji se testiraju moraju biti učestalosti, a ne procenti • Uzorak čine nezavisne opservacije, odnosno svaka opservacija može biti samo jednom pobrojana u učestalostima • U slučaju postojanja samo dve kategorije (r=2), nijedna očekivana frekvencija ne sme biti manja od 5 • U slučaju postojanja više od dve kategorije (r>2), ne sme biti više od 20% očekivanih učestalosti manjih od 5. Ako nije zadovoljen ovaj uslov mora se izvršiti sažimanje susednih kategorija
Primer 1: Ispitivana je učestalost krvnih grupa u određenoj populaciji. Na slučajnom uzorku od 140 osoba, nađeno je da krvnu grupu O ima 55 osoba, krvnu grupu A 59 osoba, krvnu grupu B 19 osoba i krvnu grupu AB 7 osoba. Na osnovu ranijih istraživanja poznato je da je relativna učestanost tih krvnih grupa: O – 44.5%, A – 38.9%, B – 12.1%, AB – 4.5%. Da li se aktuelne učestalosti krvnih grupa razlikuju od očekivanih? Testirati na nivou značajnosti od 0.05.
Rešenje: Očekivane frekvencije (f') u ovom slučaju dobijamo tako što totalnu frekvenciju (140) množimo sa očekivanim proporcijama krvnih grupa. Opažene učestalosti: Očekivane učestalosti: O – 55
O – 44.5%
A – 59
A – 38.9%
B – 19
B – 12.1%
AB – 7 AB – 4.5% Testiramo nultu hipotezu da se proporcije krvnih grupa u ispitivanoj populaciji ne razlikuju od proporcija iz prethodnih istraživanja. Kako je u pitanju raspodela samo prema jednoj varijabli, a treba testirati da li je raspodela proporcija u ispitivanoj populaciji jednaka proporcijama iz prethodnih istraživanja, primenićemo hi-kvadrat test slaganja.
Procedura u EZR-u 1) Sa naslovne stranice kursa, preuzeti i učitati bazu podataka Krvne grupe.xlsx . 2) Kliknuti na liniji sa komandama: Original menu→Statistics→Summaries→Frequency distributions...
. 3) U dijalog prozoru koji se pojavio:
o o o .
u okviru polja Variables (pick one or more) odabrati varijablu za koju se izračunava Hi-kvadrat test slaganja čekirati polje Chi-square goodness-of-fit test (for one variable only) kliknuti na dugme OK.
4) U dijalog prozoru koji se pojavio, ukucati očekivane učestalosti za sve kategorije ispitivane varijable, pa kliknuti na dugmeOK. Zbir očekivanih učestalosti mora da bude 1. Obratiti pažnju da je redosled kategorija u dijalog prozoru po abecednom redu i da se može razlikovati od redosleda u zadatku.
. 5) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
Zaključak: Proporcija krvnih grupa u ispitivanoj populaciji ne razlikuje se od proporcija iz prethodnih istraživanja (Hi-kvadrat = 1.562, DF = 3, p = 0.668). . Zadatak 1: Ispitivana je spremnost pacijenata da odmah posle jedne invazivne dijagnostičke procedure napuste bolnicu. Od 75 pacijenata koji su podvrgnuti toj dijagnostičkoj metodi, 27 je odlučilo da po završetku procedure u bolnici ostane još jedan dan, a ostali su doneli odluku da napuste bolnicu. Očekivanje istraživača bilo je da će biti podjednak broj onih koji će doneti jednu od te dve odluke. Da li je učestalost odluka pacijenata u skladu sa očekivanjima? Testirati na nivou značajnosti od 0.05.
Vaš odgovor : Pacijenti statistički značajno učestalije donose odluku da napuste bolnicu (64% prema 36%) po završetku dijagnostičkog postupka (hi-kvadrat = 5.88, DF = 1, p < 0.05). Odgovor je tačan. Učestalost opaženih odluka pacijenata: Ostati 27 (36%) Otići 48 (64%) Očekivane učestalosti: podjednake učestalosti (50% prema 50%)
Hi-kvadrat test za r x k tabele Hi-kvadrat test za r x k tabele se može koristiti za testiranje hipoteza kada su podaci organizovani u vidu tabela kontingencije. Tabela kontingencije je složena kombinovana tabela u kojoj raspodela zavisi od dve varijable. Kategorije prve varijable nalaze se u pretkoloni a kategorije druge varijable u zaglavlju tabele. Na presecima kategorija obe varijable nalaze se ćelije koje sadrže opažene učestalosti (kontingenti) kombinacija kategorija dve varijable, a koje se u opštem prikazu tabele kontingencije označavaju slovima a, b, c i d. Ćelije su međusobno isključive, i svaka statistička jedinica može biti zastupljena u samo jednoj ćeliji. Dimezije tabela kontingencije zavise od broja kategorija (modaliteta) jedne i druge varijable. Ako jedna varijabla ima r kategorija, a druga k kategorija, onda tabela ima dimenzije r x k. Tabela kontingencije 2x2
Zavisno od cilja istraživanja i načina biranja uzorka, analizom tabela kontingencije možemo testirati (1) nezavisnost dve varijable ili (2) homogenost dve populacije. U oba ova slučaja za testiranje hipoteza može se upotrebiti hi-kvadrat test, a način izračunavanja hi-kvadrat statistike je identičan. Hi-kvadrat testom nezavisnosti ispitujemo da li u tablici kontingencije raspodela po jednoj varijabli uslovno zavisi od raspodele po drugoj varijabli. Nultom hipotezom tvrdimo da su varijable nezavisne, odnosno da raspodela po jednoj varijabli ne zavisi od raspodele po drugoj varijabli. U slučaju da nultu hipotezu odbacimo, zaključujemo da varijable nisu nezavisne, odnosno da između njih postoji povezanost (asocijacija, korelacija). U testu nezavisnoti istraživač drži pod kontrolom samo totalnu učestalost (veličinu uzorka), ali ne i marginalne učestalosti.
Uslovi za primenu hi kvadrat testa su: 1) Za tabelu 2 x 2: a) kada je N > 40 test se može upotrebiti ako su sve očekivane frekvencije ³ 1 b) kada je N od 20 do 40 test se može upotrebiti ako su sve očekivane frekvencije ³ 5 c) kada je N < 20 test se ne može upotrebiti 2) Za tabelu veću od 2 x 2: a) nijedna očekivana učestalost ne sme biti manja od 1, i b) ne sme biti više od 20% očekivanih učestalosti manjih od 5. Ako nije zadovoljen uslov očekivanih učestalosti mora se izvršiti sažimanje susednih kategorija. Na primer, ako je u tabeli dimezija 2 x 3 samo jedna očekivana učestalost manja od 5, hi-kvadrat se može primeniti jer je 1/6 < 20%. Ako u toj istoj tabeli postoje dve očekivane učestalosti manje 5, hikvadrat se ne može primeniti jer je 2/6 > 20%. U tom slučaju se može pribeći sažimanju susednih kategorija, i svođenjem tabele 2 x 3 na tabelu dimenzija 2 x 2.
Testiranje nezavisnosti i homogenosti hi-kvadrat testom Primer 2 Za slučajan uzorak od 40 osoba obolelih od osteoporoze dati su podaci o fizičkoj aktivnosti i frakturama. Da li postoji povezanost fizičke aktivnosti i fraktura u populaciji obolelih od osteoporoze? Testirati na nivou značajnosti od 0.05.
Testiramo nultu hipotezu da ne postoji povezanost fizičke aktivnosti i fraktura u populaciji obolelih od osteoporoze. U pitanju je raspodela prema dve varijable (fizička aktivnost i prelomi) na osnovu kojih treba formirati tabelu kontingencije. Podaci su dati u sirovom (neobrađenom, neorganizovanom) obliku.
Procedura u EZR-u Sledećim komandama biće dobijena tabela kontingencije, procenti, očekivane učestalosti, i vrednost hi-kvadrat statistike na osnovu koje će biti doneta odluka o odbacivanju ili prihvatanju nulte hipoteze: 1) Preuzeti i učitati bazu podataka Osteoporoza.xlsx .
2) Kliknuti na liniji sa komandama: Statistical analysis→Discerete variables→Create two-way table and compare two proportions (Fisher`s exact test)
.3)
U dijalog prozoru koji se pojavio:
o o o o
u okviru polja Row variable (pick one or more): odabrati varijablu koja će definisati redove u tabeli kontingencije u okviru polja Column variable (pick one): odabrati varijablu koja će definisati kolone u tabeli kontingencije u delu Compute Percentages označiti Row percentages za izračunavanje procenata po redovima u delu Hypothesis Tests:
.4)
čekirati polje Chi-square test za izračunavanje Hi-kvadrat testa čekirati polje Print expected frequencies za izračunavanje očekivanih učestalosti u delu Continuity correction of chi-square test: označiti No, da bi se Hi-kvadrat test izračunao bez Yatesove korekcije
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
Dobijena je tabela kontingencije sa opserviranim učestalostima, gde je “aktivnost“ varijabla koja definiše redove, a “prelomi” varijabla koja definiše kolone. Prikazani su i procenti po redovima tabele kontingencije.
Sve očekivane učestalosti su veće od 5. Može se primeniti Hi-kvadrat test. . Zaključak: Učestalost fraktura iznosila je 12.5% kod fizički aktivnih ispitanika, i 50.0% kod fizički neaktivnih ispitanika. U populaciji obolelih od osteoporoze frakture su statistički značajno povezane sa fizičkom neaktivnošću (Hi-kvadrat = 5.934, DF = 1, p = 0.015).
Primer 3 (primer hi-kvadrat test kada je tabela kontingencije već formirana) Cilj u studiji preseka bio je ispitivanje odnosa konzumiranja alkohola i patološkog nalaza na jetri. Formiran je slučajan uzorak, veličine 118 ispitanika, iz opšte populacije odraslih osoba. Rezultati su prikazani u tabeli kontingencije:
Testiramo nultu hipotezu da ne postoji povezanost konzumiranja alkohola i patološkog nalaza na jetri. U pitanju je raspodela prema dve varijable (konzumiranje alkohola i patološki nalaz na jetri). Tabela kontingencije je već formirana, podaci su dati u organizovanom obliku. Sledećim komandama biće dobijeni procenti, očekivane učestalosti, i vrednost hi-kvadrat statistike na osnovu koje će biti doneta odluka o odbacivanju ili prihvatanju nulte hipoteze:
1) Kliknuti na komande: Original menu→Statistics→Contingency tables→Enter and analyze two-way table…
. 2) U dijalog prozoru koji se pojavio:
.
U okviru kartice Table:
o o o
pomeranjem klizača u okviru trake Number of Rows: odrediti broj redova tabele kontingencije pomeranjem klizača u okviru trake Number of Columns: odrediti broj kolona tabele kontingencije u delu Enter counts: ukucati nazive i vrednosti kategorija varijabli iz tabele kontingencije
U okviru kartice Statistics:
o o
u delu Compute Percentages: označiti Row percentages za izračunavanje procenata po redovima u delu Hypothesis Tests:
čekirati polje Chi-square test of independence za izračunavanje Hi-kvadrat testa čekirati polje Print expected frequencies za izračunavanje očekivanih učestalosti kliknuti na dugme OK.
. 3) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
Dobijena je tabela kontingencije sa opserviranim učestalostima, gde je “Konzumiranje alkohola“ varijabla koja definiše redove, a “Patološki nalaz” varijabla koja definiše kolone. Prikazani su i procenti po redovima tabele kontingencije.
Sve očekivane učestalosti su veće od 5. Može se primeniti Hi-kvadrat test. . Zaključak: Patološki nalaz na jetri imalo je 38% ispitanika koji konzumiraju alkohol i 14% ispitanika koji ne konzumiraju alkohol. Patološke promene na jetri su statistički značajno povezane sa konzumiranjem alkohola (Hi-kvadrat = 7.647, DF = 1, p = 0.006).
12 McNemarov test McNemarov test McNemarov test McNemarov test primenjuje se za ocenu značajnosti razlike učestalosti dihotomnih podataka koji potiču od dva vezana (zavisna) uzoraka. Vezane uzorke mogu činiti (a) iste jedinice opservirane dva ili više puta, ili (b) individualno mečovane jedinice dva uzorka.
Primer 1. U istraživanju cilj je bio oceniti efikasnost jednog aritmika. U dizajnu pre-posle, zabeležena je pojava ekstrasistola pre davanja i posle davanja antiaritmika. U navedenom primeru vezane uzorke činili su isti ispitanici, na kojima je u dva različita vremena registrovana pojava ekstrasistola.
Primer 2. U istraživanju cilj je bio ocena efektivnosti pneumokone vakcine kod starih osoba. Odabrane su dve grupe individualno mečovanih ispitanika. Grupu slučajeva činilo 89 ispitanika koji su imali pneumokoknu bolest. Za svakog ispitanika iz grupe slučajeva odabran je po jedan ispitanik iste starosti i sličnog zdrvstvenog statusa za kontrolnu gurpu. Grupe su zatim upoređene prema podatku o pneumokoknoj vakcinaciji. U navedenom primeru vezane uzorke činili su različiti ispitanici, u grupi slučajeva i kontrolnoj grupi, ali individualno mečovani. Svakom obolelom ispitaniku iz grupe slučajeva, dodeljen je jedan ispitanik (parnjak) u kotrolnoj grupi iste starosti i sličnog zdravstvenog statusa (osim onog onog koji se odnosi na samu pneumokoknu bolest). Na taj način je istraživač, u cilju adekvatne ocene efektivnosti vakcine, držao pod kontrolom dve varijable (starost i prethodni zdravsveni status) koje su takođe mogle da utiču na pojavu pneumokokne bolesti.
U istraživanju cilj je bio oceniti efikasnost jednog antiaritmika. U dizajnu pre-posle, za 91 ispitanika registrovana je pojava ekstrasistola pre davanja i posle davanja antiaritmika. U ovom primeru vezane uzorke činili su isti ispitanici, na kojima je u dva različita vremena registrovana pojava ekstrasistola.
Rešenje: Adekvatna je primena McNemarovog testa.
Procedura u EZR-u
1) Preuzeti i učitati bazu podataka Aritmije.xlsx
2) Kliknuti na liniji sa komandama: Statistical analysis→Discerete variables→Compare proportions of two paired samples (McNemar test)
3) U dijalog prozoru koji se pojavio:
o o o
u okviru polja Row variable (pick one ): odabrati varijablu koja će definisati redove u tabeli kontingencije u okviru polja Column variable (pick one): odabrati varijablu koja će definisati kolone u tabeli kontingencije u delu Continuity correction: označiti No, da bi se McNemar test izračunao bez Yatesove korekcije
4) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
5) Procenat ispitanika sa ekstrasistolama pre početka terapije, i posle terapije može se dobiti na sledeći način:
o
o 1.
kliknuti na liniji sa komandama: Statistical analisys→Discrete variables→Frequency distributions
u dijalog prozoru koji se pojavio 1.
o
označiti varijablu ekstrasistole_pre čekirati polja Show percent (za prikaz procenata), a odčekirati polje Show missing data. kliknuti na dugme OK.
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
Isti postupak ponoviti i za varijablu ekstrasistole_posle
Zaključak: Učestalost ekstrasistola pre davanja leka iznosila je 74%, a posle davanja leka 52%. Učestalost ekstrasistola je statistički značajno manja posle davanja leka (Hikvadrat=12.5, p< 0.001).
13 Fisherov test tačne verovatnoće Fisherov test tačne verovatnoće Fisherov test tačne verovatnoće je alternativa hi-kvadrat testu za tabele . Može se koristiti uvek, bez obzira na učestalosti u tabelama kontingencije, pa i u slučajevima kada se ne može koristiti hi-kvadrat test zbog malih učestalosti. Procedura testa zahteva izračunavanje verovatnoće aktuelno opserviranih učestalosti u tabeli kontingencije, ali i svih drugih mogućih učestalosti uz uslov da marginalne učestalosti ostanu nepromenjene. Izračunavanje ovih verovatnća zasnovano je na hipergeometrijskoj raspodeli. Nultu hipotezu odbacujemo ako je zbir verovatnoća opserviranih i ekstremnijih podataka jednak ili manji od 0.05. Za tebelu kontingencije 2 x 2:
verovatnoća datih učestalosti iznosi:
Primer 1 Primer 1: Opis podataka: Cilj u studiji slučaj-kontrola bio je ispitivanje konzumiranja alkohola kao faktora rizika za arterijsku hipertenziju. Iz populacije osoba sa arterijskom hipertenzijom formiran je slučajan uzorak veličine 5, a iz populacije uslovno zdravih slučajan uzorak veličine 6. Od svih ispitanika zabeležen je anamnestički podatak o konzumiranju alkohola. Testirati hipotezu o homogenosti populacija sa i bez arterijske hipertenzije prema proporciji konzumenata alkohola. . Procedura u EZR-u: 1) Preuzeti i učitati bazu podataka Alkohol i hipertenzija.xlsx Zbog malih učestalosti (totalna učestalost manja od 20) nije moguće primeniti Pearsonov hikvadrat test. Alternativa je primena Fisherovog testa tačne verovatnoće. Procedura je identična kao za Pearsonov hi-kvadrat test, osim što u tabeli izlaznih rezultata čitamo drugu p vrednost.
2) Kliknuti na liniji sa komandama: Statistical analysis→Discerete variables→Create two-way table and compare two proportions (Fisher`s exact test)
3) U dijalog prozoru koji se pojavio:
o o o o o
u okviru polja Row variable (pick one or more): odabrati varijablu koja će definisati redove u tabeli kontingencije u okviru polja Column variable (pick one): odabrati varijablu koja će definisati kolone u tabeli kontingencije u delu Compute Percentages označiti Row percentages za izračunavanje procenata po redovima u delu Hypothesis Tests: čekirati polje Fisher`s exact test za izračunavanje Fisherovog testa tačne verovatnoće kliknuti na dugme OK
4) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
Dobijena je tabela kontingencije sa opserviranim učestalostima, gde je “alkohol“ varijabla koja definiše redove, a “hipertenzija” varijabla koja definiše kolone. Prikazani su i procenti po redovima tabele kontingencije.
Zaključak: Osobe sa i bez arterijske hipertenzije ne razlikuju se statistički značajno prema proporciji konzumiranja alkohola (p=0,545).
14 Test sume rangova Test sume rangova Test sume rangova je neparametarski metod koji se koristi kao alternativa Studentovom t-testu za dva nezavisna uzorka. Primenjuje se kada nisu ispunjeni uslovi za primenu t-testa: kada raspodela numeričkih podataka nije normalna, ili se radi o ordinalnim ili rangiranim podacima. Ovim testom testira se nulta hipoteza o jednakosti raspodela ili jednakosti medijana dve populacije. U literaturi se pod ovim nazivom podrazumevaju dva testa: Wilcoxonov test sume rangova i MannWhitney U test. Ova dva testa su ekvivalentna, pa otuda i naziv Wilcoxon-Mann-Whitney test.
Primer 1 Ispitivan je odnos nadmorske visine prebivališta i koncentracije fibrinogena. Podaci o koncentracije fibrinogena (g/L) dati su za ispitanike sa stalnim prebivalištem na nadmorskoj visini do 200 m, i preko 700 m. Ispitati da li se osobe sa različitim nadmorskim visinama prebivališta razlikuju prema koncentracije fibrinogena.
. Procedura u EZR-u: 1) Formirati bazu podataka u Excel programu i sačuvati je u svom direktorijumu. Obratiti pažnju prilikom formiranja baze podataka da varijablu koja definiše grupe treba uneti u posebnu kolonu, a ispitivanu varijablu u sledeću kolonu. . 2) Deskripcija podataka može se uraditi preko linije sa komandama: Original menu→Statistics→Summaries→Numerical summaries.
. 3) Provera normalnosti raspodele.
Podaci vrednosti fibrinogena >700m su heterogeni (CV parametarski testovi.
Hipoteze: H : Med 0
<200m
= Med
, H : Med
>700m
1
<200m
≠ Med
>700m
=30,5%) pa se ne mogu primeniti
>700m
(dvosmerna hipoteza).
. 4) Pošto su uzorci nezavisni a podaci numerički i heterogeni primeniće se Test sume rangova, što se postiže klikom na liniju sa komandama: Statistical analysis→Nonparametric tests→MannWhitney U test
. 5) U dijalog prozoru koji se otvorio:
o o o
u okviru polja Response Variable (pick one) odabrati ispitivanu varijablu. u okviru polja Grouping Variables with two levels (pick at least one): odabrati varijablu koja definiše grupe. Grupišuća varijabla mora da ima dve kategorije. kliknuti na dugme OK.
. 6) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
EZR automatski pravi i grafikone za ispitivanu varijablu prema grupama.
. Zaključak: Medijana koncentracije fibrinogena kod osoba sa prebivalištem do 200m iznosi 2,6 (g/L) (opseg, 2,1-3,4), dok kod osoba iznad 700m iznosi 2,9 (g/L) (opseg, 2,0-4,8). Osobe sa prebivalištem ispod 200m i iznad 700m nadmorske visine ne razlikuju se statistički značajno prema koncentraciji fibrinogena (W=20,5; p= 0,417).
15 Test ekvivalentnih parova Test ekvivalentnih parova Wilcoxonov test ekvivalentnih parova Wilcoxonov test ekvivalentnih parova je neparametarski metod koji se koristi kao alternativa Studentovom t-testu za dva zavisna uzorka. Primenjuje se kada nisu ispunjeni uslovi za primenu t-testa (odstupanje od normalnosti) ili se radi o ordinalnim ili rangiranim podacima. Koristi se kada podaci potiču od dva vezana (zavisna) uzoraka: (a) u dizajnu pronovljenih merenja (pre-posle) kada su iste jedinice opservirane dva ili više puta, ili (b) u individualno mečovanim uzorcima. Ovim testom testira se nulta hipoteza o tome da li vezani uzorci predstavljaju istu populaciju.
Primer 1 Date su vrednosti Lp(a) pre početka terapije i mesec dana posle tretmana u kojem su pacijenti osim antiaritmika dobijali i antilipemike. Cilj istraživača bio je da ispitaju da li dolazi do promene vrednosti Lp(a) posle davanja antilipemika. Podaci su prikazani u tabeli 1. Za ove podatke nije moguće primeniti t-test jer podaci odstupaju od normalnosti, pa će biti upotrebljen Wilcoxonov test ekvivalentnih parova. U tabeli 1 takođe je prikazan i postupak izračunavanja statistike testa ekvivalentih parova.
. Procedura u EZR-u: 1) Formirati bazu podataka u Excel programu i sačuvati je u svom direktorijumu. Kod formiranja baze podataka za zavisne uzorke svako od merenja unosi se u posebnu kolonu. . 2) Deskripciju podataka za svako merenje posebno, uraditi primenom komandi: Original menu→Statistics→ Summaries→Numerical summaries
. 3) Provera normalnosti raspodele. Vrednosti lipoproteina(a) i pre i posle primenjene terapije su heterogene, CV =56,4% i CV =58,2%, pa se ne mogu primeniti parametarski testovi. pre
posle
Hipoteze: H : Med = Med , H : Med ≠ Med 0
pre
posle
1
pre
posle
(dvosmerna hipoteza).
.
4) Pošto su uzorci zavisni a podaci numerički i heterogeni primeniće se Test ekvivalentnih parova, što se postiže preko sledećih komandi: Statistical analysis→Nonparametric tests→Wilcoxon’s signed rank test
U dijalog prozoru koji se otvorio:
o o o
u okviru polja First variable (pick one) odabrati varijablu za prvo merenje u okviru polja Second variable (pick one): odabrati varijablu za drugo merenje kliknuti na dugme OK
. 5) U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
. Zaključak: Medijana vrednosti Lp(a) pre početka terapije iznosi 17,0 (mg/dL) (opseg, 10,0-50,0), dok mesec dana posle tretmana iznosi 9,0 (mg/dL) (opseg, 6,0-30,0). Vrednosti Lp(a) posle terapije su statistički značajno niže u odnosu na vrednosti pre terapije (V=47,5; p= 0,047).
16 Korelacija KORELACIONA ANALIZA – MERENJE POVEZANOSTI DVE VARIJABLE Povezanost – značenje i smer povezanosti Povezanost (asocijacija, zavisnost) dve varijable podrazumeva da su vrednosti jedne varijable na neki način povezane sa vrednostima druge varijable. Primer 1: Kod obolelih od hronične bubrežne insuficijencije postoji povezanost vrednosti kreatinina i ureje u serumu. Veće vrednosti kreatinina nalaze se kod obolelih koji istovremeno imaju i veće vrednosti ureje u serumu, i obrnuto, manje vrednosti kreatinina nalaze se kod obolelih koji istovremeno imaju i manje vrednosti ureje. Primer 2: Postoji povezanost zasićenja arterijske krvi kiseonikom i koncentracije hemoglobina. Smanjeno zasićenje arterijske krvi kiseonikom, npr. usled dužeg boravka na velikim nadmorskim visinama, povezano je sa većim vrednostima hemoglobina, i obrnuto, veće zasićenje arterijske krvi kiseonikom povezano je sa manjim vrednostima hemoglobina.
Povezanost može imati pozitivan ili negativan smer. U primeru 1, povezanost je pozitvna jer su veće vrednosti jedne varijable povezane sa većim vrednostima druge varijable. U primeru 2, povezanost je negativna, jer su veće vrednosti jedne varijable povezane sa manjim vrednostima druge varijable. Povezanost ne podrazumeva obavezno postojanje kauzalnih odnosa između dve varijable, u smislu da je jedna varijabla uzrok, a druga varijabla posledica. U primeru 1 između ureje i kreatinina ne postoji kauzalan odnos (vrednost jedne materije ne utiču na drugu, i obrnuto), već koncentracije obe ispitivane materije u plazmi zavise od niza drugih varijabli kao što je stopa glomerularne filtracije, unosa proteinske hrane itd. U primeru 2 između dve varijable postoji kauzalan odnos jer smanjenje zasićenja arterijske krvi kiseonikom dovodi do povećanog stvaranja eritropoetina i do povećanja koncentracije hemoglobina.
Otkrivanje povezanosti grafičkim metodom – dijagram rasturanja Dijagram rasturanja je dvodimenzionalan grafikon koji omogućava kvalitativnu ocenu povezanosti dve varijable i smera te povezanosti. Dobija se tako što se, za sve jedinice iz uzorka, vrednosti dve varijable nanose na x i y osu. Svaka jedinica iz uzorka predstavljena je jednom tačkom čiji položaj odgovara preseku parova vrednosti dve varijable. Primer 3: Za sedam ispitanika date su vrednosti ureje i kretinina: Redni broj
Ureja (mmol/L)
Kreatinin (μmol/L)
1
27
280
2
29
320
3
16
210
4
18
175
5
20
270
6
23
250
7
22
260
Za svih sedam ispitanika, vrednosti jedne od ove dve varijable nanosimo na x osu, a vrednosti druge varijable na y osu. Napraviti dijagram rasturanja u kome će se vrednosti ureje naneti na x osi, a vrednosti kreatinina na y osi. .
Procedura u EZR-u: 1) Formirati bazu podataka u Excel programu gde će se u prvom redu uneti nazivi varijabli (urea i kreatinin) a u prvoj koloni redni broj jedinice posmatranja. Svaki sledeći red se odnosi na jedinicu opservacije. . 2) Dijagram rasturanja može se dobiti klikom na liniji sa komandama: Graphs and tables→Scatterplot.
U dijalog prozoru koji se pojavio:
o o o
u okviru polja x-variable (pick one) odabrati varijablu koja ide na x osu. u okviru polja y-variable (pick one) odabrati varijablu koja ide na y osu. u delu Options odčekirati sva polja.
3) U novom prozoru prikazan je dijagram rasturanja varijabli urea i kreatinin.
. Primer 4: Za sedam ispitanika data su zasićenja arterijske krvi kiseonikom i koncentracije hemoglobina u krvi: Redni broj
SaO (%)
Hemoglobin (g/L)
1
90
140
2
75
195
3
80
165
4
95
170
5
83
175
6
70
210
7
92
160
2
Prema proceduri navedenoj iznad, napraviti dijagram rasturanja u kome će se vrednosti SaO naneti na x osu, a vrednosti hemoglobina na y osu. 2
. Primer 5: Za sedam ispitanika date su vrednosti vitamina A i E u serumu: Redni broj
Vitamin C (μmol/L)
Vitamin E (μmol/L)
1
77
28
2
95
24
3
57
16
4
85
18
5
46
26
6
67
26
7
78
22
Prema proceduri navedenoj iznad, napraviti dijagram rasturanja u kome će se vrednosti vitamina C naneti na x osu, a vrednosti vitamina E na y osu.
Poređenje dijagrama rasturanja
Dijagrami rasturanja u primerima 3 do 5 nam otkrivaju: 1. 2. 3.
Pozitivnu povezanost ureje i kreatinina Negativnu povezanost zasićenja arterijske krvi kiseonikom i koncentracije hemoglobina u krvi Odsustva povezanosti vrednosti vitamina C i vitamina E u serumu
Dijagram rasturanja takođe može ukazati na linearnost ili nelinearnost povezanosti dve varijable. Linearna povezanost podrazumeva grupisanje tačaka na dijagramu rasturanja oko prave tačke kao što je to prikazano na grafikonu 1. Nelinearna povezanost podrazumeva odstupanje od linearne povezanosti kao što je to npr. prikazano na grafikonu 2.
Grafikon 1. Primer dijagrama raturanja na kojem je detektovana linearna povezanost dve varijable
Grafikon 2. Primer dijagrama raturanja na kojem je detektovana nelinearna povezanost dve varijable
Koeficijent korelacije Koeficijent korelacije je indeks kojim kvantifikujemo stepen povezanosti dve varijable. Vrednosti koeficijenta korelacije mogu biti u rasponu od -1 do 1. Predznak koeficijenta korelacije pokazuje smer povezanosti: vrednosti od -1 do 0 postoje kod negativne povezanosti, a vrednosti od 0 do 1 kod pozitivne povezanosti. Vrednosti koje su bliske 0 ukazuju na odsustvo povezanosti. Koeficijent korelacije se najčešće izračunava na dva načina. To su:
Pearsonov koeficjent korelacije (r) i
Spearmanov koeficijent korelacije (r ). s
. Pearsonovim koeficijentom korelacije (koeficijent linearne korelacije) merimo linearnu povezanost dve varijable. Varijable označene kao x i y mogu zameniti mesta bez uticaja na konačnu vrednost koeficijenta korelacije. Linearnost povezanosti podrazumeva da će na dijagramu rasturanja tačke težiti ka pravolinijskom položaju. Osim linearnosti odnosa, preduslovi za primenu Pearsonovog koeficijenta korelacije jesu da obe varijable moraju biti numeričke kontinuirane i da imaju normalnu raspodelu. Statistička značajnost koeficijenta korelacije testira se t testom. Nulta hipoteza je da se ρ ne razlikuje od 0 (H :ρ=0), odnosno da je korelacija u populaciji jednaka nuli. Odbacivanjem nulte hipoteze zaključujemo da je korelacija dve varijable statistički značajna. 0
Spearmanov koeficijent korelacije (Spearmanov koeficijent korelacije rangova) Spearmanov koeficijent korelacije je neparametarski metod baziran na rangovima, i primenjuje se kada:
odnos između varijabli nije linearan,
najmanje jedna varijabla nema normalnu raspodelu, ili
najmanje za jednu varijablu podaci su ordinalni ili su dati u vidu rangova.
Statistička značajnost koeficijenta korelacije rangova testira se t testom. Nulta hipotezaje da se ρ ne razlikuje od 0 s
(H :ρ =0). 0
s
Statistička značajnost koeficijenta korelacije i interpretacija njihove vrednosti Statistička značajnost koeficijenta korelacije testira se t testom. Ako koeficijent korelacije nije statistički značajan (p>0.05) može se zaključiti da između varijabli nema povezanosti. Ako je koeficijent korelacije statistički značajan (p≤0.05) može se zaključiti da između varijabli postoji povezanost (zavisnost, asocijacija), i može se interpretirati njegova vrednost u smislu smera i jačine povezanosti varijabli za koje je koeficijent korelacije i izračunat. Jedan od predloženih načina za opisivanje jačine povezanosti dve varijable na osnovu vrednosti koeficijenta korelacije je sledeći:
Primer 6 Primer 6: Za podatke iz primera 3 ispitati povezanost vrednosti ureje i kretinina. .
Rešenje: Dijagram rasturanja je već prikazan u Primeru 3. Izračunavanje koeficijenta korelacije: . Procedura u EZR-u: 1) Proveriti normalnost raspodele obe varijable prema uputstvu navedenom u prethodnim lekcijama.
. 2) Podaci su homogeni, CV =21,1% i CV =18,8%, pa se može primeniti Pearsonov koeficijent linearne korelacije, što se postiže preko sledeće komande: urea
kreatinin
Statistical analysis→Continuous variables→Test for Pearson`s correlation
U dijalog prozoru koji se otvorio:
o o
u okviru polja Variables (pick two) označiti varijable čiju povezanost želimo da ispitamo. Za označavanje više varijabli odjednom držati pritisnut taster Ctrl na tastaturi i istovremeno kliknuti na željene varijable. kliknuti na dugme OK.
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
. Zaključak: Postoji statistički značajna jaka pozitivna povezanost ureje i kreatinina u serumu (r = 0.856; p = 0.014).
Primer 7 Primer 7: Za deset bolesnika dati su skorovi na skali depresivnosti i vrednosti sistolne arterijske tenzije (mmHg). Da li postoji povezanost depresije i sistolne arterijske tenzije? Testirati za nivo značajnosti 0.05. . Redni broj
Skor depresivnosti
Sistolna TA (mmHg)
1
23
139
2
19
109
3
26
113
4
23
128
5
19
124
6
17
105
7
23
116
8
26
135
9
20
120
10
19
124
.
Procedura u EZR-u: 1) Formirati bazu podataka u Excel programu i učitati je u EZR. . 2) Pošto se depresivnost meri Hamiltonovom skalom za ocenu depresivnosti za analizu povezanosti koristiće se Spearmanov koeficijent korelacije ranga, što se postiže pomoću komande: Statistical analysis→Nonparametric tests→Spearman`s rank correlation test
U dijalog prozoru koji se otvorio:
o o o
u okviru polja Variables (pick two) označiti varijable čiju povezanost želimo da ispitamo. Za označavanje više varijabli odjednom držati pritisnut taster Ctrl na tastaturi i istovremeno kliknuti na željene varijable. u okviru polja Method treba da bude čekirano Spearman kliknuti na dugme OK.
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
. Zaključak: Ne postoji statistički značajna povezanost depresije i sistolne arterijske tenzije (r = 0,456; p = 0,185). s
17 Regresija Regresiona analiza Regresionom analizom opisujemo odnos dve ili više varijabli, pri čemu se jedna uzima kao zavisna, a najmanje jedna kao nezavisna varijabla. Ako je u analizu uključena samo jedna nezavisna varijabla, radi se o prostoj regresionoj analizi, a ako su uključene dve ili više nezavisnih varijabli radi se o multiploj regresionoj analizi. Regresiona analiza zasniva se na pretpostavljenom matematičkom modelu odnosa nezavisnih i zavisnih variajbli, koji može biti linearan, eksponencijalan, logaritamski, itd. Cilj je dobijanje regresione jednačine koja:
pokazuje u kakvom su odnosu promene zavisne varijable sa promenama nezavisnih varijabli, i omogućava predikciju, odnosno predviđanje vrednosti zavisne varijable za date vrednosti nezavisne variable.
Predikcija zavisne varijable na osnovu date vrednosti nezavisne varijable ima pravi smisao u uslovima poznavanja njihovog kvalitativnog odnosno kauzalnog odnosa. Pri tome se promene nezavisne varijable uzimaju kao uzrok promena zavisne variajble. Kada kauzalni odnosi nisu poznati, regresioni model može imati eksploratornu ulogu u njihovom otkrivanju dajući kvantitativan opis odnosa ispitivanih varijabli. Ako se za dve varijable pretpostavlja linearan odnos regresiona jednačina bi imala oblik: .
y = a + bx . U navedenoj jednačini:
y je zavisna varijabla,
a je konstanta,
b je koeficijent nagiba, a
x je nezavisna varijabla.
Konstanta a, i koeficijent nagiba b, takođe se nazivaju regresionim koeficijentima. Koeficijent nagiba b daje veličinu porasta zavisne variajble y, za jediničnu promenu nezavisne varijable x. Za grafički prikaz rezultata regresione analize potrebno je prikazati dijagram rasturanja zajedno sa linijom regresije.
Primer 1 Primer 1: Za sedam ispitanika data su zasićenja arterijske krvi kiseonikom i koncentracije hemoglobina u krvi:
a) Ispitati povezanost zasićenja arterijske krvi kiseonikom i koncentracije hemoglobina u krvi, b) izvesti regresioni model (regresionu jednačinu) kojom je opisan odnos ove dve varijable, c) predvideti vrednost hemoglobina za datu vrednost zasićenja arterijske krvi kiseonikom od 75%. U regresionom modelu uzeti zasićenje arterijske krvi kiseonikom kao nezavisnu varijablu (x), a koncentraciju hemoglobina u krvi kao zavisnu varijablu (y). . Procedura u EZR-u: 1) Formirati bazu podataka u Excel programu i učitati je u EZR. . 2) Dijagram rasturanja može se dobiti klikom na liniji sa komandama: Graphs and tables→Scatterplot. Kod regresione analize, u dijagramu rasturanja, nezavisna varijabla se stavlja na x osu a zavisna varijabla na y osu. U našem primeru SaO je naziv nezavisne varijable koju nanosimo na x osu, a Hemoglobin je naziv zavisne varijable koju nanosimo na y osu. 2
. 3) Provera normalnosti raspodele. Proveriti normalnost raspodele obe varijable prema uputstvu navedenom u prethodnim lekcijama.
. 4) Podaci su homogeni, CV =11,1% i CV =13,3%, pa se može primeniti Pearsonov koeficijent linearne korelacije, što se postiže preko sledeće komande: Statistical analysis→Continuous variables→Test for Pearson`s correlation SaO2
Hemoglobin
(a) Postoji statistički značajna jaka negativna povezanost zasićenja arterijske krvi kiseonikom i koncentracije hemoglobina u krvi (r = -0,80; p = 0,032). . 5) Regresiona jednačina: koeficijent nagiba (b) i regresiona konstanta (a) u EZR mogu se dobiti komandom: Statistical analysis→Continuous variables→Linear regression
U dijalog prozoru koji se otvorio:
o o o
u okviru polja Response variable (pick one) označiti zavisnu varijablu. u okviru polja Explanatory variables (pick one or more) označiti nezavisnu varijablu. kliknuti na dugme OK.
U prozoru sa rezultatima pojavili su se rezultati primenjene statističke procedure.
. (b) Regresiona jednačina ima oblik: y= 339,4 – 1,98 x . 6) Dijagrama rasturanja sa regresionom linijom u EZR se dobija klikom na liniji sa komandama: Graphs and tables→Scatterplot U dijalog prozoru koji se pojavio:
u okviru polja x-variable (pick one) odabrati nezavisnu varijablu koja ide na x osu. u okviru polja y-variable (pick one) odabrati zavisnu varijablu koja ide na y osu. u delu Options čekirati polje Least-squares line
. (c) Ako zasićenje arterijske krvi kiseonikom iznosi 75%,očekivana vrednost hemoglobina je: . y = 339,4 – 1,98 * x = 339,4 – 1,98 * 75 = 190,9 g/L. Za izračunavanje regresione jednačine može se koristiti i R Konzola, pri čemu treba ukucati regresionu jednačinu i kliknuti na taster Enter.
18 Pretraživanje bibliografskih baza podataka PubMed je web sajt za pronalaženje medicinskih informacija. To je slobodno dostupna baza podataka iz prirodnih nauka i biomedicine, koja sadrži citate, apstrakte i za izvestan broj članaka pun tekst. Američka Nacionalna biblioteka za medicinu (NLM) pod pokroviteljstvom Nacionalnog instituta zazdravlje (NIH) održava PubMed kao deo Entrez sistema za pretragu informacija. MEDLINE je vodeća svetska bibliografska baza iz oblasti biomedicinskih nauka, koja je besplatno dostupna na internetu i može se pretraživati preko sajta PubMed. Pored bibliografskih podataka o svakom članku iz preko 5.000 časopisa, uspostavljen je i link do punog teksta. Pristup člancima sa punom tekstu jednim delom je besplatan a drugim delom uslovljen je pretplatom na časopis ili bazu koja ga sadrži. Svaki članak se indeksira odrednicama iz MeSH. MeSH je skraćenica engleskog izraza Medical Subject Headings. MeSH je kontrolisani rečnik za indeksiranje knjiga i članaka iz medicine i drugih prirodnih nauka, a može da se koristi i kao tezaurus koji olakšava pretraživanje informacija. Tezaurus predstavlja popis termina, naziva i veza uspostavljenih među njima, a namenjen je indeksiranju, uskladištenju i pronalaženju sadržinskih informacija. MeSH je u stvari rečnik ključnih reči onako kako ih koristi sama bazapodataka. Pristup PubMed-u: PubMed-u se može pristupiti ukucavanjem sledećih web adresa u internet pretraživač: www.pubmed.com www.pubmed.gov www.pubmed.org www.pubmed.net U svim slučajevima otvoriće se zajednička adresa za pristup PubMed-u koju je moguće i direktno ukucati:http://www.ncbi.nlm.nih.gov/pubmed/
PRETRAŽIVANJE Početna stranica PubMed-a Nakon ukucavanja web adrese http://www.ncbi.nlm.nih.gov/pubmed/ pojavljuje se početna stranica PubMed-a.
PRETRAŽIVANJE Pretraživanje započinje ukucavanjem traženog pojma (ili više pojmova) u za to predviđeni okvir na početnoj stranici nakon čega treba kliknuti na dugme Search da bi startovali pretraživanje. Tokom ukucavanja punog naziva pojma koji se pretražuje, aktiviraće se lista ponuđenih pojmova koji odgovaraju ili su slični nazivu pojma koji se pretražuje. Klikom (levim tasterom miša) na željeni pojam automatski se startuje pretraživanje izabranog pojma. Zadani pojam najpre se traži u rečniku MeSH, a ukoliko ih pretraživač tamo ne nađe, tada pretražuje naslove časopisa, odnosno spisak fraza i spisak prezimena autora. Ukoliko se pojam ne može pronaći ni na jednom spisku onda se pretražuje svaka reč u bibliografskom zapisu.
BOOLEOVI OPERATORI Booleova logika simbolički predstavlja vezu među pojmovima ili nizovima. Postoje tri tzv. Booleova operatora: AND, OR i NOT.
Operator AND koisti se kad se kao rezultat žele dobiti zapisi (reference) od kojih svaki u nekom polju sadrži sve tražene pojmove. Primer, ukoliko u okvir za pretraživanje upišemo infarction AND hypertension, kao rezultat ćemo dobiti sve reference u čijem se naslovu, sažetku ili bilo gde drugo u zapisu nalaze i jedna i druga reč. Kad ukucamo dva termina za pretraživanje PubMed automatski pretražuje sa AND operatorom iako nije ukucan i nije prikazan u rečima za pretraživanje. Operator OR koristi se kad želimo kao rezultat pretraživanja dobiti dokumente koji sadrže barem jednu od traženih reči. OR se koristi kad se žele objediniti članci sa sličnom temom, primer myocardial infarction OR heart infarction. Operator NOT koristi se kad se iz pretraživanja želi isključiti neki pojam. Ukoliko tražimo literaturu o trovanju olovom, ali pri tome želimo isključiti svu dečiju populaciju, tada koristimo izraz lead poisoning NOT children.
Booleovi operatori mogu se pisati velikim ili malim slovima (AND, OR, NOT ili and, or, not ).
REZULTATI PRETRAŽIVANJA Rezultati pretraživanja su prikazani u sažetom (engl. Summary) formatu, koji sadrži osnovne bibliografske podatke o radu, tj. podatke o autoru, naslovu rada i časopisu u kojem je rad objavljen.
Kao što se vidi na slici u sažetom formatu prikazana su prezimena i inicijali svih autora koji potpisuju članak. Podaci o časopisu sadrže skraćen naslov časopisa, godinu objavljivanja, volumen, broj sveske, početnu i završnu stranicu članka. Skraćeni prikaz sadrži i link za usmeravanje ka sličnim radovima u bazi (Related citations), ako oni postoje.
DODATNI FILTERI PRETRAŽIVANJA Dodatni filteri pomažu u dodatnom filtriranju pronađenih referenci kako bi sе dobili što precizniji i relevantniji rezultati. Oni usmeravaju pretraživač na željene delove bibliografskog zapisa i omogućavaju još uže pretraživanje zadatih pojmova. Filteri pretraživanja se nalaze sa leve strane stranice kada je već izvršeno osnovno pretraživanje traženog pojma. Prilikom prvog pretraživanja aktivno je samo nekoliko filtera.
Nakon izbora svi aktivni filteri će biti označeni znakom za štikliranje i zadebljanim slovima, npr.
.
Filteri korišćeni prilikom pretraživanja ostaju aktivni sve do trenutka kada se pretraživanje ne sažme drugim filterima pretraživanja ili se aktivnost datih filtera ne isključi. Filteri se deaktiviraju ponovnim klikom na aktivni filter ili klikom na linkClear all kada se deaktiviraju svi filteri. Aktivnost filtera je uvek prikazana, kako na naslovnoj tako i na svim ostalim stranama u toku pretraživanja odmah iznad prikazanih rezultata pretraživanja.
Znak pokazuje koji su filteri aktivirani. U našem primeru pretraživanje je ograničeno na kompletne, besplatno dostupne tekstove članaka, objavljene na engleskom jeziku, poslednjih 5 godina. Upozorenje o aktivnosti filtera nam pokazuje:
da li su svi željeni limitatori aktivni,
da li je neko pre nas aktivirao svoje limitatore, u kom slučaju je potrebno da se oni ponište klikom na link Clear all.
Preporučuje se obavezna provera da li su i koji su limitatori aktivirani pre startovanja pretraživanja.
Klikom na link Show additional filters mogu se izabrati ostali filteri i postaviti na početnu stranicu pretraživanja.
DODATNI FILTERI PRETRAŽIVANJA DOSTUPNOST REFERENCI (Text availability) Daje mogućnost ograničavanja rezultata pretrage samo na reference koje sadrže:
autorske sažetke (Abstracts available) linkove na besplatno dostupne kompletne radove (Free full text available) linkove na kompletne radove (Full text available)
Na ovaj način mogu se pre svega odabrati reference koje sadrže kompletan tekst rada besplatno dostupan.
DATUMI PUBLIKOVANJA (Publication dates) Medline baza sadrži članke objavljene tokom 50 godina, pa je često važno ograničiti vreme objavljivanja literature koju želimo dobiti kao rezultat pretraživanja. Klikom na linkove 5 years ili 10 years bira se prikaz referenci objavljenih poslednjih 5 ili 10 godina. Preko stavke Custom range… može se odrediti precizan vremenski period objavljivanja rada.
VRSTA RADA (Article types) Pretraživanje možemo ograničiti na određenu vrstu rada, npr. klinička ispitivanja, pregledni radovi, meta analize, smernice i dr.
JEZIK NA KOJEM JE OBJAVLJEN RAD (Languages) Omogućava izbor radova napisanih na željenom jeziku.
POL (Sex) Pretraživanje radova koji uključuju istraživanje na ispitanicima određenog pola.
STAROST (Age) Omogućava izbor određenih starosnih grupa uključenih u istraživanje, npr. Adult: 19+ years pretražiće se radovi koji uključuju odrasle ispitanike, sa 19 i više godina.
VRSTE ISPITANIKA (Species) Pretraživanje možemo ograničiti na istraživanja rađena na ljudima ili životinjama.
PRETRAŽIVANJE ODREĐENIH POLJA BIBLIOGRAFSKOG ZAPISA (Search Fields) Omogućava pretragu samo određenih polja bibliografskog zapisa refernce, npr. Author pretražiće se ukucani pojmovi samo unutar polja koje sadrži prezimena autora reference.
PREUZIMANJE AUTORSKIH SAŽETAKA
Rezultati pretraživanja, po zadatim pojmovima i aktiviranim filterima, mogu se preuzeti sa interneta i snimiti na hard disk računara u obliku:
autorskih sažetaka u txt formatu ili kompletnih članaka u pdf formatu.
AUTORSKI SAŽECI Sažetak
(Abstract) predstavlja skraćeni oblik originalnog rada. Cilj pisanja sažetka je da na brz i efikasan način obavesti čitaoca o problemu istraživanja saopštenog u originalnom radu. Ako se rad objavljuje u celini u nekom časopisu obično se sažetak piše ispod naslova, a iznad rada. Najčešće je napisan na jeziku na kome je napisan rad i na engleskom jeziku. Sažetak se takođe piše po utvrđenoj metodologiji, a broj reči se najčešće ograničava od 250300 reči. Sažetak treba da je napisan tako da se lako čita, da je jasan i da se lako shvata. Elementi sažetka su: naslov, ime autora i koautora, naziv ustanove, uvod, cilj rada, materijal i metode, rezultati sa diskusijom i zaključak. Nemaju svi sažeci jasno naznačene delove rada.
PREUZIMANJE AUTORSKIH SAŽETAKA REZULTATA PRETRAŽIVANJA 1. Na stranici gde su prikazani rezultati pretraživanja obeležiti radove čije autorske sažetke želimo da preuzmemo. To se postiže klikom levim tasterom miša na kvadratić kod naslova rada.
2. Nakon obeležavanja željenih referenci kliknuti levim tasterom miša na link Send to: čime se aktivira dijalog prozor za preuzimanje. U delu dijalog prozora Choose Destination izabrati File. U delu padajuće liste Format izabrati Abstract (text) pakliknuti na Create File.
3. Zavisno od internet pretraživača koji se koristiti pojaviće se prozor gde treba odabrati gde hoćemo da sačuvamo fajl. Preporučuje se da naziv fajla budu pojmovi koje smo pretraživali i datum pretraživanja, a da ekstenzija fajla bude txt. Obratiti pažnju da neki pretraživači prilikom preuzimanja sa interneta automatski snimaju fajl na određene lokacije hard diska! Nakon preuzimanja referenci otvoriti skinuti fajl i proveriti da li sadrži sve reference koje smo obeležili.
PREUZIMANJE KOMPLETNIH ČLANAKA U PDF FORMATU PubMed omogućava da se jedan deo radova preuzme u celini. Ti radovi su sačuvani u pdf formatu. PDF je skraćenica od Portable Document Format. Svaki PDF-dokument sadrži kompletan opis dokumenta, uključujući slike, tekst kao i fontove potrebne za prikaz teksta. Ime dokumenta (datoteke) završava se sa ekstenzijom .pdf
1. U filterima smo već označili da se prikažu samo besplatno dostupni kompletni radovi. 2. Klikom levim tasterom miša na naslov željenog rada sa liste otvoriće se nova stranica u internet pretraživaču u kojoj će biti prikazan autorski sažetak. Čitanjem sažetka možemo proceniti da li nam je kompletan tekst rada potreban.
3. Klikom na pravougaonu ikonicu u desnom gornjem uglu prozora otvoriće se novi prozor u internet pretraživaču. To je najčešće internet stranica časopisa u kojoj je prikazan kompletan rad u html formatu. U nekim slučajevima rad se može otvoriti direktno u pdf formatu pa se dalje postupa kao u stavci 5. navedenoj niže u tekstu.
Rad može biti i spreman za skidanje bez prethodnog otvaranja u pdf čitaču kada je potrebno odrediti gde će se sačuvati kao što je navedeno u stavci 6. niže u tekstu.
4. Prvo treba markirati naslov rada pa kliknuti desnim tasterom miša na njega. U dijalog prozoru koji se pojavio levim tasterom kliknuti na Copy čime smo kopirali naslov rada. Ovo je potrebno da bi prilikom preuzimanja rad sačuvali pod originalnim naslovom pošto svaki časopis različito obeležava radove u svojoj bazi.
5. Da bi rad preuzeli u pdf formatu treba potražiti (iznad, desno ili levo od naslova) link koji u svom nazivu sadrži skraćenicu (PDF) i kliknuti na njega. Otvoriće se isti rad ali sada u pdf formatu.
6. Kliknom levim tasterom na ikonicu diskete (koja se zavisno od verzije pdf čitača nalazi u levom gornjem uglu ili dole na sredini) otvara se prozor u kome traba prvo odabrati direktorijum u kome želimo da sačuvamo rad. U prozoru u polju File name: kliknuti desnim tasterom miša pa levim na Paste čime smo ubacili naslov rada kao naziv fajla pa kliknuti na Save.
Obratiti pažnju da je u nazivu rada potrebno izbrisati specijalne znakove ( : ; / + itd. ) da bi rad uopšte mogao da se sačuva na hard disku jer Windows ne dozvoljava specijalne znakove u naslovu pdf dokumenta!
19 Neformalno i formalno odlučivanje u medicini
Lekari svakodnevno donose niz odluka koje se tiču zdravstvene zaštite pacijenata ili populacije. To uglavnom podrazumeva odluke o dijagnozi i odluke o izboru efikasnog tretmana. Svaka odluka ima potencijalni uticaj na sledeću odluku lekara, ili uticaj na odluke drugih lekara u timu koje se odnose na zdravstvenu zaštitu. Pri tome, lekar uvek balansira između potencijalne koristi koju pacijent može imati od neke odluke, i rizika od negativnog ishoda. Takvo odlučivanje, zasnovano na jednostavnom poređenju potrencijalne koristi i potencijalnog rizika, može biti otežano kada su odluke kompleksne a informacije nesigurne, ali i podložno pristrasnoti od strane onog koji odluke donosi (Evidence syntheis). Odluke u medicini donose se na osnovu informacija koje nastaju u susretu zdravstvenog radnika i korisnika zdravstvene zaštite. Određeni stepen neizvesnosti je uvek povezan sa svakom informacijom, npr. informacije uzete od samog pacijenta mogu biti netačne ili neubedljive, prisustvo nekog znaka ne mora da znači i prisustvo bolesti, dijagnostičke procedure mogu dati lažno pozitivne ili lažno negativne rezultate, tok bolesti je često nepredvidiv. Određeni stepen neizvesnoti vezan je i za primenu nekog tretmana, jer se ne može predvideti sa potpunom sigurnošću kakva će biti njegova efikasnost kod određenog pacijenta. Prema tome, praktičan rad lekara je probabilističke, a ne determinističke prirode.
Odluke se često donose u kompleksnim uslovima, kada treba odabrati jednu od alternativnih strategija, od kojih jedna može nuditi potencijalno veće koristi u odnosu na drugu strategiju, ali sa potencijalno većim rizicima, a pri tome postoji izvestan stepen neizvesnosti za ishod svake strategije. Strategije koje lekar praktičar svakodnevno koristi polaze od postojećeg znanja, prethodnog iskustva i intuitivnog rezonovanja. Svaki od ovih izvora informacija može imati određenu ulogu u misaonom procesu lekara prilikom donošenja odluka. To znači da je proces odlučivanja u praksi najčešće neformalan sa karakteristikama da (1) njegovu osnovu čine informacije dobijene u susretu lekara i korsnika zdravstvene zaštite, (2) da zavisi od stručnog znanja i iskustva lekara, i (3) da je odlučivanje učinjeno baš za taj konkretan slučaj rešavanja medicisnkog problema. Za česte i uobičajene probleme, ili kada sve alternative vode sličnim ishodima, odnosno kada jedna strategija uvek nudi potencijalno visoku korist i mali rizik, ovakav neformalan proces odlučivanja je zadovoljavajući i nema potrebe za izvođenjem formalne analize odlučivanja.
U složenim situacijama kada je potrebno uzeti u razmatranje više različitih ishoda, i kada su na raspolaganju informacije za koje je vezan visok stepen neizvesnosti, otežana je primena konvencionalnih neformalnih metoda u donošenju odluke. U takvim komplesnim situacijama formalna analiza odlučivanja može biti koristan alat, zasnovan na probabilističkim metodama, za biranje najpovoljnijeg pravca akcija u zdravstvenoj zaštiti. Formalna analiza odlučivanja je sistematski pristup donošenju odluka u uslovima nesigurnosti, a kriterijumi za njenu primenu su: 1. Da postoji problem u donošenju odluke koja se odnosi na: a.određivanje dijagnoze, zbog nesigurnosti dijagnostičkih testova, ili b.određivanje tretmana, zbog nesigurnosti u vezi ishoda (efikasnosti tretmana) 2. Da postoji problem oko određivanja kompromisa između koristi i štete prilikom odabiranja jedne od dve ili više alternativnih strategija u tretmanu. Na primer, kada jedna strategija daje veću korist u odnosu na druge strategije, ali istovremeno nosi i veći rizik od neželjenih događaja. Ako jedna strategija daje visoku potencijalnu korist i mali rizik od neželjenih događaja, ne postoji potreba za izvođenjem formalne analize odlučivanja.
3. PITANJE Formalni način odlučivanja se koristi kada: Vaš odgovor : ne postoji komprimis između koristi i štete prilikom odabiranja jedne od dve strategija nekog tretmana
Formalna analiza odlučivanja Analiza odlučivanja na novou individualnog pacijenta može biti upotrebljena za donošenje ispravih odluka o dijagnozi i tretmanu, a na grupnom nivou za izradu preporuka i vodiča dobre kliničke prakse i formulisanje zdravstvene politike. Formalna analiza odlučivanja neuzbežno uključuje procenu i izračunavanje verovatnoća koje se odnose na neizvesnost informacija i ishoda, a samim tim i neizvesnost odluka. Formalna analiza odlučivanja za procenu verovatnoća koristi informacije iz epidemioloških i kliničkih studija ili mišljenja eksperata. Valjanost analize odlučivanja zavisi od tačnosti procena verovatnoća i primenljivosti pretpostavki upotrebljenih u izgradnji modela odlučivanja, koje opet zavise od dostupnosti literaturnih podataka.
20 Medicinsko odlučivanje I - dijagnoza U cilju donošenja odluke o dijagnozi, neophodno je preći put od osnovne (pretest) verovatnoće, preko dijagnostičkog ili dijagnostičkih testova, do krajnje (posttest) verovatnoće. Za pretest verovatnoću se najčešće uzima prevalencija datog oboljenja (prevalencija predstavlja proporciju ukupnog broja obolelih od populacije u riziku). Ova početna verovatnoća se menja u zavisnosti od informacija dobijenih iz dijagnostičkih postupaka (anamneza, fizikalni pregled, dijagnostički testovi). Verovatnoća bolesti pre dijagnostičkog postupka naziva se pretest verovatnoća ("a priori verovatnoća”), dok se verovatnoća bolesti nakon izvedenog dijagnostičkog testa naziva posttest verovatnoća ("a posteriori verovatnoća”). Posttest verovatnoća je veća ukoliko je rezultat dijagnostičkog testa pozitivan, a manja ukoliko je rezultat testa bio negativan (Slika 1).
U svrhu odabira adekvatne dijagnostičke procedure za pojedinačnog pacijenta, neophodno je poznavati osobine dijagnostičkih postupaka za specifične situacije. To podrazumeva evaluaciju tačnosti dijagnostičkih procedura, interpretaciju pozitivnih ili negativnih dijagnostičkih rezultata i modelovanje kompleksnog problema specifičnog pacijenta. Za mnoga stanja u medicini postoje dijagnostički testovi koji se smatraju referentnim tj. zlatnim standardom koji predstavlja u datom trenutuku najbolji raspoloživi kriterijum ili standard za postavljanje konačne dijagnoze - pravog stanja zaraze ili bolesti. Primeri nekih oboljenja koje imaju zlatni standard i njihovi zlatni standardi su dati u Tabeli 1.
Takođe postoje oboljenja i stanja koja nemaju zlatni standard, kao što su: tuberkuloza (jedan od mogućih dijagnostičkih testova je zasejavanje Levenštajn podloge), autizam, iritabilni kolon, angina pectoris.
Postoje situacije kada iz opravdanih razloga nije moguće primeniti zlatni standard kao dijagnostičku proceduru (izuzetno rizična procedura, komplikovana za izvođenje, dugo se čeka na rezultat, veoma sofisticirana i nemoguće je izvesti u navedenoj zdravstvenoj ustanovi, skupa). U tim slučajevima se
umesto zlatnog standarda pribegava drugim dijagnostičkim procedurama, čiju je tačnost neophodno oceniti. Ispitivanje tačnosti dijagnostičkih testova izvodi se u dijagnostičkim studijama. U njima su ispitanici svi oni kod kojih postoji sumnja na postojanje oboljenja. Dijagnostički test čiju tačnost ispitujemo naziva se indeksni test. Njegova se tačnost poredi sa zlatnim standardom za isto dato oboljenje. Indeksni test iz dijagnostičke studije u praksi može postati standardan test ako je njegova tačnost zadovoljavajuća za rešavanje konkretnog zdravstvenog problema.
DIJAGNOSTIČKA TABELA Poređenje dijagnostičkih rezultata indeksnog testa i rezultata zlatnog standarda može se predstaviti u vidu dijagnostičke tabele 2x2 (Tabela 2), u kojoj se ispitanici klasifikuju kao pozitivni ili negatvni na osnovu zlatnog standarda i indeksnog testa. Dijagnostička tabela je tabela kontingencije dimezija 2x2 u kojoj su ispitanici klasifikovani dvostruko: ·Ispitanici su klasifikovani u dve kolone prema referentnom stanadardu: prva kolona u kojoj su ispitanici kod kojih je oboljenje zaista prisutno (D+) i druga kolonu u kojoj su ispitanici kod kojih oboljenje ne postoji (D-). ·Na osnovu rezultata indeksnog testa ispitanici su klasifikovani u dva reda: prvi red u kojem su ispitanici kod kojih je test pozitivan (T+) i drugi red u kojem su ispitanici kod kojih je test negativan (T-). Na taj način u četiri ćelije ove tabele predstavljene su četiri moguće kombinacije. U prvom redu (T+), pozitivni rezultati testa mogu biti ili tačno-pozitivni (TP) ili laţno-pozitivni (LP) zavisno od toga da li bolest zaista postoji. U drugom redu (T-), negativni rezultati testa mogu biti lažno-negativni (LN) ili tačno-negativni (TN) u zavisnosti od prisustva ili odsustva bolesti. Zbir TP+LP je ukupan broj pacijenata koji imaju pozitivan test; zbir LN+TN je ukupan broj pacijenata koji imaju negativan rezultat ispitivanja, a N je veličina uzorka u dijagnostičkoj studiji.
Mere tačnosti dijagnostičkog testa su: senzitivnost, specifičnost, sveukupna tačnost i površina ispod krive operativne karakteristike.
Senzitivnost je sposobnost testa da indentifikuje one koji stvarno imaju bolest. Na osnovu dijagnostičke tabele izračunava se kao proporcija tačno pozitivnih od ukupnog broja obolelih:
Senzitivnost se takođe može definisati kao (1) stopa tačno pozitivnih, (2) verovatnoća pozitivnog rezultata testa kod onih koji imaju bolest, ili (3) proporcija obolelih koji su pozitivni na testu. Na osnovu dijagnostičke tabele može se izračunati stopa lažno negativnih pomoću formule:
Zbir senzitivnosti i stope lažno negativnih jednak je jedinici. Ako test ima visoku senzitivnost imaće nisku stopu lažno negativnih. Ako test ima nisku senzitivnost imaće visoku stopu lažno negativnih, odnosno kod velikog broja onih koji su bolesni test će biti negativan.
Specifičnost je sposobnost testa da prepozna stvarno zdrave tj. sposobnost testa da isključi postojanje bolesti, odnosno da rezultat testa bude negativan kod zdravih. Izračunava se kao proporcija tačno negativnih od ukupnog broja zdravih:
Specifičnost se takođe može definisati kao (1) stopa tačno negativnih, (2) verovatnoća negativnog rezultata testa kod onih koji nemaju bolest, ili (3) proporcija zdravih koji su negativni na testu. Na osnovu dijagnostičke tabele može se izračunati stopa lažno pozitivnih pomoću formule:
Zbir specifičnosti i stope lažno pozitivnih jednak je jedinici. Ako test ima visoku specifičnost imaće nisku stopu lažno pozitivnih. Ako test ima nisku specifičnost imaće visoku stopu lažno negativnih, odnosno kod velikog broja onih koji su zdravi test će biti pozitivan. Senzitivnost i specifičnost imaju inverzan odnos što znači da se sa povećanjem jedne mere druga smanjuje i obratno.
Sveukupna tačnost Sveukupna tačnost (dijagnostička tačnost, efikasnost testa) izračunava se kao proporcija tačnih rezultata u dijagnostičkoj tabeli:
1. Pozitivna prediktivna vrednost (PPV) odnosi se na ispitanike kod kojih je test pozitivan. Izračunava se kao proporcija obolelih od ukupnog broja pozitivnih na testu:
2. Negativna prediktivna vrednost (NPV) odnosi se na ispitanike kod kojih je test negativan. Izračunava se kao proporcija zdravih od ukupnog broja negativnih na testu
Prediktivne vrednosti su pod uticajem prevalencije bolesti. Npr. smanjenje prevalencije (retke bolesti) daje povećanje stope lažno pozitivnih i smanjenje pozitivne prediktivne vrednosti.
Primer 1 Cilj istraživanja bio je ocena tačnosti ultrazvučnog pregleda u detekciji povreda medijalnog meniskusa. Artroskopski nalazi uzeti su kao referentni standard. Rezultati istraživanja prikazani su kao ultrazvučni nalaz stanja medijalno meniskusa u odnosu na referentni standard (Tabela 3).
Kao što je prikazano u tabeli 2, ukupno 88 ispitanika je bilo obuhvaćeno istraživanjem. Od tog broja 76 ispitanika je imalo povredu medijalnog meniskusa, a 12 nije. Ultrazvučni nalazom je dobijeno ukupno 76 pozitivnih nalaza: 75 tačno pozitivnih i 1 lažno pozitivan. Dobijeno je 12 negativnih nalaza: 11 tačno negativnih i 1 lažno negativan.
Rešenje primera 1 REŠENJE Kompletna procedura izračunavanja mera tačnosti indeksnog testa (ultrazvuk) može se izvesti u softveru EZR (Easy R). Ukoliko se radi o kvalitativnom testu (ultrazvuk vizuelno govori u prilog promenama na meniskusu), koraci su sledeći: 1.Statistical Analysis, Accuracy of diagnostic test, Accuracy of qualitative test
2. U prozoru koji se otvorio, potrebno je uneti broj tačno pozitivnih, lažno pozitivnih, tačno negativnih i lažno negativnih
3. Rezultati analize tačnosti prikazani su u izlaznom prozoru na sledeći način:
Ocene tačnosti ultrazvučnog pregleda medijalnog meniskusa su: Sn = 0,987 = 99% Sp = 0,917 = 92% Sveukupna tačnost = 0,977 = 98% Vrednosti mera verodostojnosti pozitivnog i negativnog testa (LR + i LR -) iznose: LR+ = 11,84 LR- = 0,014
Prediktivne vrednosti iznose: PPV = 0,987 = 99% NPV = 0.917 = 92%
Vrednosti senzitivnosti i specifičnosti dijagnostičkog testa, kao i druge mere dijagnostičke tačnosti, ne mogu biti upotrebljene samostalno, bez poznavanja pretest verovatnoće bolesti, da bi se odredila (posttest) verovatnoća bolesti kod određenog pacijenta. Poznavanjem senzitivnost i specifičnosti ne može se direktno odgovoriti na važna dijagnostička pitanja: 1. Ako je poznata pretest verovatnoća bolesti, a ispitanik je na testu pozitivan, koja je verovatnoća da on zaista ima bolest? 2. Ako je poznata pretest verovatnoća bolesti, a ispitanik je na testu negativan, koja je verovatnoća da on zaista nema bolest? U dijagnostičkim studijama, osim mera dijagnostičke tačnosti, mogu biti saopštene i prediktivne vednosti. Saopštene (na osnovu istraživanja izračunate) prediktivne vrednosti retko se mogu iskoristiti u praksi, jer prediktivne vrednosti zavise ne samo od dijagnostičke tačnosti testa, već i od prevalencije bolesti u dijagnostičkoj studiji. Prema tome, prediktivne vrednosti iz dijagnostičke studije važe samo ako je i stopa prevalencije u primenjenom slučaju jednaka onoj u dijagnostičkoj studiji, što je naravno retko. Iz tog razloga u praksi bi primena prediktivnih vrednosti, iz dijagnostičkih studija, vodila ka pogrešnoj proceni posttest verovatnoća bolesti. U praksi, publikovane vrednosti senzitivnosti i specifičnosti iz dijagnostičkih studija moraju se kombinovati sa pretest verovatnoćom (a priori verovatnoćom) bolesti u cilju određivanja posttest verovatnoće bolesti (a posteriori verovatnoća). Posttest verovatnoća može se izračunati primenom jednog od sledećih metoda: 1. Pretest šanse bolesti i odnosa verodostojnosti 2. Bayesove formule 3. Dijagnostičke tabele 2x2 4. Stabla odlučivanja 5. Nomogramom Rezultat izračunavanja posttest verovatnoće može se upotrebiti u sledećem dijagnostičkom ciklusu kao pretest verovatnoće.
21 Medicinsko odlučivanje – Izbor terapije Formalna analiza odlučivanja koje se odnosi na izbor terapije podrazumeva razmatranje alternativa, ishoda i nesigurnosti vezanih za terapiju, i obuhvata sledeće korake: 1. Jasno definisanje problema odlučivanja u zdravstvenoj zaštiti 2. Identifikovanje alternativnih strategija i identifikovanje potrebnih informacija o utvrđivanju statusa pacijenta 3. Crtanje stabla odlučivanja (dijagram odlučivanja) što podrazumeva strukturisanje problema u vremenu: a. Redosled odlučivanja koja moraju biti učinjena b. Neizvesnosti na koje se nailazi c. Mogući ishodi 4. Određivanje verovatnoća rezultata dijagnostičkih testova i verovatnoća mogućih ishoda 5. Određivanje ishodne mere (efekat, korisnost, preživljavanje, troškovi) 6. Evaluacija stabla odlučivanja - izračunavanje i poređenje vrednosti svih alternativnih strategija 7. Analiza senzitivnosti
Stablo odlučivanja ili dijagram odlučivanja su grafički predstavljene sve alternative u odlučivanju. Prikazuje skup svih mogućih akcija, listu mogućih ishoda za svaku odluku, verovatnoće ishoda, i vrednosti odluka. Prikaz je strukturisan u hronološkom smislu s leva na desno, uključujući svaku potencijalnu odluku, ishode i vrednost. Na dijagramu su čvorovi odluke (tačke na kojima odluka mora biti doneta) predstavljeni kvadratom, dok su čvorovi šansi (tačke na kojima se mora čekati ishod) predstavljeni krugom. Ishodi (korisnost, terminalni čvorovi) su na krajnjem desnom kraju dijagrama. Stablo odlučivanja sadrži odgovarajuće verovatnoće i vrednosti ishoda. Dijagram bi trebalo da bude kompletan i da prikazuje sve neizvesnoti, odluke i ishode, ali istovremeno i dovoljno jednostavan da omogući njegovo razumevanje. Stablo odlučivanja je model realnosti, i kao takvo ne može obuhvatiti svu kompleksnost određenog kliničkog problema, ali za dobijanje valjanog zaključka dovoljno je da u modelu budu uključeni oni elementi koji omogućavaju procenu odnosa koristi i rizika vezano za neku odluku.
Verovatnoće ishoda Verovatnoće koje se koriste u formalnim analizama odlučivanja potiču iz publikovanih studija. Na primer, iz studija o učestalosti bolesti potiču stope prevalencije koje su ekvivalent empirijskoj verovatnoći, iz dijagnostičkih studija potiču verovatnoće koje se odnose na dijagnostičke testove, kao što su to senzitivnosti i specifičnosti, a iz intervencijskih studija potiču proporcije uspeha neke terapije, što je opet ekvivalent empirijske verovatnoće. Suma verovatnoća svih ishoda na svakom čvoru šansi mora biti jednaka 1. Verovatnoće ishoda mogu biti dobijene pregledom literature - iz sistematskih pregleda ili primarnih studija. Često, takvi podaci mogu imati ograničeni vrednost, jer se odnose na drugu populaciju pacijenata. Ako takvi podaci nedostaju u literaturi, alternativno mogu biti dobijeni analizom administrativnih baza podataka, kao što su to registri bolesti, ili na osnovu mišljenja eksperata u određenoj oblasti, pod uslovom da ovako dobijene ocene, u analizi senzitivnosti, ne utiču na konačne zaključke.
Za svaki ishod mora postojati procena njegove vrednosti, u smislu korisnosti za pacijenta. Korisnost ishoda (ishodne mere) mogu biti definisane na nekoliko načina: 1. Kliničke mere, na primer rizik od smrti, rizik od komplikacija, funkcionalni status, godine očekivanog života 2. Mere kvaliteta života - ove mere su obično iskazane relativno, tako da 0 predstavlja smrt, a jedinica perfektno zdravlje 3. Ekonomski troškovi - troškovi tretmana
Vrednost ishoda može se proceniti različitim načinima, na primer anketom u kojoj pacijenti skoruju određeno zdravstveno stanje, ili na osnovu procene koliko je pacijent spreman da preuzme rizik u zamenu za prelazak iz jednog u drugo zdravstveno stanje, na primer prihvatanje rizičnog operativnog zahvata u zamenu za veću funkcionalnost. Za svaku specifičnu putanju (alternativnu putanju, klinički scenaro, strategija) unutar stabla odlučivanja može se izračunati numerička vrednost očekivane korisnosti (očekivanog ishoda). Očekivani ishodi različitih putanja porede se da bi se postigao najoptimalniji pristup u odlučivanju. Odabrana specifična putanja je optimalna u smislu najboljeg ishoda na osnovu kliničke ocene rezultata lečenja, korisnosti ili troškova. U kompleksnoj analizi odlučivanja cilj je naći odluke koje su jasno bolje od drugih i blokirati grane koje vode ka odlukama koje nisu zadovoljavajuće za pacijenta. Očekivanu korisnost treba interpretirati kao prosek korisnosti koja se može očekivati uvek kada se prilikom odlučivanja odabere upravo ta specifična putanja (klinički scenario) za određenu populaciju pacijenata, iako se mogu očekivati varijacije od pacijenta do pacijenta. Očekivana koristnost je kombinacija verovatnoća, procenjenih na osnovu literaturnih podataka, i vrednosti za pacijenta u formi korisnosti. Ovakva kombinacija u jedinstvu sa izborom pacijenta i ekonomskim razmatranjima omogućava holistički pristup u odlučivanju u medicini. Izračunavanje očekivanih korisnosti je zasnovano na tome da se na svakom čvoru šansi množe verovatnoće i vrednosti ishoda svake grane, a zatim se sabiraju rezultati svih posebnih grana. Ovaj proces naziva se usrednjavanjem. Izračunavanje na stablu odlučivanja izvodi se s desna na levo na svakom čvoru šansi, a rezultat je prezentovan u istim jedinicima kao i korisnost ishoda. Kada određena specifična putanja ne može biti razmatrana iz medicinskih razloga, ona je presečena dvostrukom linijom. Analiza se izvodi tako da se počne od ishoda pa unazad do izračunavanja korisnosti svakog pravca u odlučivanju. Izračunati korisnost svake alternativne odluke. Uporediti korisnost alternativnih odluka. Analiza odlučivanja može pokazati da je korisnost jedne opcije znatno veća od druge. Često analiza odlučivanja pokazuje da dve ili više opcija imaju sličnu korisnost. U toj situaciji neophodno je prikupiti dodatne podatke o verovatnoćama i korisnosti opcija da bi se ukazalo na veću vrednost neke opcije ili to ostaje čvor odluke sa opcijama jednakih koristi. Može biti neophodno da se urade prosečni iznosi. To se dobija množenjem verovatnoće svakog ishoda i porencijalnog rizika tog ishoda i zatim sabiranjem proizvoda da bi se odredila sveukupna korisnost neke odluk
U mnogim situacijama precizne ocene alternativnih dijagnoza, performansi testova ili ishoda nisu dostupne. U tim situacijama uticaj različitih pretpostavljenih vrednosti nepoznatih parametara može bit ispitan putem analize senzitivnosti. Analiza senzitivnosti je zamena verovatnoća u stablu odlučivanja drugim vrednostima iz određenog opsega vrednosti da bi se utvrdilo kakav je uticaj takvih promena na očekivanu korisnost.
Primer kreiranja stabla odlučivanja u tabelarnom kalkulatoru
Biće prikazan metod kreiranja stabla odlučivanja u Excelu primenom "add-in” programa "Simple Decision Tree v1.4”) koji se može preuzeti sa adrese http://sourceforge.net/projects/decisiontree/files/decisiontree/1.4/. Po preuzimanju ovog fajla pokrenuti ga i odabrati opciju Enable macros, posle čega će u grupi "Add-ins” menija biti prisutne komande za kreiranje stabla odlučivanja.
Postupak za kreiranje stabla odlučivanja uz pomoć je sledeći: 1. Stablo odlučivanja kreirati prema uputstvima u prethodnom tekstu, uz jasno definisanje problema, identifikovanje alternativnih strategija i identifikovanje potrebnih informacija o utvrđivanju statusa pacijenta, redosledu odlučivanja koja moraju biti učinjena, neizvesnostima na koje se nailazi, mogućim ishodima, određenim verovatnoćama rezultata dijagnostičkih testova i verovatnoća mogućih ishoda, određenim ishodnim merama (efekat, korisnost, preživljavanje, troškovi), kao što je prikazano na primeru analize odlučivanja u lečenju artritisa kolena (slike 1 - 3).
Slika 1. Stablo odlučivanja u lečenju artritisa kolena
Slika 2. Verovatnoće mogućih ishoda u stablu odlučivanja u lečenju artritisa kolena
Slika 3. Vrednosti ishoda u stablu odlučivanja u lečenju artritisa kolena
Primer kreiranja stabla odlučivanja u tabelarnom kalkulatoru II deo 2. Formirati stablo odlučivanja (prikazanog na slici 1) u Excelu koristeći komande iz grupe "Add-ins”. Čvor odluke dobija se klikom na "Dec”, a čvor šansi klikom na "Unc”. Sve odluke i ishode treba adekvatno imenovati, i odrediti verovatnoće (prikazane na slici 2). Vrednosti ishoda (prikazane na slici 3) uneti pod "Value Measure” i "U-Value”. Pod "u(x)=” odabrati "x”, posle čega se dobija formirano stablo odlučivanja sa vrednostima odluka (Slika 4). Vrednost odluke da se pacijent ne operiše iznosi 6, dok je vrednost odluke da se pacijent operiše veća, i iznosi 8.2.
Slika 4. Stablo odlučivanja u lečenju artritisa kolena, formirano u Excelu, sa prikazanim odlukama i ishodima i verovatnoćama i vrednostima ishoda i odluka
Izbor statističkog testa