Statistische Auswertung Kein statistisches Verfahren zur Auswertung wissenschaftlicher Daten ist so wichtig wie der Nachweis deteministischer Zusammenhänge. Dies kann mit Hilfe der Korrelationsanalyse mit anschließender Regression durchgeführt werden. Bestimmt man zudem Verteilungsdichtefunktionen, nach denen z.B. wissenschaftliche Messdaten verteilt sind, so sind Signifikanztests (hier nach Kruskal-Wallis) möglich. Korrelation nach Bravais-Pearson Liegen Koppelungen zwischen Merkmalswerten einer Verteilung vor, so interessiert das Maß des Zusammenhangs. Es werden daher Merkmalspaare gebildet, die wie Punkte im Koordinatensystem aufgetragen werden. Unter bestimmten Fragestellungen kann man dann die funktionelle Abhängigkeit diskutieren. Um einen deterministischen Zusammenhang quantitativ untersuchen zu können, d.h. eine Interdependenz zweier Merkmalswerte X und Y festzustellen, berechnet man den Korrelationskoeffizienten nach Bravais-Pearson n
r= (1)
.
( x i − x) i= 1
(y i − y )
n
n
( x i − x) 2 (y i − y ) 2 i= 1 i= 1
wobei xi, yi die Daten des jeweiligen Merkmalswert darstellen, x und y sind die zugehörenden arithmetischen Mittelwerte. Der Nenner besitzt normierenden Charakter, wodurch die der Korrelationskoeffizent r Werte zwischen -1 und 1 annimmt. Somit wird die Unabhängigkeit von jeglichem Maßstab erreicht. Liegt r = 1 bzw. r = -1 vor, so liegt im ersten Fall ein proportionaler deterministischer Zusammenhang vor, entsprechend im zweiten Fall ein antiproportionaler. Für r = 0 sind die Merkmalswerte unkorreliert, es liegt kein Zusammenhang vor.
Regression Liefert die Interdependenzanalyse ein entsprechendes Ergebnis und ist der deterministische Zusammenhang linearer Natur, so kann mit Hilfe der linearen Regression eine sogenannte Ausgleichsgerade der Form (2)
y = a + bx
ermittelt werden, die nach dem Prinzip der kleinsten Fehlerquadrate nach Gauß arbeitet. Dabei wird die Gerade derart bestimmt, daß die quadratischen Abweichungen nach (3) über und unter der Funktion ein Minimum annehmen. n
(3)
[y i − (a + bx i )] 2 i= 1
Ist der Zusammenhang nichtlinear, so kann durch Logarithmieren des entsprechenden Gleichungsansatzes linearisiert werden. Die beiden Parameter a und b lassen sich ermitteln zu:
(4)
a=
1 n
n
yi −
i= 1
1 n
n
b xi = y − b x i= 1
Und n
b=
(x i − x )(y i − y ) i= 1
(5)
n
(x i − x ) 2 i= 1
Weitere Ausführungen zur Regression sind /1/ Seite 42ff und /2/ Seite 170ff zu entnehmen. Varianzanalyse Wird
angenommen,
daß
die
Parameter
der
Verteilung
einer
durch
die
Stichprobenentnahme untersuchten Grundgesamtheit nicht bekannt seien, so kommt der H-Test nach Kruskal-Wallis zur Anwendung. Dieser nämlich führt eine
einfaktorielle Varianzanalyse durch, um signifikante Unterschiede zwischen den Merkmalswerten der Stichprobe zu ermitteln. Wird angenommen, daß die Normalverteilung nicht vorliegt, so kommen wir zur Fragestellung: Entstammen die Stichproben des Umfangs k aus zwei verschiedenen Grundgesamtheiten? Die ordinalskalierten und unabhängigen Stichproben entsprechen stetigen Verteilungen gleicher Form. Zunächst müssen die Meßdaten rankskaliert der Form rij werden. Danach werden die Rangsummen der i-ten Faktorstufe gebildet nj
R ij = r ij j= 1
(6)
und die Anzahl alle Meßwerte k
N = ni
(7)
i= 1
Die Probe kann durchgeführt werden mit
R i =
(8)
N(N+ 1 ) 2
Mit der Testfunktion wird der Wert Hvers ermittelt:
H Vers =
(9)
12k N 2 ( N+ 1)
k R2 i ni
i= 1
− 3 (N + 1 )
Sind Meßdaten/Merkmalswerte identisch (Bindungen oder Ties), so werden Ränge mehrfach vergeben. Ist dies bei mehr als 25% der Fall, so muß eine Korrektur vorgenommen werden.
(10)
H Vers ( korr) = g
(11)
tv > v= 1
N 4
H Vers K
(12)
, die Werte tv stehen für die Häufigkeiten, mit der Ränge vergeben
wurden
(12)
K= 1−
g 1 N 3 − N v= 1
( t 3v − t v )
Danach wird Htab (a) abgelesen (a ist das gewählte Signifikanzniveau) wie folgt: - falls k 4 und alle n i 5, so wird Htab (a) der c2-Tabelle entnommen mit Htab (a) = c2Tab Freiheitsgrade FG=k -1; a - falls k = 3und n i 5 Zum Schluß müssen die Werte HVers und HTab verglichen werden. Gilt H Vers H Tab , so bedeutet dies, daß die Stichproben der gleichen Grundgesamtheit entsprechen Hypothese H0, im anderen Fall entspringen beide unterschiedlichen Grundgesamtheiten. Vorgehensweise: Die am Anfang dieses Abschnittes beschriebenen Untersuchungen wurden mit Hilfe der Tabellenkalkulation Microsoft Excel durchgeführt. Dabei wirkte das Programm nur unterstützend, das gilt ebenso für die erstellten Diagramme. Durchführung der Korrelationsrechnung: Mit Hilfe der Tabellenkalkulation MS-Excel und Gleichung (1) wurden die in den ersten 52 Tagen aufgenommenen prozentual bezogenen Werte für Spielverhalten, Nahrungsaufnahme, Spiel und Ruhezeiten auf Korrelation untersucht. Es gibt 3! = 3*2*1 = 6 Möglichkeiten, die Merkmalswerte auf Korrelation zu untersuchen. Es sollen hier aber nicht alle 6 Möglichkeiten untersucht werden. Die Tabelle gibt Auskunft über untersuchten
Darstellung und Beschreibung der Korrelationsrechnung: Merkmalswert: Ruhe und Nahrungsaufnahme Zunächst könnte man davon ausgehen, daß ein Tier, das sich entsprechend oft bewegt proportional dazu viel Ruhe braucht. Daher also wurde auf Korrelation zwischen den Merkmalswerten Bewegung und Ruhe untersucht für die 3 Beagle. Hund 2 und 3 zeigen ein schwaches positives Korrelieren, was bedeutet, daß der Zusammenhang proportional scheint. Hund 1 zeigt dagegen ein starkes antiproportionales Korrelieren (Wert r liegt nah bei -1). Also zeigt Hund 1 ein stark anderes Verhalten als Hund 2 und 3. Merkmalswert Ruhe und Bewegung Werden dagegen die beiden Eigenschaften Ruhe und Bewegung untersucht, so zeigen alle drei Hunde ein starkes negatives Korrelieren, wobei Hund 1 wieder. Man kann bei Hund 3 auch noch immer von einem starken Korrelieren sprechen bei einem Wert von -0,61863. Man kann also sagen, daß die Hunde sich tatsächlich nicht im gleichen Maße bewegen wie sie sich ausruhen. Die Ruhephasen steigen, während der Bewegungsdrang abnimmt. Merkmalswert Ruhe und Spiel Die Korrelation ist bei Tier 1 und 2 schwach, bei Tier 3 außerordentlich stark. Obwohl in den ersten 8 Tagen bei keinem der 3 Tiere Spielaktivität zu beobachten war, liegt sie bei Hund 3 bei ca. -0,7. Die Tabelle zeigt die Ergebnisse der Korrelationsrechnung im Überblick: Hund i
RuheNahrungsaufnahme
Ruhe-Bewegung
Ruhe-Spiel
1
-0,92278264
-0,94932811
-0,19940551
2
0,36921471
-07047556
-0,25148507
3
0,31511311
-0,61863765
-0,70308035
Regression: Die Regression wird aufgrund der Korrelationskoeffizienten linear durchgeführt mit Gleichung (2), die Koeffizienten in der Geradengleichung werden mit Gleichung (4) und (5) ermittelt. Signifikanztest nach Kruskall-Wallis Der Signifikanztest wird ebenso mit Unterstützung der Tabellenkalkulation durchgeführt. Zunächst wird ein Merkmalswert gesondert nach Rassenzugehörigkeit klassifiziert. Die Rangzuteilung wird vorgenommen und schließlich mit Hilfe der Gleichungen (6) bis (12) durchgeführt. Für das Merkmal Ruheverhalten ergibt sich der Wert HVers mit 1,54479479. Wird ein Signifikanzniveau von 5% vorausgesetzt, so sagt Htab = 7,81 aus der χ2-Verteilung mit 3 Freiheitsgeraden (siehe /2/ Seite 284). Somit ist erwiesen, daß alle 4 Rassen aus einer Grundgesamtheit stammen bezüglich des Merkmals Ruheverhalten. Tabelle 2 gibt Auskunft über die weiteren Merkmalswerte. Merkmalswert HVers
Ruhe 1,54479479
S 8,2488E-7
B
Quellen /1/
Bamberg Baur Statistik
R.Oldenbourg Verlag Münschen Wien 1980 ISBN 3-486-23581-8
/2/
Köhler, Schachtel,
Biostatistik 3.Auflage Springer
Voleske
ISBN 3-540-42947-6