Botanik online 1996-2004. Die Seiten werden nicht mehr bearbeitet, sie bleiben als historisches Dokument der botanischen Wissenschaft online erhalten!


Analyse und Auswertung quantitativer Daten


MENDEL, seine Wiederentdecker, und die Genetiker unseres Jahrhunderts erhielten bei ihren Kreuzungsexperimenten niemals exakte Spaltungszahlen, sondern nur angenäherte. Verhältniszahlen wie 3:1 oder 1:1 u.a. sind idealisierte Werte. Die Deutung des Mechanismus, auf dem sie beruhen, ist zwar einleuchtend. Vom Standpunkt eines Mathematikers muß man sich aber Fragen stellen, an denen schließlich auch ein praktisch arbeitender Genetiker nicht vorbeikommt, so z.B.:

Wie groß darf eine Abweichung von einem theoretisch erwarteten Ergebnis sein?
Wie viele Versuchsobjekte müssen jeweils ausgezählt werden, um ein Ergebnis glaubwürdig zu machen?
Kommt man unter Umständen mit einem geringeren Aufwand. zum Ziel?

Antworten hierauf werden durch die Wahrscheinlichkeitslehre oder Statistik gegeben. Man kann daher niemals ein klares Ja oder Nein erwarten, sondern lediglich die Angabe, mit wieviel Prozent Wahrscheinlichkeit ein Ergebnis mit einer Annahme übereinstimmt oder ob zwischen zwei Meßreihen ein signifikanter Unterschied besteht. Als Hilfsmittel benötigt der Genetiker zum einen einige Formeln, in die er seine eigenen Werte einsetzen kann, zum anderen errechnete Standards (dokumentiert in Tabellenwerken), auf die er seine gemessenen Werte beziehen kann. Die entscheidende Voraussetzung für die Nutzung der mathematischen Ansätze liegt in der Wahl der richtigen Formel. Man muß sich im klaren darüber sein, ob die eigenen, experimentell ermittelten Werte den jeweiligen Bedingungen genügen. Sie müssen alle gleiche Dimensionen aufweisen, Absolutwerte dürfen nicht mit relativen Werten (Prozentzahlen) gemischt werden. Weitere Bedingungen beziehungsweise Voraussetzungen, die jeweils bei verschiedenen statistuschen Tests beachtet werden müssen, kann man in zusammenfassenden Texten wie z.B. von ZAR (1984) einsehen.


Einige einfache, statistische Berechnungen

Mittelwert: Der Mittelwert (X) einer Meßreihe errechnet sich wie folgt

X = Summe xi / n

wobei xi die einzelnen Meßwerte, und n die Zahl der Meßwerte repräsentiert.

Streuung, Varianz. Bei graphischer Darstellung von Meßwerten in einem Histogramm kann man meist erkennen, ob sie sich um einen Mittelwert gruppieren oder nicht. Wenn die Meßdaten einer Normalverteilung entstammen, nähert sich diese Verteilung mit zunehmender Zahl n einer Glockenkurve. Nur wenn dies der Fall ist, ist es sinnvoll, sie wie folgt statistisch weiterzubearbeiten.

Die Kurve für eine Normalverteilung kann durch die Lage ihres Maximums (entspricht dem Mittelwert X) und ihre Wendepunkte beschrieben werden. Der Abstand zwischen X und einem der Wendepunkte wird Streuung oder Standardabweichung genannt. Das Quadrat der Streuung ist die Varianz. Eine Meßreihe ist stets eine mehr oder weniger große Stichprobe aus einer denkbaren Grundgesamtheit. Stichproben sind stets mit einem relativen Fehler belastet (Standardfehler oder Standardabweichung des Mittelwerts), dessen Größe von der Zahl der Meßwerte abhängt und der mit 1/ Quadratwurzel n angegeben werden kann.

Die Streuung einer Stichprobe (s = Wurzel aus der quadratischen Abweichung) kann nach der folgenden Formel ermittelt werden:

s = Quadratwurzel [xi - X]2 / n - 1

Die Werte müssen zunächst standardisiert werden, Typ und Grad der Abweichung von einer Normalverteilung (siehe unten) müssen berücksichtigt werden. Die Streuung einer Stichprobe (sigma = Wurzel aus der mittleren quadratischen Abweichung) kann nach der folgenden Formel ermittelt werden:

sigma = Quadratwurzel [xi - X]2 / n (n - 1)

Durch Integration der Gaußschen Normalverteilung ist die durch die Grundlinie und die Kurve im Bereich von ± 1 sigma, 2 sigma, 3 sigma usw. begrenzte Fläche errechenbar:

Daraus ergibt sich, daß 68,3 Prozent aller Werte einer Idealverteilung um 1 sigma um den Mittelwert streuen, 95,4 Prozent um 2 sigma und 99,7 Prozent um 3 sigma. Diese Angaben sind wichtig, denn sie dienen als Standards für die meisten statistischen Aussagen. Für einen Praktiker ist es daher entscheidend, seine eigenen Werte so zu messen und aufzuarbeiten, daß sie zu einer solchen Idealverteilung in Beziehung gesetzt werden können.


Vergleich zweier Meßreihen (t-Test)

Eine immer wiederkehrende Frage lautet, ob zwei (oder mehr) Meßreihen voneinander verschiedene (signifikant verschiedene) Ergebnisse repräsentieren oder ob unterschiedliche Mittelwerte lediglich aufgrund der Zufallstreuung. also aufgrund von "Fehlern" unterschiedliche Werte annehmen. Zur Lösung des Problems müssen die beider Reihen Mittelwerte im Verhältnis zur Standardabweichung (die bei beiden Reihen als gleich vorausgesetzt wird) miteinander verglichen werden. Zum Vergleich zweier Meßreihen verwendet man den t-Test. Das Ziel des Vergleichs liegt in der Überprüfung, wie weit ein Mittelwert Xa von Xb entfernt ist, und als Maß hierfür dient die Größe t

Zu einem errechneten t läßt sich aus Tabellenwerken die Wahrscheinlichkeit P ablesen. Liegt Xb von Xa weiter als Xa ± 3 sigma entfernt, spricht man von signifikantem Unterschied. Die Wahrscheinlichkeit der Übereinstimmung zwischen beiden liegt bei < 0,3 %; die Wahrscheinlichkeit, daß beide voneinander verschiedene Verteilungen repräsentieren, ist damit > 99,7%. Beträgt der Abstand >Xa ± 2 sigma , aber < Xa ± 3 sigma, spricht man von gesichertem Unterschied. Die Wahrscheinlichkeit (P) der Übereinstimmung beträgt etwa < 5%, die der Verschiedenheit damit > 95%. Man spricht bei 3 sigma, resp. 2 sigma auch von einer einprozentigen, bzw. fünfprozentigen Signifikanzgrenze. In der Statistik hat es sich eingebürgert, anstelle von Prozent Bruchteile der Zahl 1 zu verwenden, demnach wären P: 0,01 bzw. 0,05. Bei Besehen der entsprechenden Tabellen wird außerdem zweierlei deutlich:

  1. Je größer der Abstand zwischen zwei Mittelwerten ist, desto weniger Meßpunkte (n) sind zur Absicherung einer Aussage erforderlich.

  2. Bei (erwartetem) geringem Abstand muß die Zahl der Meßwerte drastisch erhöht werden, um signifikante Aussagen zu erhalten.


Test auf Übereinstimmung eines Ergebnisses mit einer Erwartung: chi2-Test

Die von G. MENDELs erhaltenen Spaltungszahlen wurden bereits genannt. Er extrapolierte von diesen Ergebnissen jeweils auf ein 3:1-Verhältnis. Auf die Frage, ob das statthaft ist, gibt der chi2-Test Antwort:

chi2 = Summe d2 / e

d = Abweichung vom erwarteten Ergebnis, e = Erwartung. Je niedriger der chi2 -Wert ist, desto wahrscheinlicher ist es, daß nur der Zufall für eine Abweichung verantwortlich gemacht werden kann. Im chi2-Test können nur absolute Zahlen (also niemals Prozentzahlen) verrechnet werden. Dieser Test ergibt für die von MENDEL gefundenen Zahlenwerte eine außerordentlich hohe Übereinstimmung mit der Erwartung. (Auch die mathematisch errechneten Erwartungswerte können Tabellenwerken entnommen werden.) Wie spätere Untersuchungen zeigten, kommt man sogar mit wesentlich geringerem Zahlenmaterial zu ebenso signifikanten Werten.

Weiterführendes Internet-Angebot: LernSTATS: ein Lernprogramm entwickelt von Mario JACOBS und Rolf SCHULMEISTER - mit Plug-in Roadster online nutzbar

http://www.izhd.uni-hamburg.de/paginae/LernSTATS/index.html


© Peter v. Sengbusch - Impressum