Glaub`keiner Statistik, die du nicht selbst gefälscht hast...

Dieses Thema im Forum "Geschichte der Naturwissenschaften" wurde erstellt von balticbirdy, 16. Juli 2008.

  1. balticbirdy

    balticbirdy Ehemaliges Mitglied

    Wir hatten das schon öfter. Es werden "wissenschaftliche Ergebnisse" präsentiert, die absolut unseriös sind.
    Ein krasses Beispiel hier:
    scinexx | UV-Reflektion verrät Kuckuckseier: Vögel erkennen ihre eigenen Eier an der UV-Signatur - Kuckuck, Vögel, Eier, Brut, Schmarotzer, UV-Licht, Wellen, Eltern, Wirt
    Danach sind in der einen Gruppe A (Ber WB) von 28 Eiern 17 bebrütet worden, in der Kontrollgruppe B (Ber VP) von 16 Eiern 11 bebrütet. Ein einfacher Vierfeldertest beweist - Irrtumswahrscheinlichkeit ca. 80 %, ab in die Tonne damit.
    Ich bereite eine . zip für euch vor.
     
    Zuletzt bearbeitet: 16. Juli 2008
  2. balticbirdy

    balticbirdy Ehemaliges Mitglied

    So jetzt müsste es hinhauen - der Vierfeldertest. Man kann ihn für viele Dinge verwenden. Nur die Werte in den grünen Zellen sind veränderbar.
    Testet mal: Gruppe A 128 Nichtraucher, davon sterben 22 an Krebs,
    Gruppe B 98 Raucher, davon 35 Krebstote. Den Rest macht das Programm.
    0,0149 = 1,5 % Irrtumswahrscheinlichkeit, Unterschied also statistisch signifikant.
    Viel Spaß beim Probieren und Anwenden.
     

    Anhänge:

  3. deSilva

    deSilva Neues Mitglied

    Da hat BB ja ein "Dickes Ding" gefunden - eigentlich kaum zu glauben. Natürlich ist "Statistik" nicht jederman's Sache, aber fast immer reicht auch der gesunde Menschenverstand. Ein Trick, den alle Mathematiker lernen, heißt: Reduzieren auf Extremfälle (ganz viel/ganz wenig); wenn es dann immer noch plausibel ist, dann kann was dran sein.

    Ein Problem ist die Stichprobengröße; man arbeitet heutzutage häufig mit N = ca. 20; es wird aber sofort klar, dass dadurch die AUFLÖSUNG der Messung recht gering ist: Ein Merkmal kommt eben 9 oder 10 mal vor, dazwischen gibt es nichts. Das heißt zwischen 45% und 50% kann überhaupt nicht unterschieden werden. Dass man sich um eins verzählt ist ja nun üblich, und zufällige Effekte - um die geht es immer! - können auch +/- 2 ausmachen.... Oder mehr...
    Wenn ein Merkmal in einer Grundgesamtheit zu genau 50% vorhanden ist, dann wird eben einmal 9/20 =45% und das andere mal 11/20 = 55% gemessen. Es sollte jedem klar sein, dass hieraus keinerlei Schlüsse über eine ABWEICHUNG gezogen werden können. 10% Unterschied kling natürlich beträchtlich, aber es ist offensichtlich total irrelevant.

    Zur Bestimmung solcher Sachverhalte dienen z.B. die von BalticBirdy angesprochenen Methoden.

    Je kleiner ein Unterschied ist, um so größer muss die (zufällige) Stichprobe sein.

    Eine Stichprobe vom Umfang zwei ist ja durchaus kein Verbrechen, aber man kann hieraus eben keine Unterschiede auf einem allgemein akzeptierten Signifikanzniveau ablesen.

    Ein Beispiel:
    Wir stellen das Geschlecht von jeweils zwei Personen in Hamburg und in Berlin fest: In Hamburg 2 Frauen, in Berlin 2 Männer. Was nun? Gibt es in Hamburg nur Frauen, in Berlin nur Männer? Oder in Berlin mehr Männer als in Hamburg? Beides durchaus sinnvolle Hypothesen nach dieser Untersuchung! Aber leider nichts wert :)
     
    Zuletzt bearbeitet: 17. Juli 2008
  4. balticbirdy

    balticbirdy Ehemaliges Mitglied

    @deSilva als unser Hofmathematiker hat mich auf einen Lapsus in der komprimierten Datei hingewiesen (die Schriftfarbe ist für dich). :friends:
    In die erste grüne Spalte gehört nicht die Gesamtheit, sondern der "andere Sachverhalt".
    Man soll sowas lieber nicht abends spontan ohne Nachschlagen kreieren.

    Also nochmal eine bereinigte Version. Das Tabellenblatt ist gesperrt bis auf die 4 grünen Felder. Notfalls diese entsperren, wenn ihr mit einer anderen Excel-Version arbeitet.

    Das Ergebnis der oben verlinkten Meldung wird dadurch nicht glaubwürdiger, wie man sieht.
     

    Anhänge:

    Zuletzt bearbeitet: 17. Juli 2008
  5. jschmidt

    jschmidt Aktives Mitglied

    Das umso mehr, als ja das zitierte Wissensmagazin SCINEXX unter maßgeblicher Mitwirkung des Wissenschafts-Großverlags Springer publiziert wird. Ob jetzt sozusagen alle Dämme brechen - science ex?:)
     
  6. Hurvinek

    Hurvinek Gast

    Entscheidend beim Vierfelder-Test (es geht hier allein um die Signifikanz) ist, dass die Prüfsumme größer als 3,841 sein muss.
    Auch in den Vorgabefelder muss mindestens ein Wert ab 5 eingetragen sein. Geht es unter diesen Wert 5 wäre dieser Test angebracht.
     
  7. deSilva

    deSilva Neues Mitglied

    Das ist richtig, die Chi-Quadrat Verteilung ist nur approximativ richtig; allerdings war die exakte Berechnung der Verteilung, wie im von Hurvinek verwiesenen Freeman-Halton Verfahren früher sehr zeitaufwändig...
    Hier aber auch dafür ein Excel-Rechenblatt: http://www.reiter1.com/Glossar/Freeman-Halton.xls

    Sie wäre natürlich für das von mir genannte Beispiel anzuwenden:
    0 2
    2 0
    Das Ergebnis: mit 16,6% Wahrscheinlichkeit irrt man,wenn man aus dem Befund: 2 Frauen in Hamburg, 2 Männer aus Berlin auf einen Unterschied der Bevölkerung in Berlin und Hamburg schließen will
     

Diese Seite empfehlen