Glauben Sie keiner Statistik

BLOG: Quantenwelt

Gedanken eines Experimentalphysikers
Quantenwelt

Wo wir gerade beim Glauben sind: Im aktuellen Septemberheft von Spekrum der Wissenschaft gibt es einen interessanten Artikel zum Fluch des P-Wertes von Regina Nuzzo. Wir hatten auf SciLogs im Januar 2013 ein Bloggewitter zum Thema Nicht reproduzierbare Wissenschaft. Ein Mechanismus, wie es passieren kann, das nicht reproduzierbare Studien zur Veröffentlichung kommen, ist das allzu naive Vertrauen in den p-Wert.

Significant xkcd
xkcd Comic zum Thema Signifikanz
lizenziert unter CC BY-NC 2.5

Der p-Wert gibt an, wie wahrscheinlich es ist, dass eine gemessene Wahrscheinlichkeits-Verteilung rein zufällig aufgetreten ist, obwohl es gar keinen Effekt gibt. Wenn ich beispielsweise eine Korrelation zwischen der Einnahme von grünen Jellybeans und das Auftreten von Akne messe und der p-Wert kleiner als 0,05 ist, dann ist die Wahrscheinlichkeit, dass dieses Ergebnis zufällig ist, nur 5%. Ich habe also mit 95% Wahrscheinlichkeit etwas interessantes gefunden. Das ist doch veröffentlichungswürdig, oder?

Nicht, wenn das Ergebnis, wie im Comic auf der linken Seite dargestellt, durch Datenbaggern entstanden ist. Suchen wir nämlich zwanzig Mal nach einem Ereignis, das mit 5% Wahrscheinlichkeit zufällig auftritt, so liegt die Wahrscheinlichkeit, dass wir mindestens ein falsch-positives Ergebnis finden bei etwa 64%1.

Überhaupt ist es schon problematisch, nach einem statistischen Effekt zu suchen, ohne überhaupt eine Idee von Wirkmechanismen zu haben. Warum sollte die Farbe von Jellybeans entscheidend sein? Warum gerade grün? Wenn wir das nicht wissen, können uns statistische Tests leicht in die Irre führen.

5%, 1%, 0,1% Wahrscheilchkeit sich zu irren sind geringe  Wahrscheinlichkeiten, aber sie sind real. Deshalb sind Einzelstudien mit Vorsicht zu genießen. Das bedeutet natürlich nicht, dass Journalisten aufhören sollten über einzelne Studien zu berichten, sie müssen es nur mit Sorgfalt tun.2

Anmerkungen:
1. 1-0.95^20=64% Naiv könnte man glauben, 20 mal 5% seien einfach 100%, so funktioniert Wahrscheinlichkeit aber nicht. Man würfelt ja auch bei sechs Würfen nicht garantiert eine Sechs.
2. Der Brainlogger Christian Hoppe hat zu diesem Problem ausführlicher Berichtet.
Avatar-Foto

Veröffentlicht von

www.quantenwelt.de/

Joachim Schulz ist Gruppenleiter für Probenumgebung an der European XFEL GmbH in Schenefeld bei Hamburg. Seine wissenschaftliche Laufbahn begann in der Quantenoptik, in der er die Wechselwirkung einzelner Atome mit Laserfeldern untersucht hat. Sie führte ihn unter anderem zur Atomphysik mit Synchrotronstrahlung und Clusterphysik mit Freie-Elektronen Lasern. Vier Jahre hat er am Centre for Free-Electron Laser Science (CFEL) in Hamburg Experimente zur kohärenten Röntgenbeugung an Biomolekülen geplant, aufgebaut und durchgeführt. In seiner Freizeit schreibt er zum Beispiel hier im Blog oder an seiner Homepage "Joachims Quantenwelt".

21 Kommentare

  1. “Der p-Wert gibt an, wie wahrscheinlich es ist, dass eine gemessene Wahrscheinlichkeits-Verteilung rein zufällig aufgetreten ist, obwohl es gar keinen Effekt gibt.”

    Korrekt(er) muss es m.E. heißen: Der P-Wert gibt an, mit welcher Wahrscheinlichkeit eine empirisch ermittelte Verteilung (sprich, die gefundenen Daten) unter der Annahme einer bestimmten Wahrscheinlichkeitsverteilung der entsprechenden Zufallsvariable (sprich, der Teststatistik) zu erwarten ist.

    Wenn ich annehme, dass Jungen und Mädchen im 3. Schuljahr gleiche Schuhgrößen haben, dann ist es wenig wahrscheinlich, dass ich bei einfachem Ziehen einer Stichprobe der Größe N aus dieser Population einen Mittelwertunterschied der Schuhgrößen von >X finde. X lässt sich nun inferenzstatistisch berechnen.

    Das Rationale ist einfach und überzeugend: Unter meiner Vorannahme seltene Ereignis macht mich stutzig, ist signifikant – gibt es da vielleicht doch schon Unterschiede? Dies ist das statistische Verfahren zum Testen von Hypothesen, das R. A. Fisher eingeführt hat. Er hatte es nie als Alternative, sondern immer als Ergänzung zur konzeptuellen Prüfung von Hypothesen verstanden. Fisher hatte bereits die 5%-Grenze für “Signifikanz” vorgeschlagen.

    Ein signifikantes Ergebnis ist – selbstverständlich! – möglich (es ist ja aufgetreten!), und es ist auch unter der in Frage stehenden Hypothese möglich, aber eben unwahrscheinlich; d.h. die Hypothese kann wahr sein, auch wenn dieses unwahrscheinliche Ergebnis aufgetreten ist. Würde man nun die Hypothese ablehne, hätte man sich falsch entschieden (Alpha-Fehler). Wenn ich *eine* Hypothese mit *mehreren* statistischen Tests prüfe, dann kumulieren sich diese Alpha-Fehler, wie von Joachim Schulz angegeben. “Data mining” bzw. multiples (exploratives) Testen ist der Standard in der gesamten biomedizinischen Forschung – man produziert so allerdings nur Hypothesen, deren eigentliche Prüfung in einer *neuen* unabhängigen Stichrprobe (konfirmatorisch) erfolgen müsste. Es liegt somit fast immer ein Missbrauch der Inferenzstatistik vor. Diesem Übel könnte man nur beikommen, wenn der gesamte statistische Auswerteplan samt Hypothesen *vor* der Studiendurchführung festgelegt und irgendwo dokumentiert werden muss.

    Das moderne Hypothesentesten nach Pearson-Neyman geht weit über dieses Rationale hinaus, weil es eine Alternativhypothese H1 in den Raum stellt – in unserem Beispiel: dass es eben doch einen bestimmten Unterschied zwischen den Schuhgrößen weiblicher und männlicher Drittklässler gibt. (In klinischen Studien trägt die H1 meist die Annahme, dass ein Verum besser wirkt als ein Placebo.) Erst in diesem Rationale stellen sich Fragen nach der Power (letztlich: der sinnvollen Stichprobengröße) und der Reliabilität gefundener signifikanter Effekte (die bei zu geringer Power vermutlich sehr niedrig ist). Ausführliches dazu hatte ich einmal hier gebloggt.

  2. Auf einen Blick

    MISSVERSTANDENE SIGNIFIKANZ

    1 Der p-Wert bezeichnet die Wahrscheinlichkeit dafür, dass ein statistisch gefundenes Ergebnis auch ohne den vermuteten Effekt durch Zufall zu Stande gekommen ist.

    2 Er sagt nichts über die Größe des in Frage stehenden Effekts aus und ist auch kein Maß für die Wahrscheinlichkeit eines falsch-positiven Befunds.

    3 Systematisches, nicht von Hypothesen geleitetes Suchen nach Ergebnissen mit niedrigem p-Wert (»P-Hacking«) führt zu einer Häufung nicht reproduzierbarer Ergebnisse.

    John Ioannidis hat ausführlich dazu geschrieben: Why Most Published Research Findings Are False http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1182327/

    • “1 Der p-Wert bezeichnet die Wahrscheinlichkeit dafür, dass ein statistisch gefundenes Ergebnis auch ohne den vermuteten Effekt durch Zufall zu Stande gekommen ist.”

      Das Ergebnis wird nicht “statistisch gefunden”, sondern als sogenannte Teststatistik (z.B. Student’s t-Wert) aus empirisch, das heißt in einer aus der betreffenden Population gezogenen Zufallsstichprobe ermittelten Daten berechnet. Die Wahrscheinlichkeitsverteilung dieser Teststatistik ist unter Annahme der H0 bekannt, sodass die Wahrscheinlichkeit des ermittelten Ergebnisses berechnet werden kann.

      Alle empirischen Ergebnisse entstehen durch Zufall, aber einige sind unter der Annahme der H0 unwahrscheinlich (definiert als p<0.05), sprich: signifikant.

      “Er (der p-Wert, C.H.) sagt nichts über die Größe des in Frage stehenden Effekts aus”

      Wenn die H0 das Fehlen eines Effekts vermutet, dann wird ein unter dieser Annahme extrem unwahrscheinliches (“hochsignifikantes”) empirisches Ergebnis in der Regel auch auf einen stärkeren Effekt im Sinne der H1 verweisen. Da aber auch die Stichprobengröße bzw. die statistische Power über den P-Wert mitbestimmen, ist der P-Wert in der Tat kein direktes Maß der Effektstärke (sollte aber für zukünftige Meta-Studien dennoch immer genau mitgeteilt werden!). Bewegt man sich aber in einem Feld, bei dem die Stichproben meist relativ gleich groß sind (z.B. klinische Patientenstudien mit ca. 100-200 Patienten), dann sagt der P-Wert eben doch etwas über die Effektstärken aus.

      “auch kein Maß für die Wahrscheinlichkeit eines falsch-positiven Befunds.”

      Wenn ich bei einem signifikanten Testergebnis die H0 verwerfe und die H1 akzeptiere (also eine Entscheidung treffe), sagt mir das Signifikanzniveau Alpha (meist 0.05), mit welcher Wahrscheinlichkeit ich eine falsch positive Entscheidung für einen Effekt treffen werde. Ein gravierender Denkfehler wäre nun zu glauben, dass mir dann (1 – alpha) die Wahrscheinlichkeit angibt, mit der ein signifikantes Ergebnis mich zutreffend auf einen vorhandenen Effekt verweist, denn diese Wahrscheinlichkeit ist nicht p (nichtsignifikanter Test gegeben kein Effekt/H0) = 0.95 und auch nicht p (signifikanter Test gegeben Effekt/H1) = statistische Power, sondern p (Effekt/H1 gegeben signifikanter Test). In die Berechnung dieser bedingten Wahrscheinlichkeit – sprich: der Zuverlässigkeit signifikanter Forschungsergebnisse – fließen Power und die Wahrscheinlichkeit von wahren Effekten gegeben alle statistischen Tests in einem Forschungsfeld ein (Bayes-Theorem). Wenn die Power zu niedrig (die Stichprobe also zu klein) gewählt war, ist die Zuverlässigkeit signifikanter Forschungsergebnisse geringer und teilweise bei unter 0.50 – anders als bei hinreichend gepowerten Studien. Diese Überlegung begründete den Titel “Why MOST published Research findings …” in der zitierten Ioannidis-Arbeit.

      “Systematisches, nicht von Hypothesen geleitetes Suchen nach Ergebnissen mit niedrigem p-Wert (»P-Hacking«) führt zu einer Häufung nicht reproduzierbarer Ergebnisse.”

      Multiples Testen führt unabhängig von den erzielten P-Werten zu einer Kumulation des Alpha-Fehlers, sprich: zu mehr falschen Entscheidungen zugunsten der H1 (Effekt) als durch das ursprünglich gewählte Signifikanzniveau akzeptiert.

      “John Ioannidis hat ausführlich dazu geschrieben: Why Most Published Research Findings Are False http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1182327/

      Am Ansatz dieser Arbeitsgruppe kann man eine problematische Vermischung von Bayes-Statistik und statistischem Hypothesentesten bemängeln. Die Schlussfolgerungen der Autoren sind nur unter bestimmten Voraussetzungen gültig, die zwar nicht unplausibel sind, aber prinzipiell nicht bewiesen werden können. Hierzu hatte ich seinerzeit bei Nat Rev Neurosci kommentiert.

      • > Am Ansatz dieser Arbeitsgruppe kann man eine problematische Vermischung von Bayes-Statistik und statistischem Hypothesentesten bemängeln. Die Schlussfolgerungen der Autoren sind nur unter bestimmten Voraussetzungen gültig, die zwar nicht unplausibel sind, aber prinzipiell nicht bewiesen werden können.

        Dieser Punkt mag zu bemängeln sein. Doch es braucht keinen Beweis. Plausibilität ist tatsächlich ausreichend, tiefer zu bohren. Im Artikel von Spekrum der Wissenschaft formuliert die Autorin:

        John Ioannidis, Epidemiologe an der Stanford University, hatte 2005 den Stein ins Rollen gebracht, indem er behauptete, die Mehrzahl der veröffentlichten Ergebnisse sei falsch, und Gründe dafür vorlegte. Seitdem ist in zahlreichen bedeutenden Fällen eine Replikation gescheitert, was die Wissenschaftler zum Überdenken ihrer Verfahren nötigte.

        Immerhin würden Wissenschaftler inzwischen die Existenz eines Problems einräumen, sagt Goodman. »Dass so viele Studienergebnisse schlichtweg falsch sind, hat als Weckruf gewirkt.« Forschern wie John Ioannidis sei es zu verdanken, dass die Sorgen der Statistiker nicht mehr nur als reine Theorie wahrgenommen werden. »Unsere aktuellen Probleme sind genau das, was die Statistiker vorhergesagt haben«, sagt Goodman, »nur eine brauchbare Lösung haben wir noch nicht.«

    • Der Vergleich von Klima und echten Zufallsereignissen, wie etwa Würfelzahlen, erscheint mir nicht unkritisch. Beim Klima haben wir es mit vergangenen Ereignissen zu tun. Keinesfalls besteht Unabhängigkeit zwischen einzelnen Perioden (z.B. Dekaden), anders als beim Würfel, der kein Gedächtnis besitzt.

      Was Sie mit Statistik machen ist doch: Sie raten auf Basis von Projektionen, die Sie mit alten Daten gewinnen, wie es weiter geht mit unserem Klima. Und dann müssen sie warten, und zwar ziemlich lange warten. Und dann kommt es empirisch immer anders, als Sie gedacht haben. Und nun müssen Sie irgendwie zeigen, dass die eingetretenen Abweichungen vom Modell “nicht-signifikant” sind. Wir haben es hier also mit Goodness-of-fit-Tests zu tun, die z.B. hinsichtlich Signifikanzniveau und Power völlig anders zu beurteilen sind als die Tests auf Effekte (man will ja, dass gerade kein Effekt vorliegt, sprich: dass das Modell hinreichend gültig ist).

      Ich muss mal darüber nachdenken, ob man Klimadaten – historische Daten – überhaupt im Sinne von Zufallsereignissen wahrscheinlichkeitstheoretisch betrachten darf; spannende Frage!

      Ohne das jetzt hier inhaltlich in Verbindung zu setzen, bin ich mir sicher, dass die Verwendung von Statistik und Inferenzstatistik durch Theisten in Bezug auf die Erklärung der Entstehung der Welt mathematisch-statistischer Bullshit (im philosophischen Sinne!) ist, weil hier Statistik fehlerhaft auf historische Einzelereignisse statt auf echte Zufallsereignisse angewendet wird.

      • @Christian Hoppe

        In der Klimaforschung wird micht mehr und nicht weniger gewürfelt als in der Statist. Mechanik, aber darum geht es Stefan Rahmstorf in seinem Beitrag auch nicht, wie ich das verstehe. Vielmehr demonstriert er einen methodischen Fehler bei der Anwendung von Statistik anhand eines Modells, das leichter zu durchschauen ist als der Fall von Klimadaten.

        Mich verwundert etwas Ihre Bemerkung, »Ich muss mal darüber nachdenken, ob man Klimadaten – historische Daten – überhaupt im Sinne von Zufallsereignissen wahrscheinlichkeitstheoretisch betrachten darf; spannende Frage!« Sehen Sie denn die Anwendung von Statisik in der Klimaforschung als grundsätzlich problematischer oder irgendwie weniger gerechtfertigt an als, sagen wir, in der medizinischen Forschung? Bei letzterem wird — hoffentlich! — doch auch nicht gewürfelt.

    • Gibt es auch noch Argumente für Ihre einigermaßen vorwurfsvolle These?
      Sich einfach das Etikett “Statistiker” aufkleben, hilft hier ja noch nicht so richtig weiter …

      • @ Christian Hoppe

        Das Etikett war nicht Statistiker, es war Sattistiker.

        Nicht jeder Sadistiker ist Statistiker: “Bullshistic ” trieft bisher nur aus einem Kommentar – oder jetzt aus zweien. Auch deswegen:

        Glauben sie keinem Sattistiker!

  3. Es gibt wohl Software, die auf Basis relationaler Datenhaltung (“Big Data” betreffend) eigenständig Hypothesen entwickelt, die stochastische Modelle entwickelt (mit kleinen p-Werten), die zumindest prüfenswert sein sollen. – Zumindest wird dies an anderer Stelle in anderen wissenschaftsnahen WebLog-Einheiten nahegelegt, gar ein Ende der herkömmlichen Theoretisierung intonierend, aber dies kann aus Sicht des Schreibers dieser Zeilen wegen der Daten-Semantik nicht effizient möglich sein.

    • Ja, IBM’s Watson (AI-Datenbank) hat gerade dieses Feld betreten wie man in IBM Watson Ushers in a New Era of Data-Driven Discoveries liest:

      Available now as a cloud service, IBM’s Watson Discovery Advisor is designed to scale and accelerate discoveries by research teams. It reduces the time needed to test hypotheses and formulate conclusions that can advance their work — from months to days and days to just hours — bringing new levels of speed and precision to research and development.

      Researchers and scientists from leading academic, pharmaceutical and other commercial research centers have begun deploying IBM’s new Watson Discovery Advisor to rapidly analyze and test hypotheses using data in millions of scientific papers available in public databases. A new scientific research paper is published nearly every 30 seconds, which equals more than a million annually (Source: CiteSeerx). According to the National Institutes of Health, a typical researcher reads about 23 scientific papers per month, which translates to nearly 300 per year, making it humanly impossible to keep up with the ever-growing body of scientific material available.

      In diesem Zusammenhang erfährt man auch einiges über die “Verzettelung” der Wissenschaften in der modernen Ära. Als Extrembeispiel wird berichtete, dass über ein einziges Protein 70’000 wissenschaftliche Arbeiten geschrieben wurden:

      “On average, a scientist might read between one and five research papers on a good day,” said Dr. Olivier Lichtarge, the principal investigator and professor of molecular and human genetics, biochemistry and molecular biology at Baylor College of Medicine. “To put this in perspective with p53, there are over 70,000 papers published on this protein. Even if I’m reading five papers a day, it could take me nearly 38 years to completely understand all of the research already available today on this protein. Watson has demonstrated the potential to accelerate the rate and the quality of breakthrough discoveries. ”

      Man stelle sich einmal einen jungen ambitionierten Wissenschaftler vor, der brillant ist aber den Fehler gemacht hat, die “falschen” 1000 wissenschaftlichen Arbeiten zu lesen, nämlich nur Arbeiten, die letztlich irrelevant sind.

  4. Zitat:
    “Überhaupt ist es schon problematisch, nach einem statistischen Effekt zu suchen, ohne überhaupt eine Idee von Wirkmechanismen zu haben.”

    -> Nö, finde ich nicht. Das mag sinnlos erscheinen. Wobei man ja nicht etwas macht, dass keinen Sinn hat – also auf der Suiche nach irgendetwas sei. Aber was ist, wenn dann, wenn man etwas sucht, wirklich eine Signifikanz, eine anders korellierte, auffällt? Ganz ohne, dass man ihr auf den Fersen war?
    Sicher ist der erste Weg nicht gleich die Schlagzeile auf der ersten Seite. Man hat erstmal noch einen Haufen Arbeit vor sich.

      • Angesichts von “big data” besteht der Unterschied (der früher zu solch von ihnen verlinkten Szenarien führte), darin, dass neuerdings ungleich mehr Daten gesichtet werden, woraufhin im Laufe der Sichtung möglicherweise durch neue Theorien alte Theorien nicht unbedingt wiederlegt sind.

        Zum “Cum_hoc_ergo_propter_hoc” Ding:
        Zumindest tut im Falle jeder einen Ursache/Wirkungszusammenhang erstmal suchen. Das muß ja nicht erfolgreich sein, kann aber – betrifft aber nicht meinen Kommentar oben.
        Ich schätze, dass in solchem Szenario schon allerhand Dinge in die Wissenschaftswelt einzogen.

        • Vielleicht ist nicht ganz klar, was ich im vorletzten Abschnitt mit “problematisch” meinte. Es ging mir nicht darum dieses Vorgehen komplett zu verteufeln (verbieten kann ich es ohnehin nicht), sondern darauf hinzuweisen, dass dabei Probleme auftreten, deren man sich bewusst sein muss. Dr. Webbär hat den wichtigsten genannt, dass man eben nicht von Korrelation auf Kausalität schließen kann. Ein weiteres ist, dass es bei komplexen Vorgängen viele Einflussfaktoren gibt, von denen der Untersuchte oft nur einer ist.

  5. “Glauben sie keiner Statistik” bedeutet in der Wissenschaft: “Glauben sie keiner Arbeit, die unterlegt mit einem p-Wert behauptet etwas relevantes gefunden zu haben”. Ja es ist sogar noch schlimmer: Viele Arbeiten verbreiten nicht nur nichts Relevantes, sondern sogar Falsches.

    Wie könnte man die Situation verbessern? Mir schwebt eine andere Art der Präsentation der Ergebnisse vor, eine Art, die es erlauben würde mit einem Computer selbst eine statistische Bewertung nach eigenen Kriterien durchzuführen, Man könnte sich auf eine Terminologie und Sprache für die Präsentation der quantitiven Ergebnisse einigen, die eine automatische Generierung von verschiedenen Statistiken ermöglichen würde – und zwar ohne dass man die Einzeldaten noch einmal sichten muss.

    • @ Herr Holzherr :

      Wie könnte man die Situation verbessern? Mir schwebt eine andere Art der Präsentation der Ergebnisse vor, eine Art, die es erlauben würde mit einem Computer selbst eine statistische Bewertung nach eigenen Kriterien durchzuführen[.]

      Das ist halt der dräuende Denk-Mops, dem weiter oben schon versucht worden ist, präventiv, gegenzureden. Er liegt zunehmend medial vor, er wird zurzeit beworben oder promoviert. [1]

      Zum Sprachlichen:
      Die ‘Statistik’ meint eine Erfassungs-Situation, es steckt hier auch der Staat sprachlich drinnen, die letztlich ideen- und interessengebunden erfolgt, die moderne Wissenschaftlichkeit, die skeptizistische, ist sich bewusst ausschnittsartig, näherungsweise und eben interessengebunden zu arbeiten und dementsprechend gearbeitet zu haben.

      Machtabgabe an datenverarbeitende Systeme kann hier eigentlich keine Option sein.
      Denn sie können nicht besser leisten als die sie Betreibenden.
      Sie leben sozusagen in ihrer eigenen Welt, wobei sie als Algorithmen streng genommen nicht leben. Man müsste hier schon SciFi produzieren, um weiterdenken zu können, finden Sie nicht?

      MFG
      Dr. W

      [1] ‘The End of Theory’ war weiter oben webverwiesen, als Text, Nate Silver wird in diesem Zusammenhang gerne genannt, wobei er sein Vorgehen nicht offen legt (und der Verdacht besteht, dass er schlicht Datenlagen des Internets oder Webs abgefragt hat, die andere nicht abfragen, Wettbüros des Internet sozusagen, die, gerade weil sie monetär involvieren, die Schwarmintelligenz und das Wissen des Schwarms gut freisetzen, wie der Schreiber dieser Zeilen findet – der Schreiber dieser Zeilen hat die letzte US-Wahl vor dem Hintergrund dieser Annahme ein wenig beforscht)

      • Die gleichen Daten können von verschiedenen Leuten auf verschiedene Arten ausgewertet werden. Wenn die Daten in der wissenschaftlichen Arbeit summarisch in Form von Kurven und ähnlichem angegeben werden, dann sind verschiedene statistische Auswertungen denkbar – und das sogar ohne dass man die Originaldaten noch einmal manuell durchkämmt. Das ist die Idee hinter meinen Vorschlag. Die Option für eine automatische Auswertung nach verschiedenen Kriterien wäre dann noch das Sahnehäubchen obendrauf.

        • @ Herr Holzherr :
          Derartige Einschätzung, zu einem anderen Beitrag des geschätzten hiesigen Inhaltegebers auch von einem Kommentatoren mit dem verwendeten Namen ‘chris’ angeregt, löst halt beim Schreiber dieser Zeilen, der sich bekanntlich nicht aufregen soll, eine Art Kernwut aus.

          Die zunehmend größer werdende Menge von Daten kann, darf und soll gerne geeignete Abfragen von Erkenntnissubjekten anleiten, sie leitet aber keine maschinenbasierte Abfragung an.
          U.a. weil es zum cum hoc ergo propter hoc kommen muss und weil die Machtabgabe hier hineinspielt.


          BTW, die jetzig erfasste oder erhobene Datenmenge ist noch ziemlich gering, es werden sich zukünftig und auf wesentlich größeren Datenhaltungen basierend weitere Diskussionen ergeben, die aber immer daran leiden werden, dass es nur das Erkenntnissubjekt versuchen kann Daten ausschnittsweise, die Näherung meinend und an Interessen gebunden, zu aggregieren, zu analysieren und zu theoretisieren.

          MFG
          Dr. W

Schreibe einen Kommentar