Persönlichkeitseigenschaften mit Facebook-Likes vorhersagen? Echt jetzt?

fotolia / Cybrain

Derzeit geht im Internet die Meldung um, Wissenschaftler könnten mit Hilfe von Facebook-Likes private Informationen wie zum Beispiel sexuelle Orientierung erschließen – mit der mehr oder weniger offen ausgesprochenen Implikation, nicht einmal intimste Geheimnisse seien noch sicher vor den “Datenkraken”. Grundlage ist diese Veröffentlichkeit von Michal Kosinski in PNAS, deren Ergebnisse durchaus eindrucksvoll klingen.

UPDATE des Updates: Jürgen Hermes hat in den Kommentaren und etwas ausführlicher in seinem Blogbeitrag bemängelt, dass die Probanden in der Studie mit a-priori-Wissen je paarweise zusammengestellt wurden. Jetzt ist die Frage, ob die gleiche Wahrscheinlichkeit auch ohne dieses a-priori-Wissen gilt. FreiBär sagt, das mache keinen Unterschied, anscheinend weil er diese Paare einfach als Subsamples mit anderen Verteilungen versteht. Ich persönlich habe meine Zweifel, meine Statistikkenntnisse reichen dafür aber nicht aus.

 

Da heißt es zum Beispiel im Abstract:

The model correctly discriminates between homosexual and heterosexual men in 88% of cases, African Americans and Caucasian Americans in 95% of cases, and between Democrat and Republican in 85% of cases.

Machen also unsere arglosen Klicks und Zugriffe uns zu einem offenen Buch für Facebooks mächtige Algorithmen? Ich habe meine Zweifel. Statistik hat nämlich so ihre Tücken.

Nehmen wir das Beispiel sexuelle Orientierung. Da ist das Modell des Forscherteams zu 88% treffsicher. Was aber heißt das in der Praxis? Rechnen wir mal durch.

Angenommen, zehn Prozent der Bevölkerung seien Homosexuell. Ich lasse jetzt mal die ganzen Komplikationen und Grauzonen rund um sexuelle Identität weg, darum geht es hier gar nicht. Das ist eine Beispielrechnung. Nehmen wir eine Stichprobe von 1000 Menschen, von denen 100 homosexuell sind. Und das wollen wir mit dem Algorithmus rausfinden.

Der Algorithmus liegt in 88% der Fälle richtig. Das heißt, bei den 100 Homosexuellen identifiziert er 88 als homosexuell, 12 als heterosexuell. Bei den 900 Heterosexuellen bezeichnet er 900 * 0,88 = 792 Menschen als heterosexuell und die restlichen 108 als homosexuell.

In der gesamten Stichprobe findet der Algorithmus also 196 Homosexuelle und 804 Heterosexuelle. Wir wissen aber, dass unter den so gefundenen Homosexuellen nur 88 tatsächlich homosexuell sind. Der Rest sind falsch-positive Treffer.

Das heißt summa summarum, dass in unserem Rechenbeispiel die Wahrscheinlichkeit lediglich 45 % Prozent ist, dass jemand, den der Algorithmus als homosexuell identifiziert, auch tatsächlich schwul oder lesbisch ist. Das ist, vorsichtig ausgedrückt, nicht so dolle. Und wenn die Anteile an der Bevölkerung kleiner werden, wird die Unsicherheit noch größer. Ganz zu schweigen davon, dass für viele Eigenschaften (inklusive sexuelle Orientierung) die tatsächlichen Anteile an der Gesamtbevölkerung nicht bekannt sind.

Der gläserne Nutzer ist jedenfalls noch ne Ecke undurchsichtiger, als uns die Kulturpessimisten und Algorithmengläubigen weismachen wollen.

 

47 Kommentare

  1. Kann ich besser

    Wenn man von Deiner Annahme ausgeht, 10% der Bevölkerung seien homosexuell, bau ich dir geschwind einen besseren Algorithmus. Der behauptet einfach, alle seien hetero. Trefferquote: 90% 🙂

  2. Scheint aber schon

    ein gutes Ergebnis:

    Das heißt summa summarum, dass in unserem Rechenbeispiel die Wahrscheinlichkeit lediglich 45 % Prozent ist, dass jemand, den der Algorithmus als homosexuell identifiziert, auch tatsächlich schwul oder lesbisch ist.

    … wenn nur 12% einschlägig sind.

    Sie sind sicherlich nicht schwul, oder? (Würde der Schreiber dieser Zeilen an Hand des Outputs einfach mal annehmen wollen, aber vielleicht rät der Algorithmus besser.)

    MFG
    Dr. W

  3. Wozu macht man das?

    Für die Zwecke der Werbeindustrie und die Zwecke staatlicher Gefahrenprävention reicht eine solche Vorhersage voller falsch-positiver Ergebnisse völlig aus. Es macht ja nichts, Zielgruppen-Spam auch an Leute zu verschicken, die nicht zur Zielgruppe gehören.

    Und Leute einzusperren oder zu “befragen” schadet ja auch nicht, wenn z.B. 55% von denen womöglich “terroristische” Einstellungen haben.

    Und das in PNAS.

    m(

  4. Aussageschwächer als gedacht

    (Hier nur kurz, vielleicht komme ich am Wochenende zu einer ausführlicheren Betrachtung bei mir im Blog)

    Hab mir die Studie gerade mal angeschaut und gemerkt, dass wir beide mit unseren Berechnungen falsch lagen. Dem Algorithmus werden nämlich immer zwei Individuen präsentiert, von denen eines das Merkmal (z.B. homosexuell) trägt, das andere nicht (die Autoren unterscheiden tatsächlich nur zwischen “ausschließlich dem eigenen Geschlecht zugewandt” von allem anderen). Der Algorithmus liegt in 88% der Fälle richtig in der Zuordnung der beiden Individuen zu den Merkmalsausprägungen. Hört sich toll an, ist aber völlig unbrauchbar, um Vorhersagen für zwei Individuen zu treffen, bei denen man sich nicht sicher ist, eines aus jeder “Klasse” zu haben. Und das dürfte im wahren Leben so gut wie immer der Fall sein.

    • ehmm…versteh ich nicht. das wissen um die zugehörigkeit dient doch bloss der kontrolle des ergebnisses, d.h. dass man die treffsicherheit überhaupt beurteilen kann. dem algorithmus ist das doch egal.
      wenn die aussagen stimmen, heisst das doch (NICHT WIE IN DEM KOMISCHEN RECHENEXEMPEL WEITER OBEN) :
      wenn ich eine beliebigen datensatz einer person eingebe, sagt mir der algorithmus in durchschnittlich 88 von 100 fällen die korrekte sexuelle orientierung. punkt.

  5. Algorithmengläubige

    Ich würde die Technologiegläubigen vielleicht nicht Algorithmengläubige nennen, so nach dem eigenen Gegenbeweis mittels Algorithmus. 🙂

  6. Umlaute im RSS-Feed

    Hallo!

    Ich muss hier mal nen Off-Topic-Kommentar loswerden: im RSS-Feed sind die Umlaute kaputt! Nicht erst seit diesem Post, schon länger / immer. Meist übergehe ich das beim Lesen, aber ich dachte, ich melde es doch mal zurück, vielleicht mag sich ja “jemand” drum kümmern!

  7. @ Olli

    Das Problem ist bekannt. Es hängt vom Feedreader ab. Die einen zeigen die Umlaute, die anderen die Entitäten.

  8. @erbloggtes:

    Ja, das ist natürlich ein wesentliches Problem dabei: Algorithmenergebnisse als Pseudo-Rechtfertigung für Diskriminierung aller Art. Aber Da Diskriminierung ja auch ohne zugrunde liegende Information super funktioniert, bin ich andererseits skeptisch beim verbreiteten Umkehrschluss, dass weniger Daten weniger Diskriminierung bedeuten.

  9. So falsch wart ihr nicht

    Also prinzipiell basteln die in ihrer Studie ein Model aus den vorhandenen Daten. Um jetzt die Performance des Models zu testen, kann man nicht einfach die Daten mit denen das Model erstellt wurde wieder ins Model geben, und schauen wie viele richtig/falsch klassifiziert wurden. Das liegt daran, dass das Model sonst “overfitted” wäre. Was die hier gemacht haben, ist einfach Subsampling mit jeweils zwei unterschiedlichen Probanden (man könnte auch jeweils 10 unterschiedliche Probanden wählen, macht keinen Unterschied solange ich das Subsampling oft genug mache. Hauptsache die Gruppengröße ist gleich). Die angegebene Accuracy ist die Genauigkeit, mit der ich zwei Probanden von zwei gleich großen Gruppen unterscheiden kann. Das bedeutet jetzt folgendes: Wir können uns für ein Set von “Likes” die Wahrscheinlichkeit berechnen, mit der jemand zB. homosexuell oder heterosexuell ist. In der Praxis habe ich natürlich nicht zwei gleich große Gruppen. Die a-priori Wahrscheinlichkeit dafür kenne ich aber (nämlich 1/10 sind homosexuell). Mit dem Bayes-Theorem lassen sich jetzt die a-postiori Wahrscheinlichkeiten berechnen. Damit funktioniert unser Klassifikator (Model+Bayes Theorem) auch bei ungleichen Gruppen genauso gut wie bei gleichgroßen Gruppen, natürlich nur unter der Voraussetzung, dass wir die a-priori Wahrscheinlichkeiten kennen.

    Also:
    1. Die angegebene Accuracy würde unter Berücksichtigung der a-priori Wahrscheinlichkeit auch für ungleiche Gruppen gelten.
    2. Ich kann eine einzelne Person hernehmen, sie durch meinen Klassifikator jagen, und die angegebene Accuracy entspricht der Wahrscheinlichkeit, dass ich richtig liege. Also zB. wir klassifizieren jemanden als Homosexuellen, und mit 88%iger Wahrscheinlichkeit ist er das auch.

    Ich hoffe ich konnte als jemand der im Pattern Recognition Bereich arbeitet ein wenig helfen.

  10. @freibär

    “(man könnte auch jeweils 10 unterschiedliche Probanden wählen, macht keinen Unterschied solange ich das Subsampling oft genug mache. Hauptsache die Gruppengröße ist gleich)”

    Nope, die Baseline verändert sich beträchtlich. Wenn ich 2 Leute habe und ein Merkmal zuordne (ich weiß, dass es einer trägt), treffe ich zu 50% den Richtgen. Habe ich 10 Leute, muss ich 5 Leute für das Merkmal heraussuchen. Da beträgt die Chance nur (0,5*0,5*0,5*0,5*0,5) etwas mehr als 3%, dass ich da die 5 Richtigen treffe.

    Was du über den angewendeten Bayes schreibst, ist ansonsten richtig. Die Studie macht nur keine Aussagen darüber, mit welcher Wahrscheinlichkeit sie Merkmale erkennt, sondern nur darüber, wie wahrscheinlich es ist, ein Merkmal zu zwei Individuen zuzuordnen, wenn bekannt ist, dass nur eines der beiden es trägt (Baseline s.o. 50%, sieht man auch schön in einer Abbildung der Studie, wo dir richtige Vorhersage schon bei 0 analysierten Likes bei .5 liegt).

  11. @doppelfish

    Keine Ahnung, ob es eine gibt. Sag auf jeden Fall Bescheid wenn du was findest, das ist ja das, worum es mir hier geht.

    @Jürgen, FreiBär:
    Ich hab grad den Überblick verloren. Ihr macht das schon. 😉

  12. gleiches Spiel wie mit den Pflicht-AIDS-Tests: wenn eine falsch-positiv-Rate nur hoch genug ist im Verhältnis zu einem nur klein genugen Anteil tatsächlich Positiver in der Gesamtmenge, ist man schnell bei deutlich mehr falsch-Positiven als korrekt-Positiven. Wenn das nur Politiker verstehen könnten….. hm, kann man das mal auf potentielle Wähler ummünzen? 😉

  13. Hab mich jetzt doch dazu entschlossen, noch schnell zu antworten: Das die das wegen dem overfitting machen ist falsch. Das Problem ist, dass wir eine große Gruppe haben und eine kleine. Das heißt, wenn wir einfach alle als hetero klassifizieren, haben wir zwar 90% richtig, bringt uns nur nichts bei der Entscheidung (weil wir keine Homosexuellen finden bzw die false negative Rate bei Homosexuellen wäre 100%). Deshalb ziehen wir subsamples mit Gruppen gleicher Größe. Die Gruppengröße ist dabei egal. Bei 1er Gruppen bekommen wir entweder 0 oder 100% richtig. Gemittelt über alle Subsamples ergibt das dann die Genauigkeit. Bei 2er Gruppen gibts 0, 50 oder 100. Gemittelt kommt man auch hier aufs selbe wie bei der 1er Gruppengröße.

  14. Grundsätzlich

    ist es natürlich schon möglich sehr viel über einzelne Nutzer des Internets herauszubekommen, wenn diese identifizierbar werden bzw. sich identifizierbar machen.

    Google lebt sozusagen davon, u.a. mit seinen Ads, und Nate Silver behauptet zumindest deshalb besser zu sein mit seiner Prognostik, weil er “Big Data” abschöpft, also bspw. auch Wetteinrichtungen des Internets.

    Ohne sich jetzt für die Studie und diesen speziellen Topic besonders interessiert zu haben…

    Was noch kommen wird ist die Bilderkennung, die funktioniert noch suboptimal, und die Texterkennung, um Identitäten und Eigenschaftlichkeiten herauszubilden.

    MFG
    Dr. W

  15. @freiBär

    Erklären oder erahnen Sie bitte warum man Zweiergruppen genommen zu haben scheint – ‘Offenbar funktioniert das Modell der Forscher nur, wenn man das gesuchte Ergebnis vorher kennt und dann Leute mit dieser Kenntnis paarweise zusammenstellt.’ -, wobei sich der Schreiber dieser Zeilen nicht der im ‘UPDATE’ getätigten Schlussfolgerung anschließt.

    MFG
    Dr. W

  16. @FreiBär

    OK, ich glaube, ich verstehe, worauf du hinaus willst. Die Paare wären demnach normale Stichproben, nur mit einer bequemeren Verteilung als die Grundgesamtheit.

    Ich habe allerdings intuitiv noch Probleme damit, dass das a-priori-Wissen bei der Zusammenstellung der Gruppen keine Rolle spielen soll. Hätte man das nicht, müsste das Modell ja neben den Möglichkeiten A homosexuell und B homosexuell auch noch die Möglichkeiten beide Homosexuell oder keiner homosexuell berücksichtigen. Mit a-priori-Wissen hat man nur zwei mögliche Zustände statt vier. Macht das wirklich keinen Unterschied?

  17. @Fisch

    Mit a-priori-Wissen hat man nur zwei mögliche Zustände statt vier.

    Bei 2er Gruppen gibts 0, 50 oder 100. Gemittelt kommt man auch hier aufs selbe wie bei der 1er Gruppengröße. [freiBär]

    Kommentatorenkollege ‘freiBär’ erkennt hier VIER mögliche Zustände, auch wenn diese nominal über drei mögliche Zustände ausgedrückt werden.

    MFG
    Dr. W (den aber noch die Sache mit der Zweiergruppenbildung interessieren würde)

  18. @Dr. Webbaer jaja Tippfehler 😉

    Ok, ich erklär noch mal das mit den Gruppen. Das Problem ist, wenn ich zufällig ziehe (also auch 2 Homosexuelle oder 2 Heterosexuelle), habe ich wieder die a-priori Wahrscheinlichkeit dabei, da das mittel der Subsamples einfach wieder gegen das Ergebnis der gesamten Daten konvergiert. Wie gesagt, dass Problem hierbei ist, dass man hier die Verteilung der Grundgesamtheit (a-priori Wahrscheinlichkeit) dabei hat. Hier mal ein Beispiel, was passiert, wenn ich sie drinnen habe:

    Nehmen wir an wir haben 2 Gruppen, A und B. Die Verteilung der Gruppen schaut so aus:
    Gruppe A: 10 Personen
    Gruppe B: 1000 Personen.

    Wenn ich jetzt einfach alle als B klassifiziere, habe ich eine Genauigkeit von 99%! Deshalb ist mein Klassifikator trotzdem ziemlich bescheiden. Wenn ich jetzt einen “gscheitn” Klassifikator habe, der mir zB 88% aller Personen richtig klassifiziert (also eine Genauigkeit von 88%), dann ziehe ich zB 100 mal jeweils einen aus A und einen aus B, dann wird mir mein Sample ca 88 mal richtig klassifiziert. Und jetzt der Clou: verwende ich jetzt diese Methode bei meinem “bescheidenen” Klassifikator, wird in 50% der Fälle ein falsches Ergebnis kommen. Also nicht besser als der Zufall.

    Wir sehen also: Die a-priori Wahrscheinlichkeit muss raus, um die Genauigkeit zu berechnen. Und das erreicht man dadurch, dass man gleich große Gruppen zieht.

  19. Ich verstehe deine Frage nicht ganz. Wir haben zwei Gruppen, nicht Zweiergruppen. Die Gruppen gibt es wegen den Fragestellungen, zB. homosexuell/heterosexuell. Falls du dich fragst, warum in jeder gezogenen Gruppe beim Sampling nur jeweils ein Individuum drinnen ist: weils egal ist. Solange die Gruppen gleich groß sind, konvergieren auch größere Gruppen gegen das selbe Ergebnis.

  20. @freiBär

    Man scheint doch eine Datenprobe einer gewissen Größe zu haben, von denen man vorab weiß wie viele die ebenfalls vorab gewusste Binäreigenschaft A und (Größe der Datenprobe – A) B besitzen.

    Nun glotzt man auf deren Verhalten im Web und versucht mit Hilfe eines geeigneten Algorithmus die Zuordnung zu A oder B mit dem Ziel einer möglichst hohen Trefferquote die Richtigkeit dieser Zuordnung betreffend.

    Und jetzt wurden die (anzunehmenderweise: zufällig ausgewählten) ‘Probanden in der Studie mit a-priori-Wissen je paarweise zusammengestellt’.
    Warum tut man dies?

    MFG
    Dr. W (der’s aber nicht vertiefen muss)

  21. Persönlichkeitseigenschaften… Echt jetzt

    @Lars Fischer:

    Das heißt summa summarum, dass in unserem Rechenbeispiel die Wahrscheinlichkeit lediglich 45 % Prozent ist, dass jemand, den der Algorithmus als homosexuell identifiziert, auch tatsächlich schwul oder lesbisch ist. Das ist, vorsichtig ausgedrückt, nicht so dolle.

    Mir (als Statistik-Laie, wohlgemerkt) kommt das schon recht „dolle“ vor.

    Laut Abstract fallen dank des Algorithmus von 100 Unterscheidungen (homo/hetero) 88 richtig aus. Das scheint mir enorm zu sein. Durch Raten liegt man entweder in 90% oder in 10% der Fälle richtig, je nachdem, ob man immer ‚hetero‘ oder immer ‚homo‘ rät.

    Wenn man nun insgesamt zufallsverteilt 90 mal auf ‚hetero‘ und 10 mal auf ‚homo‘ tippt, wie oft läge man da bei 100 mal Raten richtig?

    Ich vermute mal, in rund 45% der Fälle.

    Dann sind demgegenüber 88% doch recht beachtlich, oder?

    (Die Frage richtet sich an die Statistikexperten unter den Kommentatoren)

  22. @Balanus

    Antwort auf deine Frage ist 50%.

    Im Übrigen ist es nicht so, dass der Algorithmus 88% der Individuen, die von ihm untersucht werden, richtig hinsichtlich der Sexualität klassifiziert. Um Aussagen dazu zu machen, hätten die Autoren der Studie Precision und Recall angeben müssen. Ich werde wohl noch mal etwas dazu schreiben müssen.

  23. @Belanus

    Grr. Bin einem Fehlschluss zum Opfer gefallen, die Wahrscheinlichkeit liegt viel höher. Selbst wenn ich alle 10 Homosexuellen falsch tippe, liege ich immer noch in 80% der Fälle richtig. Insgesamt liegt sie also bei >80%. Für genaueres muss ich noch mal rechen 🙂

  24. Argh

    Wenn man nun insgesamt zufallsverteilt 90 mal auf ‚hetero‘ und 10 mal auf ‚homo‘ tippt, wie oft läge man da bei 100 mal Raten richtig?

    Wenn 10% schwul sind und man einfach nur im Verhältnis “Nicht schwul/schwul” von “9:1” rät, dann liegt man:
    (9 x 0.9 + 1 x 0.1) / 10 = 0.82 richtig.

    Wenn man immer auf “schwul” tippt, hat man 0.9 Erwartung (der Punkt jeweils als Dezimaltrenner).

    Insofern impliziert jede positive Aussage zu ‘Das heißt summa summarum, dass in unserem Rechenbeispiel die Wahrscheinlichkeit lediglich 45 % Prozent ist, dass jemand, den der Algorithmus als homosexuell identifiziert, auch tatsächlich schwul oder lesbisch ist. Das ist, vorsichtig ausgedrückt, nicht so dolle.’ – dass man im Verhältnis “9:1” gegen Schwule tippt.

    Das wäre ein gutes Ergebnis.

    Sollte man aber wild werden und bspw. immer auf schwul tippen, hätte man bei den tatsächlich Schwulen eine Trefferrate von 100%. Was aber nicht wirklich überrascht, eine binäre Eigenschaftlichkeit der Datenprobe unterstellend.

    MFG
    Dr. W

  25. Nachtrag zur letzten Nachricht:

    * Wenn man immer auf “schwul” tippt, hat man 0.9 Erwartung (der Punkt jeweils als Dezimaltrenner) falsch zu liegen

    Und natürlich bezogen auf die Schwulen 100% richtig zu liegen, siehe Absatz 5 der letzten Nachricht.

    MFG
    Dr. W

  26. Jepp, 82

    Zahlenmäßig liegt der Webbär richtig. Man hat eine Trefferwahrscheinlichkeit von 1/10, einen (ich verallgemeinere mal) “Träger des Merkmals” zu treffen. Bei 10 Versuchen sollte man also im Durchschnitt einen treffen. Da man durch einen richtigen Tipp auch direkt einen “Nicht-Träger des Merkmals” richtig vorhersagt, erhöhen sich dir richtigen Vorhersagen von 80 auf 82. 82% wären also die Baseline. Wobei man durchschnittlich nur einen richtig positiven, je 9 falsch positive und falsch negative sowie 81 richtig negative vorhergesagt hätte.

  27. Was wiederum bedeutet

    , dass man bei einer Datenprobe mit 10% Schwulen im Verhältnis “9:1” gegen Schwule tippend ohne Logik oder angelegtem Algorithmus, wir vergleichen mit: ‘Das heißt summa summarum, dass in unserem Rechenbeispiel die Wahrscheinlichkeit lediglich 45 % Prozent ist, dass jemand, den der Algorithmus als homosexuell identifiziert, auch tatsächlich schwul oder lesbisch ist. Das ist, vorsichtig ausgedrückt, nicht so dolle.’ – nur 10% Schwule richtig tippt, das richtige Tippen von 45% Schwulen also sozusagen eine Meisterleistung ist.

    MFG
    Dr. W (der sich bei diesem spannenden Thema aber nicht weiter einbringen wird, es sei denn Kommentatorenfreund freiBär hat noch nachzutragen)

  28. @Dr. Webbaer

    »Wenn 10% schwul sind und man einfach nur im Verhältnis “Nicht schwul/schwul” von “9:1” rät, dann liegt man:
    (9 x 0.9 + 1 x 0.1) / 10 = 0.82 richtig.
    «

    Richtig! Danke!

    (Hätte man mit ein bisschen nachdenken eigentlich drauf kommen können, dass man in dem Fall deutlich näher bei 0.9 als bei 0.1 liegt, nich? ;-))

  29. @webbär et al.: Klar…

    …ist 45 Prozent Trefferchchance immer noch besser als pures Raten. Einerseits. Andererseits is eim Sinne von gesicherte Aussagen über eine spezifische Person machen – und das war ja der Tenor der Presseberichte – wenig hilfreich.

  30. Base rate fallacy

    @doppelfish: Wenn ich in Ihrem Wikipedia-Link links auf “Deutsch” klicke, komme ich zu “Prävalenzfehler”.

  31. Untersuchung lehrreich über Facebook

    Durch diese Übersicht (danke!) wird das Ganze ja noch blöder. Die ganze Studie zeigt doch eher, was der praktische Sinn von Facebook ist, nämlich die Produktion und Reproduktion von Klischees = Konformität.
    Und die Studie macht dabei fröhlich mit. Welcher Hetero-Heranwachsende würde denn in Kenntnis der Untersuchung noch zugeben, Ellen DeGeneres zu mögen? (Andererseits: Welche/r Heranwachsende möchte noch zugeben, hetero zu sein, wenn das stark mit einer Präferenz für WWE = World Wrestling Entertainment korreliert?) 😉

    P.S.: Leute wie Patrick Steward sind demnach bestimmt schwul.[1][2]

  32. Pingback:48 KW 2016 › HappyBuddha1975

  33. Pingback:Ist unser Verhalten algorithmisch vorhersagbar? « Gesellschaft « riecken.de

  34. also ich muss auch Zweifel am obigen Rechenbeispiel äußern. Wie viele tatsächlich homosexuell oder heterosexuell sind ist für den Algorithmus eigentlich völlig egal. Denn er nimmt einen Datensatz an Likes und kann dann mit 88%-tiger sagen, ob die ausgewählte Person homosexuell oder heterosexuell ist – völlig unabhängig von der eigentlichen Zahl, die in dem Fall völlig irrelevant ist. Das bedeutet, das Werbung für diesen Nutzer gemacht werden kann, die mit eine Wahrscheinlichkeit von 88 Prozent auf den User zugeschnitten ist.

  35. Ergänzung: für die nächste Person, ist die Wahrscheinlichkeit dann wieder genauso hoch (88%) – man geht ja nicht von der Gesamtheit einer Personengruppe sondern von jedem einzelnen User aus und berechnet dort die Wahrscheinlichkeit einzeln anhand des psychometrischen Profiles.

  36. Ergänzung: hier wird ja nicht von der Gesamtheit der User-Anzahl ausgegangen sondern vom Datensatz eines einzelnen Users aus dem mit 88%-tiger Sicherheit sie sexuelle Orientierung bestimmt werden kann. Dann geht der Algorithmus weiter zum nächsten Nutzer und hat wieder die gleiche Wahrscheinlichkeit von 88%. Die Gesamtheit spielt hier also meiner Recherche nach keine Rolle und ist deswegen auch irreführend. Es sei denn ich vergesse hier etwas.

  37. Bei den 88% handelt es sich laut Paper um die Fläche unter der Receiver Operating Characteristics Kurve. Diese entsteht indem man den Klassifizierungs-Cutoff verschiebt und sich anschaut wieviel Prozent der Schwulen man korrekt identifiziert (True Positive) und wieviel Prozent der Nicht-Schwulen man als als schwul fehlklassifiziert (False Positive). Wer mehr weiss möge mich korrigieren, soweit wie ich weiss ist die Fläche unter der ROC-Kurve in diesem Fall die Wahrscheinlichkeit dass man einen Schwulen richtig identifiziert.
    Die Rechnung oben ist jedenfalls so nicht korrekt, dazu müsste man die jeweilige True-Positive- und False-Positive-Rate für einen Cutoff kennen, die ja eben die Wahrscheinlichkeiten der Richtig- und Fehlklassifizierung sind.

  38. Pingback:Augen auf und durch!

  39. Pingback:Interessante Links und Nachrichten 05.12.2016ff - Aleks Weltweit

  40. Mich wundert es, dass bei so vielen Kommentaren unter diesem Beitrag ein Einwand wie der von @Michael nicht früher kam.
    Auch meiner Meinung nach handelt es sich hier bei der 88%-igen Wahrscheinlichkeit um die Wahrscheinlichkeit, dass ein als homosexuell klassifizierter Mann wirklich homosexuell ist. Somit wäre das Rechenbeispiel, das auf 45% hinausläuft hinfällig.
    Schade – interessant wäre es auch für meinen Matheunterricht gewesen, aber so wie ich die Studienergebnisse verstehe leider nicht korrekt.
    Ich lasse mich jedoch gerne eines Besseren belehren.

Schreibe einen Kommentar