Mittwoch, 17. Februar 2021Wie Informatiker mit Daten arbeitenHinweis: Es ging darum, sich technisch mit der Umfrage zu beschäftigen und heraus zu arbeiten, warum solch eine Umfrage kein repräsentatives Ergebnis bringen kann. =============
In diesem Blogartikel steht diesmal die „Steigerwaldbahn“ nicht in der Headline… aber mit ihrer Hilfe kann man zeigen, wie problematisch unsere aktuelle gesellschaftliche Lage ist. Worum geht es? (Edit 2022Der „VCD“ wollte von den Bürgern wissen, was sie von der Steigerwaldbahn halten und hat hierzu 3 Fragenkomplexe gestellt: Alter, Wohnort und 9 Detailfragen zum Bahnverkehr. Eine Frage hiervon ist invers gestellt, dass man erst mal im ersten Reflex zum „nein“ tendiert. Schlau gemacht… aber… für mich irrelevant. Ich habe es gemerkt.
Worauf möchte ich nun hinaus? Umfragen sind ein trügerisches Mittel, werden sie nicht von Profis gemacht. Und hier erwischt es den VCD mit voller Breitseite. Diese Umfrage hat genauso wenig Aussagekraft, wie die Wettbewerbsabstimmungen für Gewinnspiele bei beliebten bayerischen Radiosendern. Dort kann man so oft abstimmen, wie man möchte, damit seine Gemeinde „gewinnt“. Dann kommen die Radiosender und feiern eine große „Sommerparty“, oder ähnliches. Was bedeutet dies? Je besser die Dorfjugend organisiert ist und die dörfliche Gemeinschaft… desto länger sitzen die Menschen vor dem Rechner und stimmen ab. Oder, je zielgerichteter man Menschen zur Abstimmung bekommt, desto eher erreiche ich mein gewünschtes Ergebnis. Erstes Fazit: Es ist wichtig, viele Menschen zu motivieren mit zu machen. Du musst Menschen von Deiner Seite überzeugen, etwas für Dich zu tun. Das funktioniert in einer Initiative/Verein in der Regel wunderbar. Im nächsten Überlegungsschritt kommt nun ein typischer Umstand des Internets zu Stande, der für eine nicht repräsentative Statistik sorgt. Es werden solche Umfragen gerne geteilt (Bilder unter dem Absatz) Was heisst das? Da Teilen die Befürworter den Link zur Umfrage mit der Bitte, teil zu nehmen. Problem hierbei: Jeder hat Freunde, die nicht aus der Region kommen. Auch diese können teilnehmen – und tun dies, um Freunden einen Gefallen zu tun. Wir haben hier einige Aufrufe gefunden. Wenn wir dann auch noch Landtagsabgeordnete und die anderen VCD-Regionalgruppen mit berücksichtigen, bekommen wir hier eine abstimmende Bevölkerung, die nicht in den betroffenen Ortschaften lebt. Aber anhaken kann man, was man möchte.
Im Internet wird hierbei von „Blasen“ gesprochen. Dies bedeutet: es werden nur Freunde und Bekannte mit ähnlichen Interessen erreicht. Jeder teilt nur die gemeinsame Meinung. Einen der erbittertsten Kämpfe wird hier derzeit um das Thema Corona in sozialen Medien geführt. Dort kämpfen die "Corona"-Leugner gegen die Unterstützer von Maßnahmen der Regierung. Hier im Vergleich... sehe ich oft die sog. "Befürworter" die "Bahngegner" beleidigen und unter der Gürtellinie angreifen. Hierzu nachher unten noch ein schriftliches Zitat. Es geht den "Gegnern" aber nicht um eine Abschaffung des ÖPNV, sondern eine Stärkung. Nicht umsonst beschäftigt sich der Kreis mit einem neuen Konzept und werden neue moderne Ideen auf den Tisch gelegt. Seitens der Bahn"befürworter" wird dies nicht honoriert. Man greift sogar diese Menschen mit haltlosen Beschuldigungen an. Unsere Gesellschaft ist zuletzt insgesamt eher auf "hü oder hott" getrimmt. Ein gemeinschaftliches Miteinander wird nicht gesucht, andere nieder gemacht- und danach dieser Mangel an Umgang "bedauert". Zweites Fazit: Wenn eine Umfrage von einer Seite als wichtig angesehen wird, finden sich die Befürworter leichter, als die Menschen, die sagen „nein, sie haben nicht Recht“ und eben in dieser Umfrage „dagegen halten“. Sie haben schlicht oft keine Lust auf sinnlose Streitigkeiten, da ihre Argumente nicht gehört werden.
Auch darf man eines nicht vergessen. In der Auswertung wurde das „Mehrfach“-Abstimmen auch thematisiert. Zu Beginn dieses Themenkomplex die eigene Erfahrung: Anfangs war es recht witzig. Nach ein paar Abstimmungen quer durch alle Ortschaften sagte mir jedoch mein Browser, ich hätte schon abgestimmt. Hu? Interessant. Ist dort aufgefallen, dass von einer bestimmten IP-Adresse mehrere Abstimmungen abgegeben wurden? Die Informatiker-Neugier wurde geweckt… und gleich wieder enttäuscht. Dachte ich erst an eine 24h-Sperre der IP-Adresse, wie es andere machen… war es ein schnödes Cookie „completed“. Irgendwie zu einfach. Insgesamt setzte das Umfragetool 3 Cookies, um sich zu merken, dass ein Benutzer schon vor Ort war. Mit dem Löschen der 3 gespeicherten Cookies.. konnte man wieder abstimmen. Bei vielen Usern mit Datenschutzbedenken gibt es eine Voreinstellung im Internetbrowser „Lösche Cookies beim Beenden des Browsers“. Blieb nur die Frage… ob das Umfragetool evtl. IP-Adressen mitspeichert und man nach diesen sortieren kann. Denn.. kommen 5 Abstimmungen kurz hintereinander, würde das beim Auswerten bemerkt. Zudem kann man Daten natürlich sortieren. Immerhin verspricht man eine „qualifizierten Auswertung“ nach dem Absenden der Antworten. Im Rahmen dieser wurde hierauf in der Tat geachtet. Löblich - hat aber Fallstricke, die noch erklärt werden.
Ein Informatiker kennt hierfür natürlich auch eine praktische Lösungen: man ändere seine IP-Adresse. Es gibt einige kostenlose Webseiten und Browserplugins, welche dies sogar automatisch ermöglichen. Dumm nur: solche Tools setzen auch normale Computernutzer ein, wenn sie bspw. US TV Sender oder ähnliches anschauen wollen. Auch gibt es User, die so etwas aus Datenschutzbedenken einsetzen. Diese nutzen Browser, die solche Techniken von vornherein mitbringen. Sie müssen gar nichts selbst an den Einstellungen ändern. Irgendwie war diese Umfrage 2, 3 Tage nach Start gar nichts mehr wert. Nicht nur durch Abstimmungen von Eisenbahnfreunden quer durch Bayern und Deutschland. Nein.. es waren auch schnell Möglichkeiten ausgemacht, wie man ohne Aufwand auffällig unauffällig mehrfach abstimmen konnte. Da dies kein „Geheimwissen“ ist - werden da auch sicher extreme Befürworter, diese kennen und anwenden. Von Familien, die über denselben Internetanschluss per WLAN online gehen und jeder abstimmt - ganz zu schweigen. Dieser Fall wäre nämlich eine zulässige Mehrung einer IP-Adresse in den Auswertungsdaten. Im Wahlrecht darf auch jeder Volljährige eines Haushaltes wählen gehen, wenn ihm das Wahlrecht im Land zusteht. Ebenso ist es zulässig, wenn Menschen im McDonalds München sitzen und sich mit Freunden treffen und über das Thema unterhalten. Dann ziehen ein oder zwei Personen das Smartphone, wählen sich über das WLAN ein und stimmen ab. (Coronabedingt gerade ein eher unwahrscheinliches Beispiel - aber abstimmungstechnisch eigentlich zulässig). Es gibt also tatsächlich korrekte IP-Mehrungen, die bei einer Auswertung nicht aussortiert werden dürfen. Aber wie unterscheiden? Jemand einzelnes, der aber mehrfach abstimmen möchte, kann dies ebenso einfach. Heute im Heim-WLAN, morgen über das Handynetz, übermorgen beim McDonalds, in einem ICE, auf Arbeit, bei Freunden, oder wo auch immer ein nutzbarer Internetzugang ist. Eine Person, verschiedene IP-Adressen. Mir gegegnüber haben sich sogar mehrere Abstimmende so geäußert: ich habe mehrfach abgestimmt. Auch sollte die automatische Providertrennung bedacht werden Kein Internetzugang hat immer dieselbe IP-Adresse. Beim Neuverbinden bekommt man eine neue Adresse zugewiesen. Das heißt, eine alte Adresse wird in der Region wieder frei und wird an einen anderen Haushalt/Nutzer vergeben. Provider unterscheiden: private Zugänge haben dynamische IP-Adressen, Geschäftskunden, die bezahlen, können für eigene Serverdienste feste IP-Adressen mieten. Möchte jemand jedoch gezielt, mehr Stimmen abgeben, muss er, um nicht auf zu fallen, auch Stimmen für die „Gegenseite“ abgeben. Falls eine zeitliche Auswertung erfolgt, würden 40, 50 gleichmäßige Stimmen am Stück sofort auffallen. Das ist statistisch nicht möglich.. und erst Recht nicht über Tage hinweg (versprochene „qualitative Auswertung“). Man muss also Alter, Herkunft und Antworttendenzen variieren, um nicht aufzufallen. Man stimmt mal pro, mal contra ab, um nur die Teilnehmerzahlen hochzutreiben. Nun wurde es für mich als Informatiker interessant: was sagt das Umfragetool überhaupt aus? Bekommen die Ersteller diese detaillierten Angaben, die ich erwarte (IP, Browser, Betriebssystem) überhaupt? Es lohnte ein Blick auf dieses Umfragetool: Das Tool kann man mit 25 Antworten/Monat kostenlos nutzen. Das Abo für 34,-- im Monat (es gibt aktuell auch ein Paket für 29,-- / Monat, zahlbar jährlich) ist schon eine Hausnummer. Da das Anlegen einer Beispiel-Umfrage aber nach 10 Min noch nicht abgeschlossen war, wurde dieser dieser Test abgebrochen und nur das Handbuch durchgesehen. Dort waren eher „Klick“-Aktionen zur Auswertung zu sehen – aber auch, dass der Datensatz zur Gänze herunter geladen werden könnte. Der genaue Inhalt war dann leider unbekannt. Logisch betrachtet, enthält der Datensatz alle Daten, die ich erwartete, die reine Webauswertung vermutlich nicht.
Das Analysetool ermöglicht Abstimmungen von überall und verhindert keine Mehrfachabstimmung. Die Daten würden jedoch letztere nur zum Teil aufdecken können. (bewusst gewähltes Verb: können) Dann kam der 26.01.2021… man spielte mir die Zugangsdaten zu einer „Infoveranstaltung“ des VCD zu. Da ich nichts weiter vor hatte, wählte ich mich ein und schaute zu. Neben (fehlerhaften) Informationen zur Reaktivierung gab es auch eine kurze Übersicht zur Umfrage. Ich war überrascht… die Mehrfach-Abstimmungen fielen gar nicht groß auf. Die Kurve verlief gleichmäßig nach oben, manche Orte waren klar öfters vertreten. Aber wenn man selbst schon einen signifikanten, zweistelligen %-Anteil der bis dahin 540 abgegebenen Stimmen beigesteuert hat, fragt man sich, haben sie schon in die Daten rein gesehen oder erst mal als „Fakt“ angenommen. Immerhin gab man sich ja auch Mühe, dass diese Daten auffallen. Eben, wie ein unbedarfter 0815-User es auch tun würde. Leider wurden keine weiteren Zwischenergebnisse oder aussortierte Stimmen bekannt gegeben. Immerhin stand auf dem Zwischenbericht "gültige" Stimmen. Aber was ist nun eine "gültige Stimme"? Bei der Auswertung hieß es, es gab auch "Abbrecher". Absenden konnte man den Fragebogen jedenfalls nur komplett gefüllt.
Fazit Vier: Danke für die Ortsübersicht. Vor allem, wenn danach die Werbezettel in weiteren Gemeinden verteilt wurden und auch Artikel in Zeitungen erschienen. In Webmedien wurden ebenfalls weiter Links zur Umfrage verteilt – die dann wieder in die Filterblasen verteilt wurden. Dann fällt ein weiteres Erhöhen der Abstimmungen/Tag gar nicht mehr auf. Dafür sorgen schon die Menschen von außerhalb, die der VCD durch das landesweite Teilen erreicht. Es ist bei dieser Umfrage genauso leicht zu arbeiten, wie bei den Radio-Gewinnspielen im Sommer. Wenn man genug Menschen findet, die mitmachen, bekommt man das gewünschte Ergebnis zusammen. Daher vermute ich die Gründe für eine Verlängerung des Abstimmzeitraums eher im Daten“inhalt“, denn des genannten Umstandes plötzlich „über 1.000 Stimmen“ zu finden. Es wurde Zeit gebraucht mehr "Pro Bahn"-Abstimmer zu finden und abstimmen zu lassen. Das Umfragetool ermöglicht zu keinem Zeitpunkt eine repräsentative Umfrage. Jede andere Aussage darüber ist weder wissenschaftlich noch faktisch haltbar. Ergebnispräsentation Am 15.02.2021 war es so weit. In einem Artikel auf „in und um Schweinfurt“ wurde die „qualifizierte Auswertung“ vorgelegt. Man hatte tatsächlich 109 Stimmen aussortiert, die von „derselben IP“-Adresse kamen, oder sonst fehlerhaft waren (u.a. wohl 11 IP Adressen mit mehr 6 Abstimmungen). Dachte ich mir doch, dass "gewisse Abstimmungen" auffallen müssen. Das ist auch gut so. Aber dass dann „nur“ 100 Stimmen auffallen. Das war ein Schock. Wenn man bedenkt, dass ich wohl nicht der einzige war, der mehrfach abgestimmt hatte. Spannend wäre folgende Idee gewesen: Hätte man die Umfrage doch gezielter in speziellen „pro Auto“/contra „DUH“-Gruppen gepostet. Dann hätten mehr verschiedene IP-Adressen aus Deutschland abgestimmt. Aber wenn dann plötzlich innerhalb weniger Tage 2-3.000 hauptsächlicher Kontra-Stimmen eingehen.. fällt das natürlich noch weiter auf. Es machte keinen Sinn. Die Datenbasis war ja schon seit Beginn schlecht. Aber das eigene Verteilen wäre eine logische Konsequenz gewesen. Anders haben es die Befürworter im Prinzip auch nicht gemacht. Aber dann hätten sie noch mehr „Aufmerksamkeit entlang der Bahnlinie“ gehabt, die tatsächlich gar nicht an der Bahnlinie wohnen, aber für Orte abstimmen. Daher an den Satz von Bekannten erinnert: wenig Aufmerksamkeit geben. Großes Endfazit: Die Umfrage sagt gar nichts aus. Es stimmen logischerweise mehr Befürworter ab. Durch Weiterverbreitung in „pro Bahn“/VCD-Gruppen und persönlichen Freunden, finden sich genug Menschen, die gar nichts mit dieser Bahn zu tun haben, geschweige denn, hier wohnen und für Ortschaften entlang der Bahn abstimmen. Zudem fiel mit 109 Stimmen nur ein Bruchteil der fehlerhaften Stimmen pro und contra auf und wurde aussortiert. Die Umfrage ist damit nichts wert. Es würde nur ein gutes Stimmungsbild abgeben, wenn die Orte direkt befragt würden und möglichst viele mit machen. Also tatsächlich nur betroffene Menschen im Rahmen eines Bürgerbegehrens zur Wahl aufgefordert würden. Denke ich jedoch an die Stadt Schweinfurt und die Abstimmung zur Landesgartenschau. Da wurde genauso schlimm gekämpft und agitiert und dann das Quorum nicht erreicht. Notiz am Rande: Innerhalb der Kobrastudie wurde der ÖPNV untersucht und Menschen in den Orten direkt befragt. Kobra selbst sagt, dass es nicht repräsentativ sei. Ergebnis damals: die Bahn interessiert kaum einen. Und Kobra hatte über 2.000 echte Teilnehmer / Betroffene gefragt.
Aber zu behaupten, dass alle, die bspw. für Gerolzhofen abgestimmt haben, auch tatsächlich in Gerolzhofen wohnen – ist falsch – nein: es ist auf der aktuellen Datenbasis nicht haltbar.
Ich würde mir wünschen, dass der VCD Unterfranken beweist, dass jede Stimme aus einer Ortschaft auch von Bürgern der Ortschaft abgegeben wurde. Bei dieser Umfrage ist es eben wie immer bei nicht wissenschaftlich durchgeführten Studien: der Auftraggeber bestimmt quasi das Ergebnis. Es kommt darauf an, wen man befragt. Denke ich an unsere Haustürbesuche im Wahlkampf, als wir wirklich die Menschen am Ort direkt ansprachen. Da waren weit mehr als 80% gegen die Reaktivierung. Vergleiche ich das mit der Kobra-Befragung: sehr ähnlich.
Es ist inzwischen mehr als eine Vermutung, dass auf die BEG politischer Druck ausgeübt worden ist – bekanntlich gibt es in der CSU einflussreiche Personen, die die Bahn lieber heute als morgen weghaben möchten. Es bleibt weiterhin zu hoffen, dass der Öffentlichkeit eine tragfähige Untersuchung vorgelegt wird und nicht eine, an der man herumgeschraubt hat, um das gewünschte (negative) Ergebnis zu bekommen. Im zweiten Fall wird es darauf ankommen, die Studie innerhalb kurzer Zeit von Fachleuten prüfen zu lassen; wir bereiten uns auch auf diesen Fall vor. Entschuldigung. Das ist kein Stil. Entweder man einigt sich darauf, erst mal das Gutachten abzuwarten, oder nicht. Ebenso sollten auch die Wünsche der Anrainergemeinden und deren Bürger endlich akzeptiert werden. Dies sehe ich weder bei VCD, noch Förderverein, noch den Grünen. Vielleicht noch zur Info: Unterschrieben war diese Email von "Bruder" Julian Glienke. Eine starke Äußerung eines Kirchenmannes. Da sehe ich nichts von "aufeinander zugehen" und "alle Menschen sind Brüder" oder demokratisch gesehen: keine Akzeptanz von Fakten. Es wird nur anerkannt, was der eigenen Meinung entspricht. Und wieder sind wir bei dem harten Vorgehen unserer mittlerweile egozentrischen, wenig mitfühlenden "ich habe Recht"-Gesellschaft. Ich persönlich sehe Kirche aber als integrierenden, ausgleichenden, vermittelnden Faktor. In den letzten zwei Jahren wurde mir leider öfters das Gegenteil gezeigt. Was aber definitiv Fakt ist: die große "qualifizierte Ausarbeitung" der Umfrage enthält noch einige Hundert fehlerhafte "pro und contra" Stimmen. Einen großen Teil (nicht alle) könnte ich mit etwas Aufwand sogar beweisen, wenn man mir den Datensatz geben würde. Aber a) bekomme ich diesen nicht, b) ist es nicht meine Aufgabe und c) wäre auch das Folgeergebnis nicht repräsentativ. Und dies aus Gründen, an denen niemand, wie oben dargestellt, etwas ändern kann. Diese Umfrage ist eben nicht von einem großen Institut mit wissenschaftlicher Arbeit gemacht, sondern von verschiedenen Initiativen mit eigenen Interessen. Selbst wenn der VCD diesen Beitrag ernst nimmt, was ich nicht glaube, und versucht einen großen Teil der weiteren fehlerhaften Stimmen zu finden. Zum einen müssten sie zugeben, eine falsche "qualifizierte" 37seitige Auswertung heraus gegeben zu haben - zum anderen, dass sie nicht in der Lage sind, diese Daten zu korrigieren. Sie schaffen es eben nie zur Gänze. Es ist unmöglich, ein "korrektes Ergebnis" zu präsentieren. Das Umfragetool war von vonherein die falsche Wahl, wenn sie ein Stimmungsbild oder gar eine halbwegs repräsentative Statistik haben wollten. Sie haben jetzt "ihr gewünschtes" Ergebnis, welches sie bezweckten. Dies werden sie verteidigen, ob falsch oder nicht. Kleine Anmerkung zum Schluss: Der Kampf um die seit ca. 40 Jahren tote Steigerwaldbahn wird sehr unerbittlich geführt. Während eine Seite eher zurückhaltend mit Fakten und Fachleuten arbeitet, wird hier leider mit effekthaschenden, hübsch aufgemachten Aktionen, PDF-Handreichungen und angeblichen Tatsachen populistisch in der Öffentlichkeit des Internet gearbeitet. Für mich ist es nichts anderes, wie auch diverse Parteien agieren, die ich nicht mag. Mir ist jedweder Radikalismus zuwider. Update 19.02.2021 Update 20.02.2021 Ich habe die Screenshots gerade an einem Win10, Firefox 85.0.2 erstellt... Achja... meine echte IP ist auch gerade nicht aus Franken (Tipp: Hessen)... wenn die Auswerter Glück haben, können Sie nun ein paar mehr Stimmen ausfiltern. Immerhin lege ich 3 weitere IP-Adressen offen Also Leute... Herausforderung: sucht 280-320 Stimmen aus aller Welt. Und denkt dran.. auch innerhalb Deutschlands kann man herausfinden, ob die Stimme in München, Frankfurt, Berlin oder Hamburg abgegeben wurde. Hinweis: das nennt man "IP Location". Und ausländische IP Adressen wären nach Doppelungen, das Erste, was ich suchen würde.... es war also nicht "geheim". Es war immer offen. Stichwort: qualitative Auswertung Im Endeffekt stellten die Tools (soweit sie cookie-fähig waren) über 100 alternative Absende-Adressen zur Verfügung. Denkt man dann daran, dass man IPv6 "verbieten" kann - heisst das, jeder Server hat 2 Adressen. Es wird bspw. in der PHP-Funktion "$_SERVER['REMOTE_ADDR'] " nur eine Adresse übergeben - NIE beide. Vorrang hat hierbei IPv6. Es braucht also zwei Server(verbindungen), möchte man beide Adressen erfahren. Finde ich auch schade. Im Endeffekt stehen somit weit über 200 Adressen zur Verfügung. Auch, weil Smartphones immer eine neue Adresse bekommen, wenn man "Flugmodus an - aus" tippt. Ich komme immer mehr zum Schluss: VCD und Förderverein sollten sich professionelle Hilfe für die Auswertung holen. Es ist jedenfalls, wie erwartet... statt zu sagen: Touché der Punkt geht an Dich. Respekt. Wir haben einen Fehler gemacht und Danke, dass Du auf die Fehler hinweist..... wird gleich wieder persönlich angegriffen. Und warum? Weil keine Argumente da sind und man sich getroffen fühlt. Schade.... und dann redet man von "aufeinander zugehen und Fakten diskutieren". Ich habe dagegen offen gesagt, wie so eine Umfrage "funktioniert".
Update 27.02.2021 Wie heißt es im Sprichwort? "Ein getroffener Hund bellt".... und jetzt beschweren sich die Vertreter vom VCD, teilweise werde ich auch beleidigt. Nunja. Ist so. Der Überbringer schlechter Nachrichten wurde früher oft geköpft. Es wäre halt ehrlich, wenn sie eine korrekte Statistik veröffentlichen würden. Nochmal.. das Stichwort heisst "IP Location". Und ich vermute, dass sie jetzt Angst haben, unter 1.000 Teilnehmer zu fallen, würden sie die IP-Adressen von ausserhalb (nur Unterfranken zählt) aussortieren. Und wie ich oben dargelegt habe.. theorethisch wären ja sogar manche IPs von ausserhalb zu zulassen (Dienstreisen, zentrale Internetzugänge von Firmen,...). Es ist schwierig, die eine Wahrheit zu finden. Egal. Vielleicht noch eine schöne Einordnung der angeblichen "1.700 Teilnehmer".
Datenherkunft: Landesamt für Statistik, Genesis Online, Fortschreibung der BevölkerungsstatistikTrackbacks
Trackback-URL für diesen Eintrag
Kommentare
Ansicht der Kommentare:
(Linear | Verschachtelt)
Noch keine Kommentare Die Kommentarfunktion wurde vom Besitzer dieses Blogs in diesem Eintrag deaktiviert.
|
ArchiveStatische SeitenKategorienBlog abonnierenPowered byVerwaltung des Blogs |