NSA und Co – Auswertung von Massendaten in R am Beispiel E-Mail-Korrespondenz

Seit den Enthüllungen der NSA Aktivitäten durch ehemalige Mitarbeiter (sogenannte „Whistleblower“) rückt die Thematik der generellen und verdachtsunabhängigen Überwachung auch bei uns in Deutschland immer weiter in den Vordergrund. Dies ist vor allem der Tatsache geschuldet, dass eigentlich alle modernen Kommunikationswege davon betroffen waren und sind, egal ob es sich um Telefonate, Textmitteilungen oder E-Mails handelt.
Ausgewertet werden dabei: der eigentliche Inhalt, Aufenthaltsstandort(e) und damit Bewegungsprofile, Zeitpunkt, benutzte Hardwarekomponenten, und viele weitere. Diese Daten werden auf bekannte Muster untersucht, oder sie dienen dazu, neue Muster in den Daten zu identifizieren und die vorhandenen Erkennungs-Algorithmen zu optimieren.

Länder, die im Zusammenhang mit „verdächtigem“ Content am häufigsten in der Korrespondenz auftauchen. Je dunkler der Farbton, desto „verdächtiger“ der Content im Mittel. Die Größe spiegelt die absolute Anzahl der Nachrichten wider.

Aber was genau lässt sich eigentlich auswerten, und ab wann mache ich mich als User „verdächtig“, gerate also in den engeren Kreis potenziell Verdächtiger? Mit absoluter Sicherheit lässt sich dies ohne konkreten Einblick in die Praxis wohl nicht präzise sagen. Dennoch braucht es kein Detailwissen, um zu mutmaßen, dass ein bestimmtes Nutzerverhalten wie das Verschicken von Texten, die bestimmte Schlagwörter enthalten, die Chance erhöht, in die engere Auswahl „verdächtiger Elemente“ zu gelangen. (…)

Aufgrund der Vielzahl an Code-Beispielen ist der gesamte Artikel als PDF angehängt.

Ganzen Artikel lesen? Bitte klicken Sie auf das PDF.

Artikel_NSA und Co

Clemens v. Bismarck-Osten

Data Scientist

See Full Bio

NSA und Co – Auswertung von Massendaten in R am Beispiel E-Mail-Korrespondenz

1 Kommentar

Schreibe einen Kommentar Antwort verwerfen

NSA und Co – Auswertung von Massendaten in R am Beispiel E-Mail-Korrespondenz

Ähnliche Posts

Databricks verstehen – Teil 4: Gegenüberstellung der Ansätze und Fazit

Databricks verstehen – Teil 3: Was ist DBT und warum ist es für moderne Datenpipelines so wichtig?

Databricks verstehen – Teil 2: Was ist Databricks? Was bietet mir das Tool?

1 Kommentar

Schreibe einen Kommentar Antwort verwerfen