Big Data und Datenschutz

Nathan Daniels

Von: Nathan Daniels Lesezeit: 15 Minuten Update: 15-09-2021

In den letzten Jahrzehnten hat sich die Welt in vielerlei Hinsicht gewaltig verändert, vor allem im Bereich der IT. Die Anzahl der Menschen, mit denen wir täglich kommunizieren können, ist enorm gewachsen, genau wie die Menge an Informationen, zu denen wir Zugang haben. Dasselbe gilt aber auch für die Menge an Informationen, die große Unternehmen über uns sammeln. Begriffe wie Big Data werden im Laufe der Zeit immer häufiger verwendet. Aber was genau ist damit gemeint? Was ist Big Data? Ist es gefährlich? Wie wirkt es sich auf unsere Privatsphäre aus, wenn überhaupt? Das sind nur einige der Fragen, die wir in diesem Artikel behandeln.

Was ist Big Data?

List with magnifying glass Der Begriff „Big Data“ beschreibt die enormen Mengen an (persönlichen) Daten, die kontinuierlich von verschiedenen Stellen gesammelt werden. Ein Beispiel dafür sind die Informationen, die Google über die Suchanfragen seiner Nutzer/innen sammelt. Der Begriff „Big Data“ ist eine relativ neue Entwicklung, die damit begann, dass (große) Unternehmen und Organisationen wie Facebook, Google und die meisten Regierungen immer mehr Daten über ihre Nutzer/innen, Kund/innen und Bürger/innen sammeln als zuvor. Die neuen Technologien, die digitalisierte Welt und das Internet haben diese Entwicklung enorm begünstigt.

Die Datensammlungen von Big Data sind oft so umfangreich, dass es unmöglich ist, sie mit traditionellen Methoden der Datenanalyse zu bearbeiten. Analysiert man Big Data jedoch auf die richtige Weise, lassen sich interessante Muster und Schlussfolgerungen ziehen. Big Data wird zum Beispiel oft für groß angelegte Marktforschung genutzt: Für welche Produkte ist die Wahrscheinlichkeit am größten, dass sie gekauft werden? Welche Art von Werbung ist am effektivsten, wenn man Kunden erreichen und überzeugen will?

Um als Big Data zu gelten, sollte ein Datensatz in der Regel die folgenden drei Kriterien erfüllen, die auch als die 3 V’s bekannt sind:

Volumen: Big Data ist alles andere als eine kleine Stichprobe. Es handelt sich um riesige Datensammlungen, die aus langer, kontinuierlicher Beobachtung resultieren.
Velocity: Das hat mit der beeindruckenden Geschwindigkeit zu tun, mit der Big Data gesammelt wird. Zudem sind Big Data oft in Echtzeit zugänglich (während sie gesammelt werden).
Vielfalt:Große Datensätze enthalten oft viele verschiedene Arten von Informationen. Die Daten innerhalb großer Datensätze können sogar kombiniert werden, um Lücken zu schließen und den Datensatz noch vollständiger zu machen.

Abgesehen von diesen 3 V’s hat Big Data noch einige andere Eigenschaften. Zum Beispiel eignen sich Big Data hervorragend für maschinelles Lernen. Das heißt, sie können effektiv genutzt werden, um Computern und Maschinen bestimmte Aufgaben beizubringen. Außerdem können Big Data, wie wir bereits kurz erwähnt haben, dazu genutzt werden, Muster zu erkennen. Das geschieht meist auf sehr effektive Weise, indem Computer die Daten bearbeiten. Schließlich spiegeln Big Data die digitalen Fingerabdrücke der Nutzer/innen wider. Das bedeutet, dass sie ein Nebenprodukt der digitalen und Online-Aktivitäten der Menschen sind und genutzt werden können, um individuelle persönliche Profile zu erstellen.

Verschiedene Arten von Big Data

Es gibt verschiedene Möglichkeiten, Big Data zu kategorisieren. Die erste, am häufigsten verwendete Methode unterscheidet Big Data nach der Art der Daten, die gesammelt werden. Bei dieser Art der Klassifizierung werden drei mögliche Kategorien verwendet: strukturierte Big Data, unstrukturierte Big Data und halbstrukturierte Big Data.

Strukturiert: Wenn Big Data strukturiert ist, kann man sie in einer organisierten und logischen Art und Weise speichern und präsentieren, wodurch die Daten leichter zugänglich und nachvollziehbar werden. Ein gutes Beispiel wäre eine Liste mit Kundenadressen, die von einer Firma erstellt wurde. Darin findet man wahrscheinlich die Namen der Kunden, ihre Adressen und vielleicht noch andere Details wie Telefonnummern, die alle übersichtlich in einem Diagramm oder einer Tabelle dargestellt werden.
Unstrukturiert:Unstrukturierte Big Data sind nicht organisiert. Es fehlt eine logische Darstellung, die für den Durchschnittsmenschen Sinn ergibt. Unstrukturierte Big Data haben keine Struktur, wie z. B. eine Tabelle, die eine gewisse Kohärenz zwischen den verschiedenen Elementen des Datensatzes herstellt. Deshalb ist diese Datenkategorie ziemlich schwierig zu navigieren und zu verstehen. Zahlreiche Datensätze werden zunächst als unstrukturierte Big Data angelegt.
Halbstrukturiert: Wie du vielleicht schon vermutet hast, weisen semistrukturierte Big Data Merkmale sowohl von strukturierten als auch von unstrukturierten Big Data auf. Diese Art von Daten ist in ihrer Beschaffenheit und Darstellung nicht völlig willkürlich. Dennoch sind sie nicht strukturiert und organisiert genug, um für eine sinnvolle Analyse verwendet zu werden. Beispielsweise enthält eine Webseite bestimmte Metadaten-Tags (zusätzliche Informationen, die nicht direkt im Text sichtbar sind), z. B. weil sie bestimmte Schlüsselwörter enthält. Aus diesen Tags lassen sich bestimmte Informationen ablesen, z. B. der Autor einer Seite oder der Zeitpunkt, zu dem sie online gestellt wurde. Der eigentliche Text ist im Wesentlichen unstrukturiert, aber die Schlüsselwörter und andere Metadaten, die er enthält, machen ihn zu einer einigermaßen geeigneten Grundlage für die Analyse.

Klassifizierung basierend auf der Quelle der Big Data

Eine andere gängige Methode, um zwischen verschiedenen Arten von Big Data zu unterscheiden, ist die Quelle der Daten zu betrachten. Wer oder was hat die Informationen erzeugt? Wie die vorherige Unterteilung besteht auch diese Klassifizierungsmethode aus 3 verschiedenen Kategorien.

Menschen: In dieser Kategorie geht es um Big Data, die von Menschen erzeugt werden. Beispiele wären Bücher, Bilder, Videos sowie Informationen und (persönliche) Daten auf Websites und in sozialen Medien wie Facebook, Twitter, Instagram und so weiter.
Prozessregistrierung: Diese Kategorie umfasst die eher traditionelle Art von Big Data, die von (großen) Unternehmen gesammelt und analysiert werden, um bestimmte Prozesse in einem Unternehmen zu verbessern.
Maschinen: Diese Art von Big Data entsteht durch die ständig wachsende Zahl von Sensoren, die in Maschinen eingebaut werden. Zum Beispiel der Wärmesensor, der oft in Computerprozessoren eingebaut ist. Die von Maschinen erzeugten Daten sind oft sehr komplex, aber zumindest ist diese Art von Big Data in der Regel gut strukturiert und vollständig.

Wofür kann Big Data genutzt werden?

Facebook logo Alles, was bisher besprochen wurde, klingt vielleicht noch etwas abstrakt. Werden wir doch ein bisschen konkreter und diskutieren wir einige praktische Anwendungen von Big Data. Schließlich gibt es viele, viele Möglichkeiten, wie Unternehmen und Organisationen Big Data nutzen. Als erstes fallen mir die riesigen Datenmengen ein, die Unternehmen über mich sammeln. Facebook sammelt Daten über alle seine Nutzerinnen und Nutzer und analysiert diese, um zu entscheiden, was dir auf deiner Timeline angezeigt werden soll. Natürlich geschieht dies, um Ihren persönlichen Wünschen und Interessen gerecht zu werden. Facebook hofft, dass Sie dadurch dazu gebracht werden, länger auf der Website zu bleiben. Im Gegenzug sammelt Amazon Informationen über seine Kunden und die Produkte, die sie kaufen. So kann Amazon Ihnen Produkte empfehlen, von denen sie glauben, dass sie für Sie interessant sind, und auf diese Weise ihre Einnahmen erhöhen.

Big Data wird aber auch auf ganz andere Weise genutzt als die oben beschriebenen kommerziellen Strategien. Öffentliche Verkehrsbetriebe können zum Beispiel Daten darüber sammeln, wie stark bestimmte Strecken ausgelastet sind. Sie können diese Daten anschließend analysieren, um zum Beispiel zu entscheiden, auf welchen Strecken zusätzliche Busse oder Züge benötigt werden. Ein weiterer bekannter Fall für die effektive Nutzung von Big Data ist der internationale Zustellriese UPS. UPS nutzt eine spezielle Software, die nach einer Big-Data-Analyse entwickelt wurde. Die Software hilft den UPS-Fahrern, Linkskurven zu vermeiden, die teurer, verschwenderischer und gefährlicher sind als Rechtskurven. Dieses System hat UPS dank Big Data angeblich schon Millionen von Litern Kraftstoff gespart.

Ein weiteres interessantes Beispiel für das Sammeln von Big Data sind DNA-Tests und Websites wie MyHeritage DNA. Diese Webseite behauptet, sie könne Ihnen helfen, „Ihre ethnische Herkunft zu ermitteln und neue Verwandte zu finden“ – mit einem einfachen DNA-Test. Dieser Prozess beinhaltet natürlich eine Menge Datenerfassung und Querverweise, was ihn zu einem weiteren wichtigen Akteur in der Big Data-Erfassung und -Nutzung macht. Auch „traditionelle“, physische DNA-Tests sind mit einer großen Menge an Big Data verbunden, da die Unternehmen, die diese Tests durchführen, sehr große Datensätze über viele, viele Menschen erhalten. Selbstverständlich ist es wichtig, sich der möglichen Risiken bewusst zu sein, die mit diesen Big Data-Prozessen verbunden sind. Im nächsten Teil dieses Artikels werden wir diese Risiken näher beleuchten.

Ist Big Data gefährlich?

Wie oben gezeigt, können Big Data in vielen Fällen unglaublich nützlich sein. Sie bieten uns zahlreiche Informationen, die wir nutzen können, um Prozesse zu rationalisieren und Unternehmen effizienter und profitabler zu machen. Das heißt aber nicht, dass das Sammeln und Nutzen von Big Data völlig risikofrei ist. Big Data birgt fünf wichtige Risiken in sich. Wir werden alle fünf hier besprechen.

Hacker und Diebe

Bei allem, was wir online tun, besteht ein inhärentes Risiko, dass unsere persönlichen Daten und Informationen über unsere Internetaktivitäten gestohlen werden könnten. Jeder Internetnutzer muss sich dessen bewusst sein. Die Anzahl der Datenlecks und -diebstähle hat in den letzten Jahren drastisch zugenommen. Oft wird in den Nachrichten über Kriminelle berichtet, die Datensätze mit Passwörtern und anderen Informationen an Orten wie dem Dark Web verkaufen. Häufig werden diese Datensätze von offiziellen Websites, Unternehmen und Organisationen gestohlen. Je größer diese Datensätze sind, desto interessanter wird es für Diebe, sie zu beschaffen. Wenn ihnen diese Datensätze in die Hände fallen, können sie eine Menge Probleme verursachen. Natürlich könnte dies auch Ihre Privatsphäre stark beeinträchtigen.

Datenschutz

Die Erfassung personenbezogener Daten wird immer häufiger praktiziert. Allerdings können die aktuellen Datenschutzbestimmungen nicht mit der rasanten Entwicklung der Technologie mithalten, die diese Praxis möglich macht. Dies lässt Raum für Grauzonen und Unsicherheiten, die nicht durch einen Blick auf das Gesetz gelöst werden können. Zu den wichtigen Fragen, die sich in Bezug auf den Datenschutz stellen, gehören: Welche Art von Daten dürfen gesammelt werden? Über wen? Wer sollte Zugang zu diesen Daten haben?

Wenn große Datenmengen gesammelt werden, ist die Wahrscheinlichkeit groß, dass sensible persönliche Informationen in diesen Datensätzen enthalten sind. Das ist problematisch, selbst wenn keine Hacker und Diebe im Spiel sind. Denn datenschutzsensible Daten können von jedem mit bösen Absichten missbraucht werden. Dazu gehören auch (böswillige) Unternehmen und Organisationen.

Schlechte Datenanalyse

Viele Unternehmen und Organisationen sammeln Big Data, weil sie diese für interessante Analysen nutzen können. Dies kann ihnen wichtige neue Einblicke in das verschaffen, was sie erforschen (wie z.B. die Verbrauchergewohnheiten). Diese Erkenntnisse und Schlussfolgerungen könnten wiederum zu Veränderungen innerhalb des Unternehmens führen, die höhere Margen und mehr Gewinn zur Folge haben. Allerdings kann eine falsche Analyse von Big Data, wie bei jedem anderen normalen Datensatz auch, schwerwiegende Folgen haben. Schließlich kann eine unsachgemäße Analyse leicht zu falschen Schlussfolgerungen führen. Diese wiederum können dazu führen, dass unwirksame oder sogar kontraproduktive Maßnahmen ergriffen werden.

Erfassen der „falschen“ Daten

Big Data wird immer beliebter und Organisationen sind immer mehr bereit, alle Arten von Daten zu sammeln. Dies bedeutet, dass gigantische Datenmengen erfasst werden, ohne dass es einen klaren Grund für deren Analyse gibt. Anders ausgedrückt: Es entsteht eine riesige Datenbank mit unbearbeiteten Informationen, die nur für den Fall gesammelt wurden. Die Unternehmen denken wahrscheinlich, dass es einfach genug ist, all diese Daten zu sammeln, so dass sie es auch tun können. Das ist natürlich nicht gut für die Privatsphäre der Bürger. Es kann sogar dazu führen, dass irrelevante oder „falsche“ Daten gesammelt und analysiert werden. Wenn die Schlussfolgerungen, die aus dieser Analyse gezogen werden, in der Verwaltung verwendet werden, könnte dies zu den gleichen ineffektiven Maßnahmen führen, die im vorherigen Absatz erwähnt wurden.

Erfassen und Speichern von Big Data mit bösen Absichten

Die Sammlung von Big Data wird immer häufiger von Unternehmen, Organisationen und Regierungen genutzt, um genaue individuelle Profile von Menschen zu erstellen. Die Nutzer oder Bürger werden kaum jemals darüber informiert, welche ihrer persönlichen Daten registriert werden, geschweige denn warum und wie. Dies hat natürlich schwerwiegende Auswirkungen auf ihre Online-Privatsphäre. Alles, was sie online tun, kann gespeichert und später eingesehen werden. Darüber hinaus könnten Big Data-Sammler die Entscheidungsfindung der Menschen leicht beeinflussen und manipulieren, indem sie die gesammelten Daten analysieren und nutzen.

Big Data und Datenschutz

Smartphone with picture of ear Wie Sie inzwischen wahrscheinlich wissen, ist Big Data mit vielen Nachteilen und Risiken verbunden. Trotzdem sammeln viele Unternehmen und Organisationen nach wie vor in großem Umfang Daten, vor allem, weil sie damit wachsen und sich weiterentwickeln können. Die Erfassung von Big Data ist so einfach wie nie zuvor. Dies hat enorme Konsequenzen für unsere Daten. Wir haben die möglichen Gefahren für den Datenschutz durch böswillige Parteien, die schlechte Daten sammeln, bereits kurz diskutiert. Weil unsere Privatsphäre so stark mit der Massenerfassung persönlicher Daten verknüpft ist, möchten wir in diesem Abschnitt die verschiedenen Datenschutzbedenken erörtern, die mit Big Data einhergehen.

Groß angelegte Datenerfassung

Viele Unternehmen, darunter Google, Facebook und Twitter, sind in hohem Maße auf Werbung angewiesen, um sich selbst zu erhalten und Gewinne zu erzielen. Um diese Anzeigen so effektiv wie möglich zu gestalten, erstellen diese Unternehmen detaillierte Profile ihrer Nutzer, insbesondere unter Berücksichtigung ihrer Vorlieben und Interessen. Das ist eine Form von Big Data. Ebenso sind auch Regierungen und Geheimdienste auf Big Data angewiesen. Sie verwenden diese riesige Menge an Informationen, um Personen, die sie für verdächtig halten, zu verfolgen und zu untersuchen. Natürlich bedeutet dies auch, dass es eine Menge Big Data gibt, die Cyberkriminelle in die Hände bekommen und vielleicht sogar manipulieren und missbrauchen können. Dies kann alle möglichen Probleme in Bezug auf Datenschutz und Identität verursachen. Eines, das mir in den Sinn kommt, ist der Identitätsdiebstahl.

Die Möglichkeiten, die sich aus der Erfassung in Datenbanken ergeben, gehen jedoch weit darüber hinaus. Die Technologie ist heutzutage so fortschrittlich und „intelligent“ geworden, dass sie Datensätze kombinieren kann. Das geht auf so clevere und raffinierte Weise, dass große Unternehmen und Organisationen wahrscheinlich mehr über Sie wissen als Sie selbst! Wie Sie sind, wo Sie leben, welche Hobbys Sie haben, wer Ihre Freunde sind: keine dieser Informationen ist mehr privat. Nicht gerade ein beruhigender Gedanke, werden Sie denken. Zum Glück gibt es einige Möglichkeiten, wie Sie sich vor der weitreichenden Verletzung der Privatsphäre durch Big Data schützen können.

Datenschutzgesetze

Cookies on screen Datenschutzgesetze und -vorschriften können uns vor Verletzungen der Datensicherheit schützen, aber nur bis zu einem gewissen Grad. Erschwerend kommt hinzu, dass die Datenschutzgesetze in den verschiedenen Ländern und Regionen oft sehr unterschiedlich sind. So gilt in Europa beispielsweise ein relativ strenges Gesetz zum Schutz der Privatsphäre der Verbraucher, die Allgemeine Datenschutzverordnung (GDPR). Das Gesetz gilt für alle EU-Mitgliedstaaten, auch wenn die Details von Land zu Land unterschiedlich sein können. Zahlreiche internationale Unternehmen haben beschlossen, ihr gesamtes Geschäft an die GDPR zu binden. Deshalb ermöglicht es beispielsweise Google seinen Nutzern jetzt, die Löschung ihrer persönlichen Daten zu beantragen. Allerdings unterscheiden sich die Datenschutzgesetze in den Vereinigten Staaten von Staat zu Staat und schützen die Verbraucher nicht so gut wie in der EU. Das gilt leider auch für das strengste Datenschutzgesetz der USA, den California Consumer Privacy Act.

Kurz gesagt, es gibt kein starkes „globales“ Datenschutzgesetz, das für alle großen Datensammler gilt und alle Nutzer schützt. Dies bedeutet, dass unsere Datenschutzrechte von großen Datensammlern nicht nur auf illegale, sondern sogar auf völlig legale Weise verletzt werden, so paradox dies auch klingen mag. Zum Glück haben die groß angelegten Verletzungen der Privatsphäre, die von Whistleblowern wie Edward Snowden und Chelsea Manning aufgedeckt wurden, das Bewusstsein für die Risiken von Big Data stark erhöht. Das ist natürlich nur ein erster Schritt zur Verbesserung der aktuellen Datenschutzgesetze.

Viele Internetnutzer sind nicht bereit, auf eine Verbesserung der Datenschutzgesetze zu warten – und das zu Recht. Vielmehr wollen sie selbst aktiv werden und alles tun, was sie können, um ihre Privatsphäre zu schützen. Möchten auch Sie vermeiden, dass Sie Teil von zahllosen großen Datensätzen werden? Es gibt einige Tipps und Tricks, die Ihnen auf Ihrem Weg helfen.

Wie Sie verhindern, dass Ihre Daten in großen Datenbeständen gespeichert werden

Große Datensätze gefährden massiv Ihren Datenschutz und Ihre Sicherheit. Diese Datensätze können alle möglichen (persönlichen) Informationen enthalten, die von großen Unternehmen oder sogar von Cyber-Kriminellen missbraucht werden könnten. Daher sollten Sie immer darauf achten, so wenig Online-Spuren wie möglich zu hinterlassen. Die folgenden Tipps können Ihnen dabei helfen:

Versuchen Sie, die Verwendung Ihrer persönlichen Daten bei der Erstellung von Passwörtern oder allgemein im Internet auf ein Minimum zu beschränken. Zum Beispiel: Vermeiden Sie die Verwendung Ihres Namens, Ihrer Adresse, Ihrer Telefonnummer, Ihres Geburtsdatums und so weiter.
Denken Sie immer an Folgendes: Was Sie im Internet veröffentlichen, bleibt dort für immer gespeichert. Dies mag zwar nicht immer ganz zutreffen, aber dieses Maß an Vorsicht hilft, Ihre Privatsphäre zu schützen. Sobald Sie sich dieser Tatsache bewusst sind, werden Sie automatisch sorgfältiger mit Ihren privaten Daten umgehen.
Sorgen Sie dafür, dass Ihre Internetverbindung sicher und anonymisiert ist, indem Sie z.B. den Tor-Browser oder ein VPN verwenden.
Verwenden Sie einen oder mehrere Werbeblocker in Ihrem Browser.
Verwenden Sie ein oder mehrere Browser-Plug-Ins, die Tracker und Cookies blockieren.
Leeren Sie regelmäßig Ihren Cache und löschen Sie Ihren Browserverlauf und Ihre Cookies.
Melden Sie sich von Websites ab, wenn Sie diese nicht aktiv nutzen.

Diese Schritte sind ein guter Anfang, wenn es um den Schutz Ihrer Online-Daten und Sicherheit geht. Vergessen Sie jedoch nicht, dass Big Data auf viele verschiedene Arten erfasst werden – nicht nur online. Kurz gesagt: Wo auch immer Sie sind und was auch immer Sie tun, Sie sollten immer wachsam sein und versuchen, Ihre (persönlichen) Daten vor Big Data-Sammlern zu schützen.

Nathan Daniels Autor

Technik-Journalist

Nathan ist ein international ausgebildeter Journalist und hat ein besonderes Interesse an der Prävention von Cyberkriminalität, vor allem wenn es um gefährdete Gruppen geht. Für VPNoverview.com recherchiert er auf dem Gebiet der Cybersicherheit, der Internetzensur und des Online-Datenschutzes.

Einen Kommentar verfassen